Издательский дом ООО "Гейм Лэнд"СПЕЦВЫПУСК ЖУРНАЛА ХАКЕР #52, МАРТ 2005 г.

Кибернетическое бессмертие

Дмитрий Сошников

Спецвыпуск: Хакер, номер #052, стр. 052-016-4


Основная проблема создания экспертных систем – получение знаний от человека-эксперта. Поскольку эксперт, как правило, не обладает навыками программирования, а программист не способен адекватно общаться с экспертом на его языке, обычно в роли посредника выступает отдельный специалист – инженер по знаниям (рис. 2). Задача инженера по знаниям – уметь "разговаривать на одном языке" с экспертом (специалистом в своей области знаний) и с программистом, который при всем желании не смог бы вникнуть в тонкости предметной области. Для извлечения знаний существует множество методов, но эта задача остается чрезвычайно трудоемкой, препятствуя широкому распространению баз знаний.

Машинное обучение

Иногда требуется решить задачу, обратную построению баз данных. Имеются массивы разрозненных данных и требуется обнаружить в них скрытые закономерности. Типичный пример - уже упомянутая статистика покупок в интернет-магазине. Кто бы мог подумать, что покупатели клюшек для гольфа так же часто интересуются дорогими игровыми приставками? Оказывается, многие состоятельные бизнесмены любят делать своим внукам хорошие подарки...

В таких случаях на помощь приходят методы, известные как машинное обучение или извлечение знаний из баз данных. Эти методы способны обнаружить в данных глубинные зависимости и представить их в форме знаний: правил, сетей, групп объектов и т.д. Далее эти знания могут быть использованы в составе базы знаний или интерпретироваться людьми для получения более подробной информации.

Рассмотрим основные методы, используемые в машинном обучении совместно с базами данных. К сожалению, многие интересные современные методы нам не удастся даже упомянуть (к примеру, извлечение структуры web-сайтов и web-сообществ, эволюционное обучение, применение методов машинного обучения к анализу текстов, фильтрации спама и др.).

Анализ данных и OLAP-технологии

Часто обнаружить какие-либо ценные закономерности в полученных данных только с помощью средств автоматики сложно или организация (она же – заказчик БД) не имеет в штате сотрудников соответствующей квалификации. В этом случае прибегают к технологиям ручного анализа данных, среди которых наиболее распространена технология OLAP (On-Line Analytical Processing). Суть этой технологии - в рассмотрении различных срезов данных с целью выявления закономерностей.

Например, имеется таблица данных о совершенных покупках и о покупателях (рис. 3). Можно сгруппировать суммарную стоимость покупок, с одной стороны, по возрастной категории, а с другой – по категории покупки. Такая группировка позволит выявить тот факт, что покупатели старшего поколения предпочитают книги, в то время как люди моложе отдают предпочтение компакт-дискам. Группируя данные различным образом и оперируя с различными суммарными показателями (среднее, сумма, процент от общего значение и т.д.), аналитик может выявлять различные статистические закономерности, которые потом можно будет применять на практике.

Для использования OLAP-технологий существует множество специализированных программных средств, однако базовые возможности имеются в стандартной офисной программе Microsoft Excel в виде сводных таблиц Pivot Table и графиков Pivot Chart.

Назад на стр. 052-016-3  Содержание  Вперед на стр. 052-016-5