Издательский дом ООО "Гейм Лэнд"СПЕЦВЫПУСК ЖУРНАЛА ХАКЕР #52, МАРТ 2005 г.

Кибернетическое бессмертие

Дмитрий Сошников

Спецвыпуск: Хакер, номер #052, стр. 052-016-5


Индукция правил и деревья решений

В то время как OLAP-технологии являются лишь инструментом аналитика, существуют методики, позволяющие автоматически находить в данных закономерности и формулировать их в виде правил. Применение алгоритмов извлечения знаний позволяет получать в результате правила следующего вида:

Листинг

ЕСЛИ дата покупки приходится на декабрь

И покупатель приобрел подарочное издание книги

ТО покупатель также приобрел подарочную открытку

КОЭФФ. УВЕРЕННОСТИ: 80%, ПОКРЫТИЕ: 10%

Указанный коэффициент уверенности 80% означает, что правило выполняется в 80% случаев, а в 20% ситуаций его заключение при истинных посылках оказывается неверным. Покрытие показывает, какой процент данных из общего количества удовлетворяет этому правилу.

Индукция правил по массивам данных может стать альтернативой ручному способу построения баз знаний (рис. 2). Однако полученные в результате правила не всегда правильно отражают закономерности предметной области, поэтому методы машинного обучения скорее подходят для анализа данных в такой последовательности: обработка данных машинными методами, затем изучение полученных результатов экспертами или инженерами по знаниям.

Для индукции правил существуют известные алгоритмы ID3 и C4.5, реализованные во многих специализированных системах для анализа данных и машинного обучения (Orange, iDA и другие). Эти алгоритмы основаны на построении деревьев решений – древовидных диаграмм, наглядно показывающих ход решения задачи (см. рис. 4).

Кластеризация и классификация

Другой важной задачей, решаемой в рамках машинного обучения, является кластеризация и классификация, в ходе которых множество объектов разбивается на некоторые характерные классы. В случае с интернет-магазином имеет смысл разбивать потребительскую аудиторию на классы интересов (научная фантастика, философия и т.д.) с учетом совершенных ими покупок и затем предлагать каждой категории соответствующую литературу. Более сложная задача классификации – с учетом текста книги относить ее к той или иной смысловой категории.

Задача кластеризации может решаться как на основании обучения с учителем (когда мы заранее задаем множество классов и примеров объектов, попадающих в эти классы), так и путем обучения без учителя, когда задается только число классов, а множества похожих объектов выделяются и группируются алгоритмом самостоятельно. Например, можно попросить алгоритм разбить все множество покупателей на три класса, тем самым обнаружив наиболее явные группы покупателей автоматически (это могут быть, к примеру, "техническая литература и фэнтези", "любовные романы и эзотерика" и "поэзия и искусство").

Коллаборативная фильтрация

Еще одна разновидность обучения - группа статистических методов, известная как коллаборативная фильтрация. Вполне закономерно, что если большинство покупателей учебника по искусственному интеллекту также приобретают какой-либо носитель с фильмом "Матрица", то новым покупателям подобных книг можно в ненавязчивой форме предлагать и этот товар. Простейшим примером коллаборативной фильтрации являются подсказки интернет-магазинов "вместе с этим товаром также покупают". Отличительной особенностью коллаборативной фильтрации является то, что генерирования знаний по данным не происходит, а список объектов получают с учетом исходных данных чисто статистическими методами .

Назад на стр. 052-016-4  Содержание  Вперед на стр. 052-016-6