Data Mining (DM) — направление в области интеллектуальных систем, связанное с поиском в больших объемах данных скрытых закономерностей. Data Mining можно интерпретировать как обнаружение знаний в базах данных или как интеллектуальный анализ данных. Дословно DM переводится как добыча данных. Другими словами, это добыча знаний, необходимых для принятия решений в различных сферах человеческой деятельности. При этом под знаниями понимается совокупность сведений, которая образует целостное описание, соответствующее некоторому уровню осведомленности об описываемом вопросе, предмете, проблеме и т.д. Искомые закономерности часто выражаются в виде шаблонов (паттернов — patterns), которые представляют собой некоторые выборки данных. Построение моделей прогнозирования также является целью поиска закономерностей.
Cтатистические методы методы анализа данных и OLAP в основном ориентированы на проверку заранее сформулированных гипотез и на предварительный анализ данных, в то время как Data Mining занимается поиском неочевидных закономерностей.
Единого мнения относительно того, какие задачи следует относить к Data Mining, нет. В большинстве источников называются следующие основные задачи:
Важной задачей, близкой к Data mining является поиск знаний (knowledge discovery).
С помощью классификации объекты распределяются между заранее определенными группами.
Целью кластеризации является определение таких групп.
Ассоциация имеет целью определение отношений между событиями.
Прогнозирование используется для предсказания событий на основе известных уже имевших место фактов и событий.
Text Mining — одна из подобластей Data Mining, которая ориентирована на обработку текстовой информации и широко применяется для мониторинга ресурсов Интернет. Задача Text Mining — проанализировать не синтаксис, а семантику значения текстов, выбрать из него информацию, наиболее значимую для пользователя (есть тесная связь с контент-анализом). Обычно выделяют такие приложения Text Mining:
Основная особенность Data Mining — это сочетание количественного и качественного анализа. Большинство аналитических методов, используемых в технологии Data Mining, - это известные математические алгоритмы и методы.
Процесс извлечения знаний в Data Mining состоит из следующих стадий:
Стадия 1. Выявление закономерностей (свободный поиск).
Стадия 2. Использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование).
Стадия 3. Анализ исключений — выявление и объяснение аномалий, найденных в закономерностях.
Арсенал средств Data Mining довольно обширен. Классификация методов Data Mining выполняется по ряду признаков.
В зависимости от полноты используемых при анализе данных различают методы следующих двух групп:
1. Методы с непосредственным использованием данных с их сохранением на всех стадиях анализа. Недостаток методов этой группы — возможные сложности анализа сверхбольших баз данных. К этой группе относятся кластерный анализ, метод ближайшего соседа, метод k-ближайшего соседа, рассуждение по аналогии.
2. Методы с выявлением и использованием формализованных закономерностей, или дистилляция шаблонов. При этом образцы (шаблоны) информации извлекаются из исходных данных на стадии свободного поиска и преобразуются в некие формальные конструкции, которые и используются на стадиях прогностического моделирования и анализа исключений. Очевидно, что шаблоны значительно компактнее самих баз данных. К этой группе относятся логические методы; методы визуализации; методы кросс-табуляции; методы, основанные на уравнениях.
Статистические методы Data mining подразделяют на следующие группы:
1. Дескриптивный анализ и описание исходных данных.
2. Анализ связей (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ).
3. Многомерный статистический анализ (компонентный анализ, дискриминантный анализ, многомерный регрессионный анализ, канонические корреляции и др.).
4. Анализ временных рядов (динамические модели и прогнозирование).
К кибернетическим методам Data Mining относят:
искусственные нейронные сети (распознавание, кластеризация, прогноз);
• эволюционное программирование (в т.ч. алгоритмы метода группового учета аргументов);
генетические алгоритмы (оптимизация);
• ассоциативную память (поиск аналогов, прототипов);
нечеткую логику;
• деревья решений;
экспертные системы.
Список литературы
1. Инструменты data mining: что лучше выбрать? — http://citcity.ru/12997/
2. http://logic.pdmi.ras.ru/~yura/internet/01ia-seminar-note.doc
3. Чубукова И.А. Data Mining/ - http://www.intuit.ru/department/database/datamining/