Обработка текста в интеллектуальных системах включает морфологический, синтаксический и семантический анализ.
Морфологический анализ выполняется вне связи с контекстом, его результатами являются выделение основ слов, определение свойств слова (часть речи, падеж, число и т.п.), идентификация в множестве слов (словаре). Используют два метода морфологического анализа. Декларативный метод заключается в записи в словарь всех грамматических форм слова. Этот метод трудоемок при создании словаря, но прост при его использовании. Процедурный метод основан на записи в словарь только основ слов и выделении при собственно анализе этих основ, т.е. анализ фактически сводится к отбрасыванию аффиксов (окончаний и суффиксов) и сопоставлению оставшейся основы с содержимым словаря. Отметим, что часть слова после удаления окончания называют токеном.
Синтаксический анализ предназначен для определения структуры фрагментов (предложений) текста. Отметим, что в программировании синтаксическим анализом называют фазу трансляции, на которой проверяется соблюдение синтаксиса исходного языка и вырабатывается описание на некотором промежуточном языке для последующей генерации кода объектной программы
Семантический анализ — определение (в интеллектуальных системах) смысловых характеристик слов или словосочетаний. Одной из задач семантического анализа является контекстно-свободный поиск документов по запросу в виде слова или фразы в больших документальных базах. Большинство существующих систем основываются исключительно на морфологическом анализе слов и не задействуют более сложных схем анализа [3].
В управлении знаниями различают данные трех типов: сильно структурированные данные (собственно данные), слабо структурированные данные (текстовые документы на языке естественном или ограниченно естественном), информация о способах решения проблем (иногда именно эту группу называют знаниями).
Для работы с сильно структурированными данными используют технологии реляционных баз данных.
В работе с слабо структурированными данными различают несколько групп задач. К ним относятся: машинный перевод, общение человека с компьютером, синтез речи, а также задачи, рассмтриваемые ниже.
1. Поиск текстовой информации (информационный поиск). Эта задача решается в информационно-поисковых системах с использованием понятий поисковый образ и запрос и определением степени их релевантности. Оценка релевантности чаще всего производится статистическими методами. В качестве критериев релевантности применяют:
Отдельное место в задаче поиска занимает поиск по динамически формируемым запросам. Реализация поиска по запросам, формируемым в процессе самого поиска, используется для извлечения новых фактов или формировании сообщений по вновь сформированной теме, при создании компьютерного виртуального собеседника и с необходимостью входит в число задач управления знаниями.
2. Классификация и кластеризация документов. Под кластеризацией понимают выделение признаков объектов некоторого множества, характеризующих степень их взаимного сходства или различия, и формирование на основе такого выделения групп (классов) родственных объектов. Собственно отнесение объектов к тому или иному классу из числа заданных называют классификацией .
Одним из методов выделения классообразующих признаков для текстовых документов является взвешивание терминов. Веса терминов в заданной выборке документов определяются одним из следующих способов:
= ,
где — число слов в выборке.
При классификации сопоставляют входящие в систему документы с сформированными классами. Отнесение документа к определенному классу выполняется по минимуму расстояния классифицируемого документа от сформированных классов. Понятие расстояния можно связать с той или иной нормой разности векторов =(, ,..., ) двух сравниваемых документов, например:
= | -
Для решения задач классификации используются алгоритмы, типичные для ИПС или систем Data Mining. Например, в Data Mining находит применение алгоритм дерева решений (Decision Tree), в соответствии с которым значение каждого из исследуемых атрибутов классифицируется с использованием правил вида “если — то”. Каждый узел дерева представляет собой некий вопрос. ответ на который позволяет отнести рассматриваемый документ к тому или иному классу.
Классы образуют путем разделения или объединения документов выборки в группы по критерию "близости" — малого расстояния между документами. Используемый при этом метод кластеризации иногда называют методом “ближайшего соседа”.
3. Построение тезаурусов. Тезаурус — упорядоченный перечень терминов, используемых в некоторой предметной области, с отражением семантических связей между ними. Существуют стандарты на требования к тезаурусам, на их структуру и правила построения (ГОСТ 7.25-80 и ГОСТ 7.24-90). Эти стандарты ориентированы на тезаурусы конкретных предметных областей, структурирование тезаурусов связано с такими понятиями, как дисциплина, предмет, метод, процесс. явление, свойство, величина, отношение и др.
4. Выражение семантики документа на формальном языке. Перевод текста с естественного языка на формальный требуется для реализации возможностей автоматической семантической обработки текста. Примерами формальных языков могут служить языки онтологий.
5. Принятие решений. Решение может быть представлено одним или совокупностью нескольких элементов заданного целевого множества. В отличие от задачи поиска, где результатом может быть много альтернатив, здесь совокупность нескольких элементов есть одна альтернатива. Поэтому кроме отношения релевантности, нужно учитывать некоторые дополнительные отношения предпочтительности. Эти отношения задаются экспертами (как в методе анализа иерархий) или представлены функцией полезности (как в задачах оптимизации), определенной на множестве метаданных.
6. Генерация новых знаний. К новым знаниям в системах управления знаниями относится установление новых отношений на множестве элементов базы знаний (БЗ), приводящее к получению нового полезного решения возникшей практической проблемы. Это выражается в добавлении или новых продукций к базе знаний, или новых вершин и/или связей в семантическую сеть понятий. Например, установление связи документов, описывающих практические задачи, и документов, описывающих принятие решения в условиях, совпадающих с условиями задачи. Если задача принятия решений относится к интерпретации фактов при заданной базе знаний, то генерация новых знаний — изменение самой БЗ. К генерации новых знаний следует отнести извлечение информации из текстовых данных (Data Mining) и представление ее, например, в виде семантической сети.
7. Автоматическое реферирование и автоматический машинный перевод. Автоматический машинный перевод – это одна из старейших задач искусственного интеллекта и на текущий момент представлено множество коммерческих систем, способных переводить несложные тексты.
Список литературы
1. Башмаков А.И., Башмаков И.А. Интеллектуальные информационные технологии. — М.: Изд-во МГТУ им. Н.Э.Баумана, 2005.
2. Попов Э.В. Экспертные системы. Решение неформализуемых задач в диалоге с ЭВМ. — М.: Наука, 1987.
3. Селезнев К. Обработка текстов на естественном языке //«Открытые Системы», № 12, 2003