Информационный поиск является основной функцией информационно-поисковых и информационно-справочных систем, служит основой для функционирования многочисленных служб Интернета. Он также необходим в большинстве систем, основанных на знаниях. В частности, поиск используется в системах Data Mining и Text Mining, в корпоративных системах управления знаниями (Knowledge Management Systems), в системах поддержки принятия решений (DSS или СППР) и др. От эффективности поиска в интеллектуальных системах существенно зависит успех решения конечных задач.
Поиск осуществляется в базе (коллекции) документов, каждый документ в которой характеризуется строкой вида
Xk= (xk1, xk2,...xkn), (1)
где xki — i-й параметр k-го документа, n — число параметров. В частности, если параметром является наличие или отсутствие в тексте документа определенного ключевого слова, то n - число учитываемых при поиске слов, а совокупность строк (1) для всех m документов образует матрицу ключевых слов для базы документов.
Показателями эффективности информационного поиска являются коэффициенты точности и полноты. Коэффициент точности — отношение числа найденных релевантных документов к общему числу найденных документов. Коэффициент полноты — отношение числа найденных релевантных документов к числу релевантных документов в коллекции. Отметим, что релевантным называется документ, соответствующий запросу пользователя.
Существует ряд подходов к осуществлению информационного поиска.
Во-первых, по объему учитываемой при поиске информации разделяют полнотекстовый и атрибутивный поиск. При полнотекстовом поиске сопоставляются заданные в пользовательском запросе ключевые слова со всеми словами в тексте документов. При атрибутивном поиске документы ищутся по некоторым атрибутам (параметрам), представленным в метаданных документа. Обычно это атрибуты, характерные для таких систем метаданных, как Дублинское ядро. Однако возможно в метаданные включать и ключевые слова, имеющие определенные признаки.
Во-вторых, по способам определения релевантности запроса и документа различают методы булевские и вероятностные.
Булевские методы являются основными методами информационного поиска. В них булева переменная xki= 1, если i-е слово имеется в k-м документе, иначе xki = 0. Запрос представляет собой логическое выражение F(Y), Y — набор ключевых слов. Если при подстановке в Y соответствующих значений xki выполняется условие F(Y)=1, то k-й документ признается релевантным запросу.
В вероятностных методах, называемых также методами машинного обучения, требуется предварительное создание обучающей выборки — некоторой коллекции документов, релевантных потребностям пользователя. Поиск в расширенной коллекции ведется, исходя из подобия документов (встречаемости терминов) в обучающей и реальной коллекциях.
Частный случай булевских методов — простой поиск, в котором F(Y) — дизъюнкция ключевых слов. Фиксируются факты совпадения любого из ключевых слов с каким-либо словом в тексте документа (правило ИЛИ). Релевантность k-го документа потребностям ЛПР оценивается коэффициентом релевантности запроса и документа
rk=aixki/ai
где nq – число терминов в запросе, ai – информативность i-го термина запроса. Обычно информативность термина определяется отношением числа m документов в коллекции к числу mi документов, содежащих i-й термин
ai = ln((1+ m)/(1+mi)).
В матрице ключевых слов вместо булевых величин xki часто используют частоты fki употребления i-го термина в k-м документе. В общем случае релевантность запроса и документа оценивается по формуле косинуса угла между вектором запроса Y и частотным вектором X документа
rk= YТX/(|Y|*|X|),
где YТX - скалярное произведение векторов Y и X, |.| - норма вектора.
Цель информационного поиска в системах принятия решений — найти в коллекции D документов подмножество R документов, содержащих полезные сведения для лица, принимающего решение (ЛПР). Вероятность того, что очередной найденный при поиске по i-му ключевому слову документ будет соответствовать потребности ЛПР
Pi = Ni/mi,
где mi — мощность множества Di D, Di — подмножество документов, содержащих i-й термин, Ni — число релевантных документов в подмножестве Di. Вопрос об истинной релевантности найденных документов остается открытым, поскольку Pi 1, так как неясно, в какой мере запрос соответствует информационной потребности ЛПР.
Улучшение характеристик поиска в современных интеллектуальных системах видится на путях придания ему семантического характера. Поэтому в последнее время для улучщения точности и полноты поиска все шире начинают применять предметные онтологии.
Список литературы
1. УИС Россия. -http://www.cir.ru/is4/servlet/is4.wwwmain?FormName=OurPublications