Все многообразие моделей традиционного информационного поиска принято делить на три вида:
• теоретико-множественные (булевская, нечетких множеств, расширенная булевская),
• алгебраические (векторная, обобщенная векторная, латентно-семантическая, нейросетевая),
• вероятностные.
Булевская модель – модель поиска, опирающаяся на операции пересечения, объединения и вычитания множеств. Запросы представляются в виде булевских выражений из слов и логических операторов И, ИЛИ, НЕ. Релевантными считаются документы, которые удовлетворяют булевскому выражению в запросе.
Критика булевской модели, вполне справедливая, состоит в ее крайней жесткости и непригодности для ранжирования. Поэтому еще в 1957 году Joyce и Needham предложили учитывать частотные характеристики слов, чтобы "...операция сравнения была бы отношением расстояния между векторами...".
Векторная модель и была с успехом реализована в 1968 году основателем науки об информационном поиске Джерардом Солтоном в поисковой системе SMART (Salton's Magical Automatic Retriever of Text). Документы и запросы представляются в виде векторов в N-мерном евклидовом пространстве. Компоненты вектора соответствуют N терминам, образующим пространство. Релевантность выражается через подобие векторов. Для вычисления подобия векторов используется косинусная метрика.
Это и есть основной способ обработки запросов поисковыми машинами в Интернете в настоящее время, т.е. реализация векторной модели в форме ранжированного поиска, основанного на взвенном сопоставлении терминов запроса и документа.
Наконец, в 1977 году Robertson и Sparck-Jones обосновали и реализовали вероятностную модель, также положившую начало целому семейству. Релевантность в этой модели рассматривается как вероятность того, что данный документ может оказаться интересным пользователю. При этом подразумевается наличие уже существующего первоначального набора релевантных документов, выбранных пользователем или полученных автоматически при каком-нибудь упрощенном предположении. Вероятность оказаться релевантным для каждого следующего документа рассчитывается на основании соотношения встречаемости терминов в релевантном наборе и в остальной, "нерелевантной" части коллекции.
Недостатки рассмотренных моделей:
1. Булева модель – невысокая эффективность поиска, жесткий набор операторов, невозможность ранжирования.
2. Векторно-пространственная модель связана с расчетом массивов высокой размерности, малопригодна для обработки больших массивов данных.
3. Вероятностная модель характеризуется низкой вычислительной масштабируемостью, необходимостью постоянного обучения системы.
В настоящее время для семантического поиска все шире применяют онтологии.
Список литературы
1. Захарова И.В. МАТЕМАТИЧЕСКАЯ МОДЕЛЬ СЕМАНТИЧЕСКОГО ПОИСКА С ИСПОЛЬЗОВАНИЕМ ОНТОЛОГИЧЕСКОГО ПОДХОДА.// Автореферат диссертации на соискание ученой степени кандидата физико-математических наук. - Челябинск, 2009г. (http://www.lib.csu.ru/texts/diss/ZaharovaIV_ar.pdf)
2. Б.В. Добров, В.В. Иванов, Н.В. Лукашевич, В.Д. Соловьев. Онтологии и тезаурусы: модели, инструменты, приложения. - http://www.intuit.ru/department/expert/ontoth/9/2.html