Оценка качества поиска поисковой системой называется тюнингом.
Тюнинг характеризуется двумя параметрами: 1) точность – доля релевантного материала в ответе поисковой системы; 2) полнота – доля найденных релевантных документов в общем числе релевантных документов коллекции.
К самому поиску тесно примыкает ряд задач, либо разделяющих с ним общую идеологию (классификация, маршрутизация, фильтрация, аннотирование), либо являющихся неотъемлемой частью поискового процесса (кластеризация результатов, расширение и сужение запросов, обратная связь, "запросо-зависимое" аннотирование, поисковый интерфейс и языки запросов).
Примером важной сопутствующей задачи является "расширение запроса", которое обычно производится через привлечение к поиску ассоциированных терминов. Решение этой задачи возможно в двух видах – локальном (динамическом) и глобальном (статическом). Локальные техники опираются на текст запроса и анализируют только документы, найденные по нему. Глобальные же "расширения" могут оперировать тезаурусами, как априорными (лингвистическими), так и построенными автоматически по всей коллекции документов статическими классификациями.
Немного в стороне от статистических моделей и структур данных стоит класс алгоритмов, традиционно относимых к лингвистическим. Точно границы между статистическим и лингвистическими методами провести трудно. Условно можно считать лингвистическими методы, опирающиеся на словари (морфологические, синтаксические, семантические), созданные человеком.
Прежде всего, стало очевидно, что поиск в вебе, не может быть сколько-нибудь корректно выполнен, будучи основан на анализе одного лишь текста документа. Ведь внетекстовые (off-page) факторы играют не меньшую, а порой и бoльшую роль, чем текст самой страницы. Положение на сайте, посещаемость, авторитетность источника, частота обновления, цитируемость страницы и ее авторов – все эти факторы невозможно сбрасывать со счета.
Cтав основным источником получения справочной информации, поисковые системы стали основным источником трафика для интернет-сайтов. Как следствие, они немедленно подверглись "атакам" недобросовестных авторов, желающих любой ценой оказаться в первых страницах результатов поиска. Искусственная генерация входных страниц, насыщенных популярными словами, техника клоакинга, "слепого текста" и многие другие приемы, предназначенные для обмана поисковых систем, мгновенно заполонили Интернет.
Кроме проблемы корректного ранжирования, создателям поисковых систем в Интернете пришлось решать задачу обновления и синхронизации колоссальной по размеру коллекции с гетерогенными форматами, способами доставки, языками, кодировками, массой бессодержательных и дублирующихся текстов. Необходимо поддерживать базу в состоянии максимальной свежести, учитывать индивидуальные и коллективные предпочтения пользователей.
Тюнинг существенно зависит от использования системой параметра "ссылочная популярность" и производных от него факторов. Простейшая идея глобального (т.е. статического) учета ссылочной популярности состоит в подсчете числа ссылок, указывающих на страницы, т.е в применении некоего индекса цитирования. К сожалению, этот параметр легко подвергается накрутке, кроме того, он не учитывает вес самих источников.
Расчет статической популярности не является самоценной задачей, он используется в многочисленных вспомогательных целях: определение порядка обхода документов, ранжирование поиска по тексту ссылок и т.д. Формулы расчета популярности постоянно улучшают, в них вносят учет дополнительных факторов: тематической близости документов, их структуры и т.п., позволяющие понизить влияние непотизма.
Поэтому важными компонентами для высокого рейтинга сайта является не только соответствие ключевых слов в заголовке (title), описании (meta description) и теле (body) веб-страницы пользовательскому запросу, но и наличие ссылок на веб-сайт с подобных по тематике веб-сайтов и каталогов.
На качество поиска влияет размер базы данных. Например, рост посещаемости таких машин, как Google и Fast хорошо коррелирует именно с ростом их баз. Однако рост базы, кроме технических проблем с дисками и серверами, связан с необходимостью адекватно реагировать на мусор, повторы и т.п.
Поисковые системы для Интернета (и, вообще, все большие поисковые сиcтемы) могут ускорять свою работу при помощи техник эшелонирования и прюнинга. Первая техника состоит в разделении индекса на заведомо более релевантную и менее релевантную части. Поиск сначала выполняется в первой, а затем, если ничего не найдено, или найдено мало, поисковая система обращается ко второй части индекса. Прюнинг состоит в том, чтобы динамически прекращать обработку запроса после накопления достаточного количества релевантной информации. Бывает еще статический прюнинг, когда на основании некоторых допущений индекс сокращается за счет таких документов, которые заведомо никогда не будут найдены.
Отдельная проблема – организовать бесперебойную работу многокомпьютерных комплесов, бесшовное обновление индекса, устойчивость к сбоям и задержкам с ответами отдельных компонент. Для общения между поисковыми серверами и серверам, собирающими отклики и формирующими страницу выдачи, разрабатываются специальные протоколы.
Решающее значение приобретает продумывание архитектуры всего комплекса с самого начала, так как любые изменения, например добавление необычного фактора при ранжировании или сложного источника данных, становится исключительно болезненной и сложной процедурой. Очевидно, системы стартующие позже, имеют в этой ситуации преимущество. Но инертность пользователей весьма высока, так, например, требуется 2-4 года, чтобы сформированная многомиллионная аудитория сама, пусть и медленно, но перешла на непривычную поисковую систему, даже при наличии у нее неоспоримых преимуществ. В условиях жесткой конкуренции, это порой неосуществимо.
Список литературы
1. И.Сегалович. Как работают поисковые системы. — http://company.yandex.ru/articles/article10.xml