В сети Internet существует уже несколько миллионов сайтов, их число и объем накопленной в Web-сайтах информации продолжают увеличиваться. Большой объем информации имеет как положительную, так и негативную стороны, так как затрудняет поиск данных, требующихся конкретному пользователю в конкретное время. Для облегчения поиска на открытых для доступа сайтах в Internet используют информационно-поисковые системы (ИПС) и электронные каталоги.
Информационно-поисковые системы могут быть документальными, фактографическими или гипертекстовыми.
В документальных ИПС собирается, индексируется и регистрируется информация о документах, имеющихся в обслуживаемой системой группе Web-серверов. Индексирование включает создание поисковых образов документов. Обычно в поисковый образ входят или все значащие слова, имеющиеся в документе, или только слова из заголовка. Информационно-поисковая система выполняет анализ документов, создание и хранение поисковых образов документов, анализ запросов пользователей, поиск и выдачу пользователю данных о месте расположения в сети запрашиваемых документов. В основе поиска лежит сопоставление запроса пользователя с поисковыми образами документов, в результате отбираются релевантные документы, т.е. документы, чьи поисковые образы соответствуют запросу. Во многих ИПС пользователю предоставляется возможность обращаться к серверу с запросами на естественном языке, со сложными запросами, включающими логические связки. Примерами таких ИПС могут служить системы Excite, Lycos, Altavista и др. Для функционирования Altavista в свое время фирма DEC выделила несколько компьютеров, в том числе 10-процессорную ЭВМ Alpha-8400.
Поисковые образы, называемые также метаописаниями или метаданными, могут представлять собой значения атрибутов документов или множество ключевых слов. Поиск на основе этих двух вариантов поисковых образов называют атрибутивным и контекстным поиском соответственно. Часто используют сочетание этих двух способов поиска.
В фактографических системах хранится структурированная информация в виде фактов, относящихся к определенной предметной области. Примером может служить реляционная БД.
В гипертекстовых системах хранятся гипертекстовые документы.
Поиск в электронных каталогах основан на сопоставлении запроса с разделами информации в иерархической структуре ее классификации.
Классификацию информации называют рубрикацией. Наиболее сложной является разработка тематической рубрикации. В мире существует и применяется ряд систем тематической рубрикации. Так, в России широко известны иерархические системы УДК (Универсальная десятичная классификация) и ГРНТИ (Государственный реестр научно-технической информации). Однако в силу своей громоздкости и естественной консервативности они не всегда удобны для использования в электронных каталогах и информационно-поисковых системах. Поэтому существует ряд частных систем рубрикации с несколькими уровнями иерархии, например, в образовательных порталах.
Отметим, что если в ИПС создание поисковых образов осуществляется автоматически, то в электронных каталогах структура информационных ресурсов определяется квалифицированными людьми.
Примерами поисковых систем, работающих по принципу электронного каталога, служат системы Yahoo!, Galaxy, Looksmart, Yandex. Так, в Yahoo! на верхнем уровне иерархии выделены 14 категорий (например, искусство и гуманитарные науки, образование, бизнес и экономика, наука и др.). Пользователь при поиске осуществляет навигацию по разделам иерархического дерева, спускаясь от верхнего уровня до искомого конечного, на котором он получает сведения об адресах сайтов с нужными информационными ресурсами.
Технологии поиска, основанные на упорядочении метаинформации наподобие библиотечных каталогов (классификации по содержанию), продолжают развиваться, например в создаваемой технологии RDF (Resource Definition Format).
Однако поиск по ключевым словам во всем пространстве Internet не всегда оказывается эффективным. Поиск нужной информации в множестве документов, на которые указывает ИПС в ответ на запрос пользователя, может потребовать слишком много времени. Сделать работу пользователя корпоративной системы в Internet более эффективной позволяет технология порталов, применение языка разметки XML и языков поиска XPath или XQuery в базах XML-документов.