Процесс автоматического приписывания дескрипторов тезауруса документам (формирование метаданных на основе заданного тезауруса) включает две стадии.
Первая стадия — стадия обучения. Устанавливается соответствие между словами тезауруса (ключевыми словами) и словами, встретившимися в текстах документов обучающей коллекции. Вес соответствия какого-либо слова документа ключевому слову тем выше, чем выше совместная частотность использования этих слов в документе. Т.е. фиксируются не только пары совпадающих слов, но и любые другие пары. По частотности устанавливается семантическая близоость слов документа ключевым словам.
Во время поиска выполняется индексирование — для каждого слова документа проверяется, каким дескрипторам тезауруса оно соответствует. Если такие дескрипторы имеются, то к весу дескриптора для данного текста добавляется натуральный логарифм веса слова, полученного на первом этапе. После обработки всех слов текущего текста получается суммированный вес дескрипторов тезауруса, являющийся тезаурусной проекцией на документ, эту проекцию можно рассматривать как поисковый образ документа.