Пусть в обучающей выборке имеется множество объектов, объект характеризуется вектором параметров =(x1,x2,x3,...xn), объекты распределены между кластерами множества .
Примечание 1
Далее объектами будем считать векторы .
При задании нового объекта в виде вектора нужно отнести его к одному из кластеров множества . Другими словами, классификация заключается в определении по заданному .
Одним из методом решения задачи классификации является метод, основанный на формуле вероятностей гипотез (формуле Байеса), в соответствии с которой вероятность выбора гипотезы для заданного вычисляется как
|) = (|) () / (),
где (|) — вероятность появления объекта в кластере , () — вероятность того, что произвольный объект обучающей выборки отнесен к кластеру ; () = (|)() — вероятность того, что объект обучающей выборки есть .
Если числовые векторы, то классификация может выполняться на основе сопоставления расстояний от объекта до центров кластеров с отнесением объекта к наиболее близкому кластеру.
Если при классификации документов кластеры являются тематическими, т.е. документ требуется отнести к одной из рубрик (тем), то классификация возможна по степени близости тезаурусных проекций кластеров и классифицируемого документа. В этом случае предварительно разрабатываются предметные онтологии (или тезаурусы) для каждой рубрики (темы). Тезаурусная проекция определяется вектором = (y1k,...ynk), где yik- характеризует наличие или частотность i -го дескриптора Ai в документах k-го кластера, n - суммарное число разных дескрипторов в используемых онтологиях. Степень rjk соответствия j-го документа =(x1,x2,x3,...xn) k-му кластеру можно оценить, например, по косинусу угла между векторами и :
rjk = */(||*||).
К средствам классификации относят также деревья решений и правила. Деревья состоят из вершин ИЛИ, соответствующих параметрам , исходящие из вершины ИЛИ дуги соответствуют альтернативам — возможным значениям параметра в вершинах для выбора альтернативы используются правила ЕСЛИ…ТО... Правила формируются по имеющейся обучающей выборке. Терминальные вершины соответствуют гипотезам .