Кластеризация — разделение множества объектов на группы (классы, кластеры) по тем или иным признакам сходства объектов, т.е. формирование множества классов для объектов некоторой предметной области: . Нужно выбрать множество признаков (параметров) объектов, по которым определяется сходство объектов, и обучающую выборку.
Если множество метризовано, то оценкой близости двух объектов и будет норма вектора || (расстояние между и ). Например:
= max |-| при € [1:] .
Межкластерное расстояние – расстояние между центрами кластеров. Центр -го кластера имеет усредненные координаты
= /,
где – вектор параметров -го объекта, входящего в. -й кластер.
Один из алгоритмов кластеризации:
1) Все объекты обучающей выборки помещаются в первый кластер;
2) Объект с наибольшим усредненным расстоянием от других объектов переносится во второй кластер;
3) Все объекты с меньшим средним расстоянием до объектов второго кластера, чем до первого, переносятся во второй кластер;
4) Если наибольший диаметр кластеров больше заданного порога, то для кластера с большим диаметром повторяются пункты 1-3, иначе останов. Диаметр кластера определяется как наибольшщее расстояние между парой объектов, принадлежащих кластеру:
Диаметр =
Если множество неметризовано, то расстоянием между двумя объектами и будет число несовпадающих элементов в множествах и .