Wednesday, 21 April 2004

nefedor: (Default)
А знает ли кто, (в особенности Михаил :)), как можно определить статистическую значимость кластеризации?
Во-первых, для меня неясно, какое должно быть число точек в n-мерном пространстве, чтобы кластеризация оных имела смысл. В некоторых работах для некоторых методов (http://www.megaputer.com/tech/wp/cluster.pdf) я видел оценку, что число точек должно быть существенно больше чем 3 в степени n. Имеет ли место подобная (или похожая) оценка всегда, или это специфично для конкретного метода?
Во-вторых, мне извесны функции, с помощью которых можно сравнивать 2 кластеризации и говорить, какая лучше, но это относительные характеристики. Существуют ли абсолютные, с помощью которых можно было бы оценить кажество данной кластеризации?
И в-третьих, существует много методов кластеризации (например, некая классификация имеется в той же http://www.megaputer.com/tech/wp/cluster.pdf, в Introduction). Хотелось бы знать какие-то их характеристики в смысле сходимости, избеганию локальных минимумов, статистической значимости, определению outliers, не принадлежащих ни к какому кластеру.
Буду очень благодарен за любую информацию по вопросу и, конечно, ссылки.

March 2014

M T W T F S S
     1 2
34 56 789
1011 12 13141516
17181920212223
24252627282930
31      

Expand Cut Tags

No cut tags

Style Credit