<<展開

k-means++

概要

k-meansを改良した非階層型クラスタリング手法。k-meansで課題だった初期値の決め方に関して、初めに適切な初期値の選び方をすることによって改善。
Facebookシェア Twitterツイート LINEで送る このエントリーをはてなブックマークに追加
この章を学ぶ前に必要な知識
0
条件
  • クラスタ数kをあらかじめ決めておく
効果
  • kmeans法で初期値依存になる問題を改善
  • 収束が早くなり速度も全体として改善
ポイント
  • 初期値の決め方に工夫があり、kmeansより初期値決定に時間がかかる

解 説

kmeans++はkmeans法で課題だった初期値依存問題を解決した非階層型クラスタリング手法の一つ。
kmeans++とは
kmeans法とは、クラスタ初期値の決め方が異なる kmeans法 クラスタの初期値はランダムに選択する kmeans++ クラスタの初期値は距離に応じた確率の重みに基づいてランダムに選択する。 遠いデータ点ほどクラスタの初期値に選択されやすい。 初期値の決定に時間がかかるようになったが、 比較的よいクラスタ初期値を得られるのでその後のクラスタリングで収束が早い。
kmeans法
KKZとも異なるのは初期値クラスタ中心の求め方のみである。 KKZ 最も離れたデータ点を次のクラスタ中心に採用. しかし、外れ値で遠くなってしまったデータなどに引っ張られやすい。 kmeansにおいてそれらは確率的に選ばれにくいため、外れ値に対して強くなる。
KKZ
この章を学んで新たに学べる
Comments

Reasons
>>隠す

知識: kmeans法
データを元に非階層型クラスタリングを行う手法の一つ。クラスタの重心とクラスタへの割り当てを交互に繰り返す。
知識: KKZ
kmeansを改良した非階層型クラスタリング手法の一つ。kmeansは初期値依存で結果が悪くなりやすかったが、初期値を決めていく時に最も離れた点を選択していくことで改善。