クラスタリング
Clustering
正解ラベルなしでデータを似た者同士のグループにまとめる教師なし学習手法。顧客分類・異常検知などに使われる。
クラスタリングとは
クラスタリング(Clustering)は、正解ラベルがないデータを、似た特徴を持つ同士のグループ(クラスタ)に自動でまとめる手法です。代表的な教師なし学習の一つで、「データの中にどんなグループがあるか」を探るのに使われます。
例えば、顧客の購買データから「節約派」「まとめ買い派」「高単価派」といった自然なセグメントを見つけ出すようなイメージです。
仕組み
- 距離・類似度の計算: 各データ同士がどれだけ近いかを数値化
- グループの形成: 近いもの同士を同じクラスタに集める
- 繰り返し調整: クラスタの中心を計算し直しながら、最適な分け方を探る
データを**ベクトル(数値の並び)**として扱い、「距離が近い=似ている」と判定するのが基本的な考え方です。
代表的な手法
- k-means: あらかじめグループ数を指定して中心点を更新する定番手法
- 階層的クラスタリング: 近いもの同士を段階的に束ねて樹形図にする
- DBSCAN: 密度に基づいてクラスタを作り、外れ値も検出できる
応用
- 顧客セグメンテーション: マーケティングでの顧客分類
- 異常検知: どのクラスタにも属さないデータを異常とみなす
- 文書のグルーピング: 類似する文書を自動で束ねる
「データの構造を探る」フェーズで最もよく使われる手法です。
