クラスタリング

Clustering

正解ラベルなしでデータを似た者同士のグループにまとめる教師なし学習手法。顧客分類・異常検知などに使われる。

クラスタリングとは

クラスタリング(Clustering)は、正解ラベルがないデータを、似た特徴を持つ同士のグループ(クラスタ)に自動でまとめる手法です。代表的な教師なし学習の一つで、「データの中にどんなグループがあるか」を探るのに使われます。

例えば、顧客の購買データから「節約派」「まとめ買い派」「高単価派」といった自然なセグメントを見つけ出すようなイメージです。

仕組み

  • 距離・類似度の計算: 各データ同士がどれだけ近いかを数値化
  • グループの形成: 近いもの同士を同じクラスタに集める
  • 繰り返し調整: クラスタの中心を計算し直しながら、最適な分け方を探る

データを**ベクトル(数値の並び)**として扱い、「距離が近い=似ている」と判定するのが基本的な考え方です。

代表的な手法

  • k-means: あらかじめグループ数を指定して中心点を更新する定番手法
  • 階層的クラスタリング: 近いもの同士を段階的に束ねて樹形図にする
  • DBSCAN: 密度に基づいてクラスタを作り、外れ値も検出できる

応用

  • 顧客セグメンテーション: マーケティングでの顧客分類
  • 異常検知: どのクラスタにも属さないデータを異常とみなす
  • 文書のグルーピング: 類似する文書を自動で束ねる

データの構造を探る」フェーズで最もよく使われる手法です。

士業AIで業務を効率化しませんか?

税務・会計・法務の専門AIが、日々の業務をサポートします。
まずは無料プランからお試しください。

無料で今すぐ試す