クラスタリングとは？仕組みと応用をやさしく解説｜士業AI用語集

クラスタリングとは

クラスタリング（Clustering）は、正解ラベルがないデータを、似た特徴を持つ同士のグループ（クラスタ）に自動でまとめる手法です。代表的な教師なし学習の一つで、「データの中にどんなグループがあるか」を探るのに使われます。

例えば、顧客の購買データから「節約派」「まとめ買い派」「高単価派」といった自然なセグメントを見つけ出すようなイメージです。

仕組み

距離・類似度の計算: 各データ同士がどれだけ近いかを数値化
グループの形成: 近いもの同士を同じクラスタに集める
繰り返し調整: クラスタの中心を計算し直しながら、最適な分け方を探る

データを**ベクトル（数値の並び）**として扱い、「距離が近い＝似ている」と判定するのが基本的な考え方です。

代表的な手法

k-means: あらかじめグループ数を指定して中心点を更新する定番手法
階層的クラスタリング: 近いもの同士を段階的に束ねて樹形図にする
DBSCAN: 密度に基づいてクラスタを作り、外れ値も検出できる

応用

顧客セグメンテーション: マーケティングでの顧客分類
異常検知: どのクラスタにも属さないデータを異常とみなす
文書のグルーピング: 類似する文書を自動で束ねる

「データの構造を探る」フェーズで最もよく使われる手法です。

士業AIで業務を効率化しませんか？

税務・会計・法務の専門AIが、日々の業務をサポートします。
まずは無料プランからお試しください。

無料で始めるログイン