AgglomerativeClustering#

class sklearn.cluster.AgglomerativeClustering(n_clusters=2, *, metric='euclidean', memory=None, connectivity=None, compute_full_tree='auto', linkage='ward', distance_threshold=None, compute_distances=False)[source]#

层次聚类。

递归合并样本数据的聚类对；使用连接距离。

更多信息请参阅《用户指南》。

参数:

n_clustersint 或 None，默认为 2

要查找的聚类数量。如果 distance_threshold 不是 None，则此参数必须为 None。

metric字符串或可调用对象，默认为“euclidean”

用于计算连接的度量。可以是“euclidean”、“l1”、“l2”、“manhattan”、“cosine”或“precomputed”。如果连接方式是“ward”，则只接受“euclidean”。如果是“precomputed”，则 fit 方法需要距离矩阵作为输入。如果 connectivity 为 `None`，linkage 为“single”且 affinity 不是“precomputed”，则可以分配任何有效的成对距离度量。

有关使用不同度量进行层次聚类的示例，请参见使用不同度量的层次聚类。

1.2 版本新增。

memory字符串或具有 joblib.Memory 接口的对象，默认为 None

用于缓存树计算的输出。默认情况下，不进行缓存。如果给定字符串，则表示缓存目录的路径。

connectivity类似数组、稀疏矩阵或可调用对象，默认为 None

连接矩阵。为每个样本定义根据给定数据结构相邻的样本。这可以是连接矩阵本身，也可以是将数据转换为连接矩阵的可调用对象，例如从 kneighbors_graph 派生的。默认为 None，即层次聚类算法是无结构的。

有关使用 kneighbors_graph 的连接矩阵示例，请参见有结构和无结构的层次聚类。

compute_full_tree“auto”或布尔值，默认为“auto”

在达到 n_clusters 时提前停止树的构建。如果聚类数量相对于样本数量不小，这有助于减少计算时间。此选项仅在指定连接矩阵时有用。另请注意，当改变聚类数量并使用缓存时，计算完整树可能更有利。如果 distance_threshold 不是 None，则此参数必须为 True。默认情况下，compute_full_tree 为“auto”，当 distance_threshold 不是 None，或 n_clusters 小于 100 或 0.02 * n_samples 中的较大值时，它等同于 True。否则，“auto”等同于 False。

linkage{‘ward’、‘complete’、‘average’、‘single’}，默认为“ward”

要使用的连接准则。连接准则确定在观测集之间使用哪种距离。算法将合并最小化此准则的聚类对。

‘ward’最小化被合并聚类的方差。
‘average’使用两个集合中每个观测值距离的平均值。
‘complete’或‘maximum’连接使用两个集合中所有观测值之间的最大距离。
‘single’使用两个集合中所有观测值之间距离的最小值。

0.20 版本新增: 添加了“single”选项

有关比较不同 linkage 准则的示例，请参见在玩具数据集上比较不同的层次连接方法。

distance_threshold浮点数，默认为 None

连接距离阈值，当达到或超过此阈值时，聚类将不再合并。如果不为 None，则 n_clusters 必须为 None 且 compute_full_tree 必须为 True。

0.21 版本新增。

compute_distances布尔值，默认为 False

即使不使用 distance_threshold，也计算聚类之间的距离。这可用于生成树状图可视化，但会带来计算和内存开销。

0.24 版本新增。

有关树状图可视化的示例，请参见绘制层次聚类树状图。

属性:

n_clusters_int: 算法找到的聚类数量。如果 distance_threshold=None，则其将等于给定的 n_clusters。
labels_形状为 (n_samples) 的 ndarray: 每个点的聚类标签。
n_leaves_int: 层次树中的叶子数量。
n_connected_components_int: 图中连通分量的估计数量。

0.21 版本新增: n_connected_components_ 用于替换 n_components_。
n_features_in_int: fit 期间看到的特征数量。

0.24 版本新增。
feature_names_in_形状为 (n_features_in_,) 的 ndarray: fit 期间看到的特征名称。仅当 X 的所有特征名称均为字符串时才定义。

1.0 版本新增。
children_形状为 (n_samples-1, 2) 的类似数组: 每个非叶节点的子节点。小于 n_samples 的值对应于作为原始样本的树叶。大于或等于 n_samples 的节点 i 是非叶节点，其子节点为 children_[i - n_samples]。或者，在第 i 次迭代中，children[i][0] 和 children[i][1] 合并形成节点 n_samples + i。
distances_形状为 (n_nodes-1,) 的类似数组: children_ 中对应位置节点之间的距离。仅在使用了 distance_threshold 或 compute_distances 设置为 True 时才计算。

另请参见

FeatureAgglomeration: 层次聚类，但针对特征而非样本。
ward_tree: 使用 ward 连接的层次聚类。

示例

>>> from sklearn.cluster import AgglomerativeClustering
>>> import numpy as np
>>> X = np.array([[1, 2], [1, 4], [1, 0],
...               [4, 2], [4, 4], [4, 0]])
>>> clustering = AgglomerativeClustering().fit(X)
>>> clustering
AgglomerativeClustering()
>>> clustering.labels_
array([1, 1, 1, 0, 0, 0])