AgglomerativeClustering#
- class sklearn.cluster.AgglomerativeClustering(n_clusters=2, *, metric='euclidean', memory=None, connectivity=None, compute_full_tree='auto', linkage='ward', distance_threshold=None, compute_distances=False)[source]#
层次聚类。
递归合并样本数据的聚类对;使用连接距离。
更多信息请参阅《用户指南》。
- 参数:
- n_clustersint 或 None,默认为 2
要查找的聚类数量。如果
distance_threshold
不是None
,则此参数必须为None
。- metric字符串或可调用对象,默认为“euclidean”
用于计算连接的度量。可以是“euclidean”、“l1”、“l2”、“manhattan”、“cosine”或“precomputed”。如果连接方式是“ward”,则只接受“euclidean”。如果是“precomputed”,则
fit
方法需要距离矩阵作为输入。如果connectivity
为 `None`,linkage
为“single”且affinity
不是“precomputed”,则可以分配任何有效的成对距离度量。有关使用不同度量进行层次聚类的示例,请参见使用不同度量的层次聚类。
1.2 版本新增。
- memory字符串或具有 joblib.Memory 接口的对象,默认为 None
用于缓存树计算的输出。默认情况下,不进行缓存。如果给定字符串,则表示缓存目录的路径。
- connectivity类似数组、稀疏矩阵或可调用对象,默认为 None
连接矩阵。为每个样本定义根据给定数据结构相邻的样本。这可以是连接矩阵本身,也可以是将数据转换为连接矩阵的可调用对象,例如从
kneighbors_graph
派生的。默认为None
,即层次聚类算法是无结构的。有关使用
kneighbors_graph
的连接矩阵示例,请参见有结构和无结构的层次聚类。- compute_full_tree“auto”或布尔值,默认为“auto”
在达到
n_clusters
时提前停止树的构建。如果聚类数量相对于样本数量不小,这有助于减少计算时间。此选项仅在指定连接矩阵时有用。另请注意,当改变聚类数量并使用缓存时,计算完整树可能更有利。如果distance_threshold
不是None
,则此参数必须为True
。默认情况下,compute_full_tree
为“auto”,当distance_threshold
不是None
,或n_clusters
小于 100 或0.02 * n_samples
中的较大值时,它等同于True
。否则,“auto”等同于False
。- linkage{‘ward’、‘complete’、‘average’、‘single’},默认为“ward”
要使用的连接准则。连接准则确定在观测集之间使用哪种距离。算法将合并最小化此准则的聚类对。
‘ward’最小化被合并聚类的方差。
‘average’使用两个集合中每个观测值距离的平均值。
‘complete’或‘maximum’连接使用两个集合中所有观测值之间的最大距离。
‘single’使用两个集合中所有观测值之间距离的最小值。
0.20 版本新增: 添加了“single”选项
有关比较不同
linkage
准则的示例,请参见在玩具数据集上比较不同的层次连接方法。- distance_threshold浮点数,默认为 None
连接距离阈值,当达到或超过此阈值时,聚类将不再合并。如果不为
None
,则n_clusters
必须为None
且compute_full_tree
必须为True
。0.21 版本新增。
- compute_distances布尔值,默认为 False
即使不使用
distance_threshold
,也计算聚类之间的距离。这可用于生成树状图可视化,但会带来计算和内存开销。0.24 版本新增。
有关树状图可视化的示例,请参见绘制层次聚类树状图。
- 属性:
- n_clusters_int
算法找到的聚类数量。如果
distance_threshold=None
,则其将等于给定的n_clusters
。- labels_形状为 (n_samples) 的 ndarray
每个点的聚类标签。
- n_leaves_int
层次树中的叶子数量。
- n_connected_components_int
图中连通分量的估计数量。
0.21 版本新增:
n_connected_components_
用于替换n_components_
。- n_features_in_int
fit 期间看到的特征数量。
0.24 版本新增。
- feature_names_in_形状为 (
n_features_in_
,) 的 ndarray fit 期间看到的特征名称。仅当
X
的所有特征名称均为字符串时才定义。1.0 版本新增。
- children_形状为 (n_samples-1, 2) 的类似数组
每个非叶节点的子节点。小于
n_samples
的值对应于作为原始样本的树叶。大于或等于n_samples
的节点i
是非叶节点,其子节点为children_[i - n_samples]
。或者,在第 i 次迭代中,children[i][0]
和children[i][1]
合并形成节点n_samples + i
。- distances_形状为 (n_nodes-1,) 的类似数组
children_
中对应位置节点之间的距离。仅在使用了distance_threshold
或compute_distances
设置为True
时才计算。
另请参见
FeatureAgglomeration
层次聚类,但针对特征而非样本。
ward_tree
使用 ward 连接的层次聚类。
示例
>>> from sklearn.cluster import AgglomerativeClustering >>> import numpy as np >>> X = np.array([[1, 2], [1, 4], [1, 0], ... [4, 2], [4, 4], [4, 0]]) >>> clustering = AgglomerativeClustering().fit(X) >>> clustering AgglomerativeClustering() >>> clustering.labels_ array([1, 1, 1, 0, 0, 0])
有关层次聚类与其他聚类算法的比较,请参见在玩具数据集上比较不同的聚类算法
- fit(X, y=None)[source]#
从特征或距离矩阵拟合层次聚类。
- 参数:
- X类似数组,形状为 (n_samples, n_features) 或 (n_samples, n_samples)
要聚类的训练实例,如果
metric='precomputed'
,则为实例之间的距离。- y忽略
未使用,此处仅为 API 约定保持一致。
- 返回:
- self对象
返回拟合的实例。
- fit_predict(X, y=None)[source]#
拟合并返回每个样本的聚类分配结果。
除了拟合之外,此方法还返回训练集中每个样本的聚类分配结果。
- 参数:
- X形状为 (n_samples, n_features) 或 (n_samples, n_samples) 的类似数组
要聚类的训练实例,如果
affinity='precomputed'
,则为实例之间的距离。- y忽略
未使用,此处仅为 API 约定保持一致。
- 返回:
- labels形状为 (n_samples,) 的 ndarray
聚类标签。
- get_metadata_routing()[source]#
获取此对象的元数据路由。
请查看用户指南了解路由机制的工作原理。
- 返回:
- routingMetadataRequest
封装路由信息的
MetadataRequest
。