二值化#

sklearn.preprocessing.binarize(X, *, threshold=0.0, copy=True)[source]#

数组或 scipy.sparse 矩阵的布尔阈值化。

更多信息请阅读 用户指南

参数:
X形状为 (n_samples, n_features) 的 {array-like, sparse matrix}

逐元素二值化处理的数据。为了避免不必要的复制,scipy.sparse 矩阵应该采用 CSR 或 CSC 格式。

threshold浮点数,默认值=0.0

小于等于此阈值的特征值将被替换为 0,大于此阈值的特征值将被替换为 1。对于稀疏矩阵的操作,阈值不能小于 0。

copy布尔值,默认值=True

如果为 False,则尝试避免复制并就地进行二值化。但这不能保证始终就地进行;例如,如果数据是具有对象数据类型的 numpy 数组,即使 copy=False,也会返回一个副本。

返回:
X_tr形状为 (n_samples, n_features) 的 {ndarray, sparse matrix}

转换后的数据。

另请参见

二值化器

使用 Transformer API 执行二值化(例如,作为预处理Pipeline 的一部分)。

示例

>>> from sklearn.preprocessing import binarize
>>> X = [[0.4, 0.6, 0.5], [0.6, 0.1, 0.2]]
>>> binarize(X, threshold=0.5)
array([[0., 1., 0.],
       [1., 0., 0.]])