二值化#
- sklearn.preprocessing.binarize(X, *, threshold=0.0, copy=True)[source]#
对类数组或 scipy.sparse 矩阵进行布尔阈值处理。
在用户指南中阅读更多内容。
- 参数:
- X{类数组,稀疏矩阵},形状为 (n_samples, n_features)
要逐元素进行二值化的数据。为避免不必要的复制,scipy.sparse 矩阵应采用 CSR 或 CSC 格式。
- threshold浮点型,默认值=0.0
特征值小于或等于此阈值的替换为 0,大于此阈值的替换为 1。对于稀疏矩阵操作,阈值不能小于 0。
- copy布尔型,默认值=True
如果为 False,则尝试避免复制并就地二值化。这不保证总能就地工作;例如,如果数据是具有对象 dtype 的 numpy 数组,即使 copy=False 也会返回一个副本。
- 返回:
- X_tr{ndarray,稀疏矩阵},形状为 (n_samples, n_features)
转换后的数据。
示例
>>> from sklearn.preprocessing import binarize >>> X = [[0.4, 0.6, 0.5], [0.6, 0.1, 0.2]] >>> binarize(X, threshold=0.5) array([[0., 1., 0.], [1., 0., 0.]])