入门#
本指南的目的是说明 scikit-learn
提供的一些主要功能。它假设对机器学习实践(模型拟合、预测、交叉验证等)有基本的了解。有关安装 scikit-learn
的说明,请参阅我们的 安装说明。
Scikit-learn
是一个开源机器学习库,支持监督学习和无监督学习。它还提供各种工具用于模型拟合、数据预处理、模型选择、模型评估以及许多其他实用程序。
拟合和预测:估计器基础#
Scikit-learn
提供数十种内置机器学习算法和模型,称为 估计器。每个估计器可以使用其 fit 方法拟合到某些数据。
以下是一个简单的示例,我们使用 RandomForestClassifier
拟合一些非常基本的数据
>>> from sklearn.ensemble import RandomForestClassifier
>>> clf = RandomForestClassifier(random_state=0)
>>> X = [[ 1, 2, 3], # 2 samples, 3 features
... [11, 12, 13]]
>>> y = [0, 1] # classes of each sample
>>> clf.fit(X, y)
RandomForestClassifier(random_state=0)
The fit 方法通常接受 2 个输入
样本矩阵(或设计矩阵) X。
X
的大小通常为(n_samples, n_features)
,这意味着样本表示为行,特征表示为列。目标值 y,对于回归任务是实数,对于分类任务是整数(或任何其他离散值集)。对于无监督学习任务,不需要指定
y
。y
通常是一个一维数组,其中第i
个条目对应于X
的第i
个样本(行)的目标。
X
和 y
通常预期是 numpy 数组或等效的 数组类 数据类型,尽管一些估计器可以使用其他格式,例如稀疏矩阵。
一旦估计器被拟合,它就可以用于预测新数据的目标值。你不需要重新训练估计器
>>> clf.predict(X) # predict classes of the training data
array([0, 1])
>>> clf.predict([[4, 5, 6], [14, 15, 16]]) # predict classes of new data
array([0, 1])
你可以查看 选择合适的估计器,了解如何为你的用例选择合适的模型。
转换器和预处理器#
机器学习工作流程通常由不同的部分组成。一个典型的管道包括一个转换或插补数据的预处理步骤,以及一个最终预测目标值的预测器。
在 scikit-learn
中,预处理器和转换器遵循与估计器对象相同的 API(它们实际上都继承自同一个 BaseEstimator
类)。转换器对象没有 predict 方法,而是有一个 transform 方法,它输出一个新转换的样本矩阵 X
>>> from sklearn.preprocessing import StandardScaler
>>> X = [[0, 15],
... [1, -10]]
>>> # scale data according to computed scaling values
>>> StandardScaler().fit(X).transform(X)
array([[-1., 1.],
[ 1., -1.]])
有时,你希望对不同的特征应用不同的转换: ColumnTransformer 是为这些用例设计的。
管道:链接预处理器和估计器#
转换器和估计器(预测器)可以组合成一个统一的对象: Pipeline
。管道提供与普通估计器相同的 API:它可以使用 fit
和 predict
拟合并用于预测。正如我们稍后将看到的,使用管道还可以防止数据泄漏,即在训练数据中泄露一些测试数据。
在以下示例中,我们 加载 Iris 数据集,将其拆分为训练集和测试集,并计算管道在测试数据上的准确率得分
>>> from sklearn.preprocessing import StandardScaler
>>> from sklearn.linear_model import LogisticRegression
>>> from sklearn.pipeline import make_pipeline
>>> from sklearn.datasets import load_iris
>>> from sklearn.model_selection import train_test_split
>>> from sklearn.metrics import accuracy_score
...
>>> # create a pipeline object
>>> pipe = make_pipeline(
... StandardScaler(),
... LogisticRegression()
... )
...
>>> # load the iris dataset and split it into train and test sets
>>> X, y = load_iris(return_X_y=True)
>>> X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
...
>>> # fit the whole pipeline
>>> pipe.fit(X_train, y_train)
Pipeline(steps=[('standardscaler', StandardScaler()),
('logisticregression', LogisticRegression())])
>>> # we can now use it like any other estimator
>>> accuracy_score(pipe.predict(X_test), y_test)
0.97...
模型评估#
将模型拟合到某些数据并不意味着它将在看不见的数据上预测良好。这需要直接评估。我们刚刚看到了 train_test_split
帮助程序,它将数据集拆分为训练集和测试集,但 scikit-learn
提供了许多其他模型评估工具,特别是用于 交叉验证。
我们这里简要展示如何使用 cross_validate
帮助程序执行 5 折交叉验证过程。请注意,也可以手动迭代折叠,使用不同的数据拆分策略,并使用自定义评分函数。有关更多详细信息,请参阅我们的 用户指南
>>> from sklearn.datasets import make_regression
>>> from sklearn.linear_model import LinearRegression
>>> from sklearn.model_selection import cross_validate
...
>>> X, y = make_regression(n_samples=1000, random_state=0)
>>> lr = LinearRegression()
...
>>> result = cross_validate(lr, X, y) # defaults to 5-fold CV
>>> result['test_score'] # r_squared score is high because dataset is easy
array([1., 1., 1., 1., 1.])
自动参数搜索#
所有估计器都有参数(在文献中通常称为超参数),这些参数可以进行调整。估计器的泛化能力通常严重依赖于几个参数。例如,RandomForestRegressor
有一个 n_estimators
参数,它决定森林中的树木数量,还有一个 max_depth
参数,它决定每棵树的最大深度。通常,不清楚这些参数的精确值应该是什么,因为它们取决于手头的數據。
Scikit-learn
提供工具来自动找到最佳参数组合(通过交叉验证)。在以下示例中,我们使用 RandomizedSearchCV
对象在随机森林的参数空间中进行随机搜索。搜索完成后,RandomizedSearchCV
将表现得像一个 RandomForestRegressor
,它已经使用最佳参数集进行了拟合。在 用户指南 中了解更多信息。
>>> from sklearn.datasets import fetch_california_housing
>>> from sklearn.ensemble import RandomForestRegressor
>>> from sklearn.model_selection import RandomizedSearchCV
>>> from sklearn.model_selection import train_test_split
>>> from scipy.stats import randint
...
>>> X, y = fetch_california_housing(return_X_y=True)
>>> X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
...
>>> # define the parameter space that will be searched over
>>> param_distributions = {'n_estimators': randint(1, 5),
... 'max_depth': randint(5, 10)}
...
>>> # now create a searchCV object and fit it to the data
>>> search = RandomizedSearchCV(estimator=RandomForestRegressor(random_state=0),
... n_iter=5,
... param_distributions=param_distributions,
... random_state=0)
>>> search.fit(X_train, y_train)
RandomizedSearchCV(estimator=RandomForestRegressor(random_state=0), n_iter=5,
param_distributions={'max_depth': ...,
'n_estimators': ...},
random_state=0)
>>> search.best_params_
{'max_depth': 9, 'n_estimators': 4}
>>> # the search object now acts like a normal random forest estimator
>>> # with max_depth=9 and n_estimators=4
>>> search.score(X_test, y_test)
0.73...
下一步#
我们简要介绍了估计器拟合和预测、预处理步骤、管道、交叉验证工具和自动超参数搜索。本指南应概述库的一些主要功能,但 scikit-learn
的功能远不止这些!
请参阅我们的 用户指南,了解我们提供的所有工具的详细信息。您还可以在 API 参考 中找到公共 API 的详尽列表。
您还可以查看我们众多的 示例,这些示例说明了 scikit-learn
在许多不同环境中的使用。