注意

转到末尾下载完整示例代码或通过 JupyterLite 或 Binder 在浏览器中运行此示例。

线性模型系数解释中的常见误区#

在线性模型中，目标值被建模为特征的线性组合（请参阅线性模型用户指南部分，了解 scikit-learn 中可用的线性模型集）。多元线性模型中的系数表示给定特征 \(X_i\) 与目标 \(y\) 之间的关系，前提是所有其他特征保持不变（条件依赖）。这与绘制 \(X_i\) 与 \(y\) 的关系并拟合线性关系不同：在这种情况下，估计中会考虑其他特征的所有可能值（边际依赖）。

本示例将提供一些解释线性模型系数的提示，指出当线性模型不适合描述数据集或特征相关时出现的问题。

注意

请记住，特征 \(X\) 和结果 \(y\) 通常是我们未知的数据生成过程的结果。机器学习模型经过训练，可以从样本数据中近似连接 \(X\) 到 \(y\) 的未观察到的数学函数。因此，对模型所做的任何解释不一定能推广到真实的数据生成过程。当模型质量差或样本数据不具有代表性时，尤其如此。

我们将使用 1985 年 “当前人口调查” 的数据来预测工资与经验、年龄或教育等各种特征的函数关系。

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import scipy as sp
import seaborn as sns

数据集：工资#

我们从 OpenML 获取数据。请注意，将参数 as_frame 设置为 True 将把数据作为 pandas 数据框检索。

from sklearn.datasets import fetch_openml

survey = fetch_openml(data_id=534, as_frame=True)

然后，我们确定特征 X 和目标 y：WAGE 列是我们的目标变量（即我们想要预测的变量）。

X = survey.data[survey.feature_names]
X.describe(include="all")

	EDUCATION	SOUTH	SEX	EXPERIENCE	UNION	AGE	RACE	OCCUPATION	SECTOR	MARR
count	534.000000	534	534	534.000000	534	534.000000	534	534	534	534
unique	NaN	2	2	NaN	2	NaN	3	6	3	2
top	NaN	否	male	NaN	not_member	NaN	White	Other	Other	Married
freq	NaN	378	289	NaN	438	NaN	440	156	411	350
mean	13.018727	NaN	NaN	17.822097	NaN	36.833333	NaN	NaN	NaN	NaN
std	2.615373	NaN	NaN	12.379710	NaN	11.726573	NaN	NaN	NaN	NaN
min	2.000000	NaN	NaN	0.000000	NaN	18.000000	NaN	NaN	NaN	NaN
25%	12.000000	NaN	NaN	8.000000	NaN	28.000000	NaN	NaN	NaN	NaN
50%	12.000000	NaN	NaN	15.000000	NaN	35.000000	NaN	NaN	NaN	NaN
75%	15.000000	NaN	NaN	26.000000	NaN	44.000000	NaN	NaN	NaN	NaN
max	18.000000	NaN	NaN	55.000000	NaN	64.000000	NaN	NaN	NaN	NaN

请注意，数据集包含分类变量和数值变量。我们稍后在预处理数据集时需要考虑到这一点。

X.head()

	EDUCATION	SOUTH	SEX	EXPERIENCE	UNION	AGE	RACE	OCCUPATION	SECTOR	MARR
0	8	否	female	21	not_member	35	Hispanic	Other	Manufacturing	Married
1	9	否	female	42	not_member	57	White	Other	Manufacturing	Married
2	12	否	male	1	not_member	19	White	Other	Manufacturing	Unmarried
3	12	否	male	4	not_member	22	White	Other	Other	Unmarried
4	12	否	male	17	not_member	35	White	Other	Other	Married

我们的预测目标：工资。工资以每小时美元的浮点数表示。

y = survey.target.values.ravel()
survey.target.head()

  5.10
  4.95
  6.67
  4.00
  7.50
Name: WAGE, dtype: float64

我们将样本分成训练集和测试集。在以下探索性分析中仅使用训练集。这是一种模拟真实情况的方法，在这种情况下，预测是在未知目标上进行的，我们不希望我们的分析和决策因我们对测试数据的了解而产生偏差。

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

首先，让我们通过查看变量分布和它们之间的成对关系来获得一些见解。仅使用数值变量。在下图中，每个点代表一个样本。

train_dataset = X_train.copy()
train_dataset.insert(0, "WAGE", y_train)
_ = sns.pairplot(train_dataset, kind="reg", diag_kind="kde")

plot linear model coefficient interpretation

仔细观察 WAGE 分布会发现它有一个长尾。因此，我们应该对其取对数，使其近似为正态分布（岭或 Lasso 等线性模型最适用于误差的正态分布）。

WAGE 随 EDUCATION 的增加而增加。请注意，此处表示的 WAGE 和 EDUCATION 之间的依赖性是边际依赖性，即它描述了特定变量的行为，而没有固定其他变量。

此外，EXPERIENCE 和 AGE 之间存在很强的线性相关性。

机器学习管道#

为了设计我们的机器学习管道，我们首先手动检查我们正在处理的数据类型

survey.data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 534 entries, 0 to 533
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype
---  ------      --------------  -----
 0   EDUCATION   534 non-null    int64
 1   SOUTH       534 non-null    category
 2   SEX         534 non-null    category
 3   EXPERIENCE  534 non-null    int64
 4   UNION       534 non-null    category
 5   AGE         534 non-null    int64
 6   RACE        534 non-null    category
 7   OCCUPATION  534 non-null    category
 8   SECTOR      534 non-null    category
 9   MARR        534 non-null    category
dtypes: category(7), int64(3)
memory usage: 17.3 KB

如前所述，数据集包含具有不同数据类型的列，我们需要对每种数据类型应用特定的预处理。特别是，如果分类变量未首先编码为整数，则不能将其包含在线性模型中。此外，为了避免分类特征被视为有序值，我们需要对其进行独热编码。我们的预处理器将

对分类列进行独热编码（即，按类别生成一列），仅适用于非二进制分类变量；
作为第一种方法（我们稍后将看到数值归一化如何影响我们的讨论），保持数值不变。

from sklearn.compose import make_column_transformer
from sklearn.preprocessing import OneHotEncoder

categorical_columns = ["RACE", "OCCUPATION", "SECTOR", "MARR", "UNION", "SEX", "SOUTH"]
numerical_columns = ["EDUCATION", "EXPERIENCE", "AGE"]

preprocessor = make_column_transformer(
    (OneHotEncoder(drop="if_binary"), categorical_columns),
    remainder="passthrough",
    verbose_feature_names_out=False,  # avoid to prepend the preprocessor names
)

我们使用具有非常小正则化的岭回归器来模拟 WAGE 的对数。

from sklearn.compose import TransformedTargetRegressor
from sklearn.linear_model import Ridge
from sklearn.pipeline import make_pipeline

model = make_pipeline(
    preprocessor,
    TransformedTargetRegressor(
        regressor=Ridge(alpha=1e-10), func=np.log10, inverse_func=sp.special.exp10
    ),
)

处理数据集#

首先，我们拟合模型。

model.fit(X_train, y_train)

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(remainder='passthrough',
                                   transformers=[('onehotencoder',
                                                  OneHotEncoder(drop='if_binary'),
                                                  ['RACE', 'OCCUPATION',
                                                   'SECTOR', 'MARR', 'UNION',
                                                   'SEX', 'SOUTH'])],
                                   verbose_feature_names_out=False)),
                ('transformedtargetregressor',
                 TransformedTargetRegressor(func=<ufunc 'log10'>,
                                            inverse_func=<ufunc 'exp10'>,
                                            regressor=Ridge(alpha=1e-10)))])

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

然后，我们通过绘制其预测值与测试集上的实际值，并计算中位数绝对误差，来检查计算模型的性能。

from sklearn.metrics import PredictionErrorDisplay, median_absolute_error

mae_train = median_absolute_error(y_train, model.predict(X_train))
y_pred = model.predict(X_test)
mae_test = median_absolute_error(y_test, y_pred)
scores = {
    "MedAE on training set": f"{mae_train:.2f} $/hour",
    "MedAE on testing set": f"{mae_test:.2f} $/hour",
}

_, ax = plt.subplots(figsize=(5, 5))
display = PredictionErrorDisplay.from_predictions(
    y_test, y_pred, kind="actual_vs_predicted", ax=ax, scatter_kwargs={"alpha": 0.5}
)
ax.set_title("Ridge model, small regularization")
for name, score in scores.items():
    ax.plot([], [], " ", label=f"{name}: {score}")
ax.legend(loc="upper left")
plt.tight_layout()

所学的模型远不是一个能做出准确预测的好模型：从上面的图中可以看出这一点，好的预测应该位于黑色虚线上。

在以下部分中，我们将解释模型的系数。在此过程中，我们应牢记，我们得出的任何结论都与我们构建的模型有关，而不是与数据的真实（现实世界）生成过程有关。

解释系数：量级很重要#

首先，我们可以看一下我们拟合的回归器的系数值。

feature_names = model[:-1].get_feature_names_out()

coefs = pd.DataFrame(
    model[-1].regressor_.coef_,
    columns=["Coefficients"],
    index=feature_names,
)

coefs

	Coefficients
RACE_Hispanic	-0.013520
RACE_Other	-0.009077
RACE_White	0.022593
OCCUPATION_Clerical	0.000045
OCCUPATION_Management	0.090528
OCCUPATION_Other	-0.025102
OCCUPATION_Professional	0.071964
OCCUPATION_Sales	-0.046636
OCCUPATION_Service	-0.091053
SECTOR_Construction	-0.000198
SECTOR_Manufacturing	0.031255
SECTOR_Other	-0.031026
MARR_Unmarried	-0.032405
UNION_not_member	-0.117154
SEX_male	0.090808
SOUTH_yes	-0.033823
EDUCATION	0.054699
EXPERIENCE	0.035005
AGE	-0.030867

AGE 系数以“美元/小时/生命年”表示，而 EDUCATION 系数以“美元/小时/受教育年限”表示。这种系数表示的好处在于清楚地说明了模型的实际预测：AGE 增加 \(1\) 年意味着美元/小时减少 \(0.030867\)，而 EDUCATION 增加 \(1\) 年意味着美元/小时增加 \(0.054699\)。另一方面，分类变量（如 UNION 或 SEX）是取值 0 或 1 的无量纲数字。它们的系数以美元/小时表示。因此，我们不能比较不同系数的大小，因为特征具有不同的自然尺度和值范围，因为它们的度量单位不同。如果我们将系数绘图，这会更明显。

coefs.plot.barh(figsize=(9, 7))
plt.title("Ridge model, small regularization")
plt.axvline(x=0, color=".5")
plt.xlabel("Raw coefficient values")
plt.subplots_adjust(left=0.3)

事实上，从上图中，决定 WAGE 最重要的因素似乎是变量 UNION，即使我们的直觉可能告诉我们 EXPERIENCE 等变量应该有更大的影响。

通过查看系数图来衡量特征重要性可能会产生误导，因为其中一些变量变化范围很小，而另一些变量，如 AGE，变化范围则大得多，长达数十年。

如果我们比较不同特征的标准差，这一点就很明显。

X_train_preprocessed = pd.DataFrame(
    model[:-1].transform(X_train), columns=feature_names
)

X_train_preprocessed.std(axis=0).plot.barh(figsize=(9, 7))
plt.title("Feature ranges")
plt.xlabel("Std. dev. of feature values")
plt.subplots_adjust(left=0.3)

将系数乘以相关特征的标准差将使所有系数都减小到相同的度量单位。正如我们稍后将看到的，这等效于将数值变量归一化到其标准差，如 \(y = \sum{coef_i \times X_i} = \sum{(coef_i \times std_i) \times (X_i / std_i)}\)。

这样，我们强调在所有条件相同的情况下，特征的方差越大，相应系数对输出的影响就越大。

coefs = pd.DataFrame(
    model[-1].regressor_.coef_ * X_train_preprocessed.std(axis=0),
    columns=["Coefficient importance"],
    index=feature_names,
)
coefs.plot(kind="barh", figsize=(9, 7))
plt.xlabel("Coefficient values corrected by the feature's std. dev.")
plt.title("Ridge model, small regularization")
plt.axvline(x=0, color=".5")
plt.subplots_adjust(left=0.3)

现在系数已经缩放，我们可以安全地比较它们了。

注意

为什么上图表明年龄的增加会导致工资的下降？为什么最初的成对图却显示相反的情况？这种差异是边际依赖和条件依赖之间的差异。

上图告诉我们特定特征与目标之间的依赖关系，当所有其他特征保持不变时，即 **条件依赖关系**。当所有其他特征保持不变时，AGE 的增加会导致 WAGE 的减少。相反，当所有其他特征保持不变时，EXPERIENCE 的增加会导致 WAGE 的增加。此外，AGE、EXPERIENCE 和 EDUCATION 是对模型影响最大的三个变量。

解释系数：警惕因果关系#

线性模型是衡量统计关联的强大工具，但我们在做出关于因果关系的陈述时应保持谨慎，毕竟相关性并不总是意味着因果关系。这在社会科学中尤其困难，因为我们观察到的变量仅作为潜在因果过程的代理。

在我们的特定案例中，我们可以将个人的 EDUCATION 视为其职业能力的代理，这是我们感兴趣但无法观察到的真实变量。我们当然希望在学校待更长时间会增加技术能力，但也很有可能因果关系是反向的。也就是说，那些技术能力强的人倾向于在学校待更长时间。

雇主不太可能关心是哪种情况（或者两者兼有），只要他们仍然相信受过更多教育的人更适合这份工作，他们就会乐意支付更高的 WAGE。

当考虑某种干预形式时，例如政府对大学学位的补贴或鼓励个人接受高等教育的宣传材料，这种混杂效应就成了问题。这些措施的有用性可能最终被夸大，尤其是当混杂程度很强时。我们的模型预测每增加一年教育，每小时工资增加 \(0.054699\)。由于这种混杂，实际的因果效应可能较低。

检查系数的变异性#

我们可以通过交叉验证来检查系数的变异性：这是一种数据扰动形式（与重采样有关）。

如果系数在更改输入数据集时显著变化，则不能保证其鲁棒性，并且可能应谨慎解释。

from sklearn.model_selection import RepeatedKFold, cross_validate

cv = RepeatedKFold(n_splits=5, n_repeats=5, random_state=0)
cv_model = cross_validate(
    model,
    X,
    y,
    cv=cv,
    return_estimator=True,
    n_jobs=2,
)

coefs = pd.DataFrame(
    [
        est[-1].regressor_.coef_ * est[:-1].transform(X.iloc[train_idx]).std(axis=0)
        for est, (train_idx, _) in zip(cv_model["estimator"], cv.split(X, y))
    ],
    columns=feature_names,
)

plt.figure(figsize=(9, 7))
sns.stripplot(data=coefs, orient="h", palette="dark:k", alpha=0.5)
sns.boxplot(data=coefs, orient="h", color="cyan", saturation=0.5, whis=10)
plt.axvline(x=0, color=".5")
plt.xlabel("Coefficient importance")
plt.title("Coefficient importance and its variability")
plt.suptitle("Ridge model, small regularization")
plt.subplots_adjust(left=0.3)

Ridge model, small regularization, Coefficient importance and its variability

预处理数值变量#

如上所述（参见“机器学习管道”），我们也可以选择在训练模型之前缩放数值。当我们在岭回归中对所有这些变量应用相似的正则化量时，这可能很有用。预处理器被重新定义，以便减去均值并将变量缩放为单位方差。

from sklearn.preprocessing import StandardScaler

preprocessor = make_column_transformer(
    (OneHotEncoder(drop="if_binary"), categorical_columns),
    (StandardScaler(), numerical_columns),
)

模型将保持不变。

model = make_pipeline(
    preprocessor,
    TransformedTargetRegressor(
        regressor=Ridge(alpha=1e-10), func=np.log10, inverse_func=sp.special.exp10
    ),
)
model.fit(X_train, y_train)

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('onehotencoder',
                                                  OneHotEncoder(drop='if_binary'),
                                                  ['RACE', 'OCCUPATION',
                                                   'SECTOR', 'MARR', 'UNION',
                                                   'SEX', 'SOUTH']),
                                                 ('standardscaler',
                                                  StandardScaler(),
                                                  ['EDUCATION', 'EXPERIENCE',
                                                   'AGE'])])),
                ('transformedtargetregressor',
                 TransformedTargetRegressor(func=<ufunc 'log10'>,
                                            inverse_func=<ufunc 'exp10'>,
                                            regressor=Ridge(alpha=1e-10)))])

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

同样，我们使用中位数绝对误差来检查计算模型的性能。

mae_train = median_absolute_error(y_train, model.predict(X_train))
y_pred = model.predict(X_test)
mae_test = median_absolute_error(y_test, y_pred)
scores = {
    "MedAE on training set": f"{mae_train:.2f} $/hour",
    "MedAE on testing set": f"{mae_test:.2f} $/hour",
}

_, ax = plt.subplots(figsize=(5, 5))
display = PredictionErrorDisplay.from_predictions(
    y_test, y_pred, kind="actual_vs_predicted", ax=ax, scatter_kwargs={"alpha": 0.5}
)
ax.set_title("Ridge model, small regularization")
for name, score in scores.items():
    ax.plot([], [], " ", label=f"{name}: {score}")
ax.legend(loc="upper left")
plt.tight_layout()

对于系数分析，这次不需要缩放，因为它已在预处理步骤中完成。

coefs = pd.DataFrame(
    model[-1].regressor_.coef_,
    columns=["Coefficients importance"],
    index=feature_names,
)
coefs.plot.barh(figsize=(9, 7))
plt.title("Ridge model, small regularization, normalized variables")
plt.xlabel("Raw coefficient values")
plt.axvline(x=0, color=".5")
plt.subplots_adjust(left=0.3)

Ridge model, small regularization, normalized variables

现在我们检查几个交叉验证折叠中的系数。

cv_model = cross_validate(
    model,
    X,
    y,
    cv=cv,
    return_estimator=True,
    n_jobs=2,
)
coefs = pd.DataFrame(
    [est[-1].regressor_.coef_ for est in cv_model["estimator"]], columns=feature_names
)

plt.figure(figsize=(9, 7))
sns.stripplot(data=coefs, orient="h", palette="dark:k", alpha=0.5)
sns.boxplot(data=coefs, orient="h", color="cyan", saturation=0.5, whis=10)
plt.axvline(x=0, color=".5")
plt.title("Coefficient variability")
plt.subplots_adjust(left=0.3)

结果与未归一化的情况非常相似。

带正则化的线性模型#

在机器学习实践中，岭回归通常与不可忽略的正则化一起使用。

上面，我们将这种正则化限制在很小的量。正则化改善了问题的条件，并减少了估计的方差。RidgeCV 应用交叉验证以确定哪个正则化参数值（alpha）最适合预测。

from sklearn.linear_model import RidgeCV

alphas = np.logspace(-10, 10, 21)  # alpha values to be chosen from by cross-validation
model = make_pipeline(
    preprocessor,
    TransformedTargetRegressor(
        regressor=RidgeCV(alphas=alphas),
        func=np.log10,
        inverse_func=sp.special.exp10,
    ),
)
model.fit(X_train, y_train)

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('onehotencoder',
                                                  OneHotEncoder(drop='if_binary'),
                                                  ['RACE', 'OCCUPATION',
                                                   'SECTOR', 'MARR', 'UNION',
                                                   'SEX', 'SOUTH']),
                                                 ('standardscaler',
                                                  StandardScaler(),
                                                  ['EDUCATION', 'EXPERIENCE',
                                                   'AGE'])])),
                ('transformedtargetregressor',
                 TransformedTargetRegressor(func=<ufunc 'log10'>,
                                            inverse_func=<ufunc 'exp10'>,
                                            regressor=RidgeCV(alphas=array([1.e-10, 1.e-09, 1.e-08, 1.e-07, 1.e-06, 1.e-05, 1.e-04, 1.e-03,
       1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05,
       1.e+06, 1.e+07, 1.e+08, 1.e+09, 1.e+10]))))])

在 Jupyter 环境中，请重新运行此单元格以显示 HTML 表示形式或信任 notebook。
在 GitHub 上，HTML 表示形式无法渲染，请尝试使用 nbviewer.org 加载此页面。

首先，我们检查选择了哪个 \(\alpha\) 值。

model[-1].regressor_.alpha_

10.0

然后我们检查预测的质量。

mae_train = median_absolute_error(y_train, model.predict(X_train))
y_pred = model.predict(X_test)
mae_test = median_absolute_error(y_test, y_pred)
scores = {
    "MedAE on training set": f"{mae_train:.2f} $/hour",
    "MedAE on testing set": f"{mae_test:.2f} $/hour",
}

_, ax = plt.subplots(figsize=(5, 5))
display = PredictionErrorDisplay.from_predictions(
    y_test, y_pred, kind="actual_vs_predicted", ax=ax, scatter_kwargs={"alpha": 0.5}
)
ax.set_title("Ridge model, optimum regularization")
for name, score in scores.items():
    ax.plot([], [], " ", label=f"{name}: {score}")
ax.legend(loc="upper left")
plt.tight_layout()

正则化模型重现数据的能力与非正则化模型相似。

coefs = pd.DataFrame(
    model[-1].regressor_.coef_,
    columns=["Coefficients importance"],
    index=feature_names,
)
coefs.plot.barh(figsize=(9, 7))
plt.title("Ridge model, with regularization, normalized variables")
plt.xlabel("Raw coefficient values")
plt.axvline(x=0, color=".5")
plt.subplots_adjust(left=0.3)

Ridge model, with regularization, normalized variables

系数显著不同。AGE 和 EXPERIENCE 系数均为正，但它们对预测的影响现在较小。

正则化减少了相关变量对模型的影响，因为权重在两个预测变量之间共享，因此任何一个单独的变量都不会有很强的权重。

另一方面，通过正则化获得的权重更稳定（参见岭回归和分类用户指南部分）。从图中可以看出，这种增加的稳定性是通过交叉验证中的数据扰动获得的。此图可以与前一个图进行比较。

cv_model = cross_validate(
    model,
    X,
    y,
    cv=cv,
    return_estimator=True,
    n_jobs=2,
)
coefs = pd.DataFrame(
    [est[-1].regressor_.coef_ for est in cv_model["estimator"]], columns=feature_names
)

plt.xlabel("Age coefficient")
plt.ylabel("Experience coefficient")
plt.grid(True)
plt.xlim(-0.4, 0.5)
plt.ylim(-0.4, 0.5)
plt.scatter(coefs["AGE"], coefs["EXPERIENCE"])
_ = plt.title("Co-variations of coefficients for AGE and EXPERIENCE across folds")

Co-variations of coefficients for AGE and EXPERIENCE across folds

具有稀疏系数的线性模型#

考虑数据集中相关变量的另一种可能性是估计稀疏系数。在某种程度上，我们已经在之前的岭回归估计中手动删除 AGE 列时做到了这一点。

Lasso 模型（参见Lasso用户指南部分）估计稀疏系数。LassoCV 应用交叉验证以确定哪个正则化参数值（alpha）最适合模型估计。

from sklearn.linear_model import LassoCV

alphas = np.logspace(-10, 10, 21)  # alpha values to be chosen from by cross-validation
model = make_pipeline(
    preprocessor,
    TransformedTargetRegressor(
        regressor=LassoCV(alphas=alphas, max_iter=100_000),
        func=np.log10,
        inverse_func=sp.special.exp10,
    ),
)

_ = model.fit(X_train, y_train)

首先，我们验证选择了哪个 \(\alpha\) 值。

model[-1].regressor_.alpha_

np.float64(0.001)

然后我们检查预测的质量。

mae_train = median_absolute_error(y_train, model.predict(X_train))
y_pred = model.predict(X_test)
mae_test = median_absolute_error(y_test, y_pred)
scores = {
    "MedAE on training set": f"{mae_train:.2f} $/hour",
    "MedAE on testing set": f"{mae_test:.2f} $/hour",
}

_, ax = plt.subplots(figsize=(6, 6))
display = PredictionErrorDisplay.from_predictions(
    y_test, y_pred, kind="actual_vs_predicted", ax=ax, scatter_kwargs={"alpha": 0.5}
)
ax.set_title("Lasso model, optimum regularization")
for name, score in scores.items():
    ax.plot([], [], " ", label=f"{name}: {score}")
ax.legend(loc="upper left")
plt.tight_layout()

对于我们的数据集，该模型再次不具有很强的预测性。

coefs = pd.DataFrame(
    model[-1].regressor_.coef_,
    columns=["Coefficients importance"],
    index=feature_names,
)
coefs.plot(kind="barh", figsize=(9, 7))
plt.title("Lasso model, optimum regularization, normalized variables")
plt.axvline(x=0, color=".5")
plt.subplots_adjust(left=0.3)

Lasso model, optimum regularization, normalized variables

Lasso 模型识别 AGE 和 EXPERIENCE 之间的相关性，并为了预测而抑制其中一个。

重要的是要记住，被删除的系数本身可能仍然与结果相关：模型选择删除它们是因为除了其他特征之外，它们几乎没有或根本没有提供额外的信息。此外，这种选择对于相关特征是不稳定的，应谨慎解释。

事实上，我们可以检查系数在各折叠间的变异性。

cv_model = cross_validate(
    model,
    X,
    y,
    cv=cv,
    return_estimator=True,
    n_jobs=2,
)
coefs = pd.DataFrame(
    [est[-1].regressor_.coef_ for est in cv_model["estimator"]], columns=feature_names
)

plt.figure(figsize=(9, 7))
sns.stripplot(data=coefs, orient="h", palette="dark:k", alpha=0.5)
sns.boxplot(data=coefs, orient="h", color="cyan", saturation=0.5, whis=100)
plt.axvline(x=0, color=".5")
plt.title("Coefficient variability")
plt.subplots_adjust(left=0.3)

我们观察到 AGE 和 EXPERIENCE 系数根据折叠的不同而变化很大。

错误的因果解释#

政策制定者可能希望了解教育对工资的影响，以评估旨在吸引人们接受更多教育的某项政策是否具有经济意义。虽然机器学习模型在衡量统计关联方面表现出色，但它们通常无法推断因果效应。

人们可能很容易查看我们上一个模型（或任何模型）中教育对工资的系数，并得出结论认为它捕捉了标准化教育变量对工资变化的真实影响。

不幸的是，可能存在未观察到的混杂变量，这些变量会夸大或缩小该系数。混杂变量是同时导致 EDUCATION 和 WAGE 的变量。这种变量的一个例子是能力。据推测，能力更强的人更有可能接受教育，同时在任何教育水平下都更有可能获得更高的时薪。在这种情况下，能力对 EDUCATION 系数产生正的遗漏变量偏差（OVB），从而夸大了教育对工资的影响。

有关能力 OVB 的模拟案例，请参阅机器学习未能推断因果效应。

经验教训#

系数必须缩放到相同的度量单位才能检索特征重要性。用特征的标准差缩放它们是一个有用的代理。
多元线性模型中的系数表示给定特征与目标之间的依赖关系，**以**其他特征为**条件**。
相关特征会导致线性模型系数的不稳定性，并且其影响无法很好地分离。
不同的线性模型对特征相关性的响应不同，并且系数可能彼此显著不同。
检查交叉验证循环各折叠中的系数可以了解它们的稳定性。
当存在混杂效应时，解释因果关系是困难的。如果两个变量之间的关系也受到某些未观察到的事物的影响，那么我们在做出关于因果关系的结论时应该小心。

脚本总运行时间： (0 分钟 9.893 秒)

	steps steps: list of tuples 以顺序链式连接的 (name of step, estimator) 元组列表。为了与 scikit-learn API 兼容，所有步骤都必须定义 `fit`。所有非最后一步也必须定义 `transform`。有关更多详细信息，请参阅 :ref:`组合估计器 `。	[('columntransformer', ...), ('transformedtargetregressor', ...)]
	transform_input transform_input: list of str, default=None 应在管道将其传递给使用它的步骤之前由管道转换的 :term:`metadata` 参数的名称。这使得可以转换 ``fit`` 的某些输入参数（除了 ``X``）以由管道的步骤进行转换，直到需要它们的步骤。需求通过 :ref:`元数据路由 ` 定义。例如，这可以用于将验证集传递给管道。只有在启用元数据路由时才能设置此项，您可以通过使用 ``sklearn.set_config(enable_metadata_routing=True)`` 来启用它。 .. versionadded:: 1.6	None
	memory memory: str or object with the joblib.Memory interface, default=None 用于缓存管道已拟合的转换器。最后一步永远不会被缓存，即使它是一个转换器。默认情况下，不执行缓存。如果给定字符串，它是缓存目录的路径。启用缓存会在拟合之前触发转换器的克隆。因此，不能直接检查提供给管道的转换器实例。使用属性 ``named_steps`` 或 ``steps`` 来检查管道中的估计器。当拟合耗时时，缓存转换器是有利的。有关如何启用缓存的示例，请参阅 :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py`。	None
	verbose verbose: bool, default=False 如果为 True，则在完成每个步骤时打印拟合所花费的时间。	False

	transformers transformers: 元组列表 (name, transformer, columns) 元组列表，指定要应用于数据子集的 transformer 对象。 name : str 像在 Pipeline 和 FeatureUnion 中一样，这允许使用 ``set_params`` 设置 transformer 及其参数，并在网格搜索中搜索。 transformer : {'drop', 'passthrough'} 或 estimator Estimator 必须支持 :term:`fit` 和 :term:`transform`。特殊字符串 'drop' 和 'passthrough' 也被接受，表示删除列或分别不转换地通过它们。 columns : str, array-like of str, int, array-like of int, array-like of bool, slice 或 callable 在其第二个轴上索引数据。整数被解释为位置列，而字符串可以通过名称引用 DataFrame 列。当 ``transformer`` 期望 X 为一维 array-like（向量）时，应使用标量字符串或整数，否则将传递二维数组给 transformer。 callable 传递输入数据 `X` 并可以返回上述任何一个。要按名称或 dtype 选择多列，可以使用 :obj:`make_column_selector`。	[('onehotencoder', ...)]
	remainder remainder: {'drop', 'passthrough'} or estimator, default='drop' 默认情况下，只转换 `transformers` 中指定的列并将其组合在输出中，而未指定的列被删除。（默认值为 ``'drop'``）。通过指定 ``remainder='passthrough'``，所有未在 `transformers` 中指定但在传递给 `fit` 的数据中存在的剩余列将自动传递。此列子集与转换器的输出连接。对于数据框，在 `fit` 期间未见的额外列将从 `transform` 的输出中排除。通过将 ``remainder`` 设置为估计器，剩余的未指定列将使用 ``remainder`` 估计器。估计器必须支持 :term:`fit` 和 :term:`transform`。请注意，使用此功能要求在 :term:`fit` 和 :term:`transform` 时输入的 DataFrame 列具有相同的顺序。	'passthrough'
	sparse_threshold sparse_threshold: float, default=0.3 如果不同转换器的输出包含稀疏矩阵，则如果总体密度低于此值，它们将被堆叠为稀疏矩阵。使用 ``sparse_threshold=0`` 以始终返回密集矩阵。当转换后的输出全部由密集数据组成时，堆叠结果将是密集的，并且此关键字将被忽略。	0.3
	n_jobs n_jobs: int, default=None 并行运行的作业数。 ``None`` 表示 1，除非在 :obj:`joblib.parallel_backend` 上下文中。``-1`` 表示使用所有处理器。有关更多详细信息，请参阅 :term:`Glossary `。	None
	transformer_weights transformer_weights: dict, default=None 每个转换器特征的乘法权重。转换器的输出乘以这些权重。键是转换器名称，值是权重。	None
	verbose verbose: bool, default=False 如果为 True，则在完成每个转换器时打印拟合所花费的时间。	False
	verbose_feature_names_out verbose_feature_names_out: bool, str 或 Callable[[str, str], str], 默认=True - 如果为 True，:meth:`ColumnTransformer.get_feature_names_out` 将用生成该特征的 transformer 的名称作为所有特征名称的前缀。这等效于设置 `verbose_feature_names_out="{transformer_name}__{feature_name}"`。 - 如果为 False，:meth:`ColumnTransformer.get_feature_names_out` 不会给任何特征名称加前缀，如果特征名称不唯一，则会出错。 - 如果为 ``Callable[[str, str], str]``，:meth:`ColumnTransformer.get_feature_names_out` 将使用 transformer 的名称重命名所有特征。 callable 的第一个参数是 transformer 名称，第二个参数是特征名称。返回的字符串将是新的特征名称。 - 如果为 ``str``，它必须是可用于格式化的字符串。给定的字符串将使用两个字段名进行格式化：``transformer_name`` 和 ``feature_name``。例如，``"{feature_name}__{transformer_name}"``。有关更多信息，请参阅标准库中的 :meth:`str.format` 方法。 .. versionadded:: 1.0 .. versionchanged:: 1.6 `verbose_feature_names_out` 可以是 callable 或可格式化的字符串。	False
	force_int_remainder_cols force_int_remainder_cols: bool, default=False 此参数无效。 .. note:: 如果您不访问 `transformers_` 已拟合属性中剩余列的列列表，则无需设置此参数。 .. versionadded:: 1.5 .. versionchanged:: 1.7 `force_int_remainder_cols` 的默认值将从 `True` 更改为 `False`，在版本 1.7 中。 .. deprecated:: 1.7 `force_int_remainder_cols` 已弃用，并将在 1.9 版本中移除。	'deprecated'

	categories categories: 'auto' or a list of array-like, default='auto' 每个特征的类别（唯一值）： - 'auto'：从训练数据中自动确定类别。 - list：``categories[i]`` 包含第 i 列中预期的类别。传递的类别不应在单个特征内混合字符串和数值，并且在数值的情况下应已排序。使用的类别可以在 ``categories_`` 属性中找到。 .. versionadded:: 0.20	'auto'
	drop drop: {'first', 'if_binary'} 或形状为 (n_features,) 的 array-like, 默认=None 指定用于删除每个特征的一个类别的方法。这在完全共线特征导致问题的情况下很有用，例如将结果数据输入到非正则化线性回归模型时。然而，删除一个类别会破坏原始表示的对称性，因此可能在下游模型中引入偏差，例如对于惩罚线性分类或回归模型。 - None：保留所有特征（默认）。 - 'first'：删除每个特征中的第一个类别。如果只有一个类别存在，则该特征将被完全删除。 - 'if_binary'：删除每个具有两个类别的特征中的第一个类别。具有 1 个或超过 2 个类别的特征保持不变。 - array：``drop[i]`` 是特征 ``X[:, i]`` 中应删除的类别。当 `max_categories` 或 `min_frequency` 配置为分组不常见类别时，删除行为在分组后处理。 .. versionadded:: 0.21 参数 `drop` 在 0.21 中添加。 .. versionchanged:: 0.23 选项 `drop='if_binary'` 在 0.23 中添加。 .. versionchanged:: 1.1 支持删除不常见类别。	'if_binary'
	sparse_output sparse_output: bool, default=True 当 ``True`` 时，返回一个 :class:`scipy.sparse.csr_matrix`，即“压缩稀疏行”（CSR）格式的稀疏矩阵。 .. versionadded:: 1.2 `sparse` 已重命名为 `sparse_output`	True
	dtype dtype: number type, default=np.float64 所需输出数据类型。	<class 'numpy.float64'>
	handle_unknown handle_unknown: {'error', 'ignore', 'infrequent_if_exist', 'warn'}, 默认='error' 指定在 :meth:`transform` 期间如何处理未知类别。 - 'error'：如果在 transform 期间存在未知类别，则引发错误。 - 'ignore'：当在 transform 期间遇到未知类别时，该特征的所得独热编码列将全部为零。在 inverse transform 中，未知类别将表示为 None。 - 'infrequent_if_exist'：当在 transform 期间遇到未知类别时，该特征的所得独热编码列将映射到不常见类别（如果存在）。不常见类别将映射到编码中的最后一个位置。在 inverse transform 期间，未知类别将映射到表示为 `'infrequent'` 的类别（如果存在）。如果 `'infrequent'` 类别不存在，则 :meth:`transform` 和 :meth:`inverse_transform` 将像 `handle_unknown='ignore'` 一样处理未知类别。不常见类别根据 `min_frequency` 和 `max_categories` 存在。在 :ref:`User Guide ` 中阅读更多内容。 - 'warn'：当在 transform 期间遇到未知类别时，会发出警告，然后编码将按照 `handle_unknown="infrequent_if_exist"` 的描述进行。 .. versionchanged:: 1.1 添加了 `'infrequent_if_exist'` 以自动处理未知类别和不常见类别。 .. versionadded:: 1.6 选项 `"warn"` 在 1.6 中添加。	'error'
	min_frequency min_frequency: int or float, default=None 指定类别被视为不常见的最小频率。 - 如果为 `int`，则基数小于此值的类别将被视为不常见。 - 如果为 `float`，则基数小于 `min_frequency * n_samples` 的类别将被视为不常见。 .. versionadded:: 1.1 在 :ref:`User Guide ` 中阅读更多信息。	None
	max_categories max_categories: int, default=None 指定当考虑不常见类别时，每个输入特征的输出特征数量的上限。如果存在不常见类别，`max_categories` 包括表示不常见类别的类别以及常见类别。如果为 `None`，则输出特征数量没有限制。 .. versionadded:: 1.1 在 :ref:`User Guide ` 中阅读更多信息。	None
	feature_name_combiner feature_name_combiner: "concat" or callable, default="concat" 具有签名 `def callable(input_feature, category)` 的可调用对象，返回一个字符串。这用于创建由 :meth:`get_feature_names_out` 返回的特征名称。 `"concat"` 使用 `feature + "_" + str(category)` 连接编码特征名称和类别。例如，具有值 1、6、7 的特征 X 创建特征名称 `X_1, X_6, X_7`。 .. versionadded:: 1.3	'concat'

	regressor regressor: object, 默认值=None 回归器对象，例如派生自 :class:`~sklearn.base.RegressorMixin`。此回归器将在每次拟合之前自动克隆。如果 `regressor is None`，则创建并使用 :class:`~sklearn.linear_model.LinearRegression`。	Ridge(alpha=1e-10)
	transformer transformer: object, 默认值=None Estimator 对象，例如派生自 :class:`~sklearn.base.TransformerMixin`。不能与 `func` 和 `inverse_func` 同时设置。如果 `transformer is None` 且 `func` 和 `inverse_func` 也为 None，则 transformer 将是恒等 transformer。请注意，transformer 将在拟合期间克隆。此外，transformer 将 `y` 限制为 numpy 数组。	None
	func func: function, 默认值=None 在传递给 :meth:`fit` 之前应用于 `y` 的函数。不能与 `transformer` 同时设置。如果 `func is None`，则使用的函数将是恒等函数。如果设置了 `func`，则还需要提供 `inverse_func`。函数需要返回一个二维数组。	<ufunc 'log10'>
	inverse_func inverse_func: function, 默认值=None 应用于回归器预测的函数。不能与 `transformer` 同时设置。逆函数用于将预测返回到原始训练标签的相同空间。如果设置了 `inverse_func`，则还需要提供 `func`。逆函数需要返回一个二维数组。	<ufunc 'exp10'>
	check_inverse check_inverse: bool, 默认值=True 是否检查 `transform` 之后接 `inverse_transform` 或 `func` 之后接 `inverse_func` 会导致原始目标。	True

	alpha alpha: {float, ndarray of shape (n_targets,)}, 默认值=1.0 乘以 L2 项的常数，控制正则化强度。 `alpha` 必须是非负浮点数，即在 `[0, inf)` 中。当 `alpha = 0` 时，目标等同于普通最小二乘法，由 :class:`LinearRegression` 对象求解。出于数值原因，不建议将 `Ridge` 对象与 `alpha = 0` 一起使用。相反，您应该使用 :class:`LinearRegression` 对象。如果传递数组，则惩罚被假定为特定于目标。因此，它们必须数量对应。	1e-10
	fit_intercept fit_intercept: bool, 默认值=True 是否为该模型拟合截距。如果设置为 false，则在计算中不使用截距（即期望 ``X`` 和 ``y`` 居中）。	True
	copy_X copy_X: bool, default=True 如果为 True，X 将被复制；否则，它可能会被覆盖。	True
	max_iter max_iter: int, 默认值=None 共轭梯度求解器的最大迭代次数。对于 'sparse_cg' 和 'lsqr' 求解器，默认值由 scipy.sparse.linalg 确定。对于 'sag' 求解器，默认值为 1000。对于 'lbfgs' 求解器，默认值为 15000。	None
	tol tol: float, 默认值=1e-4 解决方案 (`coef_`) 的精度由 `tol` 决定，`tol` 为每个求解器指定不同的收敛准则： - 'svd'：`tol` 没有影响。 - 'cholesky'：`tol` 没有影响。 - 'sparse_cg'：残差范数小于 `tol`。 - 'lsqr'：`tol` 设置为 scipy.sparse.linalg.lsqr 的 atol 和 btol，它们控制残差向量的范数，以矩阵和系数的范数表示。 - 'sag' 和 'saga'：系数的相对变化小于 `tol`。 - 'lbfgs'：绝对（投影）梯度的最大值 = max\|residuals\| 小于 `tol`。 .. versionchanged:: 1.2 默认值从 1e-3 更改为 1e-4，以与其他线性模型保持一致。	0.0001
	solver solver: {'auto', 'svd', 'cholesky', 'lsqr', 'sparse_cg', 'sag', 'saga', 'lbfgs'}, 默认值='auto' 计算例程中使用的求解器： - 'auto' 根据数据类型自动选择求解器。 - 'svd' 使用 X 的奇异值分解来计算 Ridge 系数。它是最稳定的求解器，特别是对于奇异矩阵比 'cholesky' 更稳定，但速度较慢。 - 'cholesky' 使用标准 :func:`scipy.linalg.solve` 函数获得闭式解。 - 'sparse_cg' 使用 :func:`scipy.sparse.linalg.cg` 中找到的共轭梯度求解器。作为一个迭代算法，此求解器比 'cholesky' 更适合大规模数据（可以设置 `tol` 和 `max_iter`）。 - 'lsqr' 使用专门的正则化最小二乘例程 :func:`scipy.sparse.linalg.lsqr`。它是最快的，并使用迭代过程。 - 'sag' 使用随机平均梯度下降，'saga' 使用其改进的无偏版本 SAGA。这两种方法也使用迭代过程，并且当 n_samples 和 n_features 都很大时，通常比其他求解器更快。请注意，'sag' 和 'saga' 的快速收敛仅保证在具有大致相同尺度的特征上。您可以使用 :mod:`sklearn.preprocessing` 中的缩放器预处理数据。 - 'lbfgs' 使用 :func:`scipy.optimize.minimize` 中实现的 L-BFGS-B 算法。它只能在 `positive` 为 True 时使用。除了 'svd' 之外的所有求解器都支持密集和稀疏数据。但是，只有 'lsqr'、'sag'、'sparse_cg' 和 'lbfgs' 在 `fit_intercept` 为 True 时支持稀疏输入。 .. versionadded:: 0.17 随机平均梯度下降求解器。 .. versionadded:: 0.19 SAGA 求解器。	'auto'
	positive positive: bool, 默认值=False 当设置为 ``True`` 时，强制系数为正。在这种情况下，仅支持 'lbfgs' 求解器。	False
	random_state random_state: int, RandomState 实例, 默认值=None 当 ``solver`` == 'sag' 或 'saga' 时用于打乱数据。有关详细信息，请参阅 :term:`Glossary `。 .. versionadded:: 0.17 `random_state` 用于支持随机平均梯度。	None

线性模型系数解释中的常见误区#

数据集：工资#

机器学习管道#

处理数据集#

解释系数：量级很重要#

解释系数：警惕因果关系#

检查系数的变异性#

相关变量问题#

预处理数值变量#

带正则化的线性模型#

具有稀疏系数的线性模型#

错误的因果解释#

经验教训#

本页

	transformers transformers: 元组列表 (name, transformer, columns) 元组列表，指定要应用于数据子集的 transformer 对象。 name : str 像在 Pipeline 和 FeatureUnion 中一样，这允许使用 ``set_params`` 设置 transformer 及其参数，并在网格搜索中搜索。 transformer : {'drop', 'passthrough'} 或 estimator Estimator 必须支持 :term:`fit` 和 :term:`transform`。特殊字符串 'drop' 和 'passthrough' 也被接受，表示删除列或分别不转换地通过它们。 columns : str, array-like of str, int, array-like of int, array-like of bool, slice 或 callable 在其第二个轴上索引数据。整数被解释为位置列，而字符串可以通过名称引用 DataFrame 列。当 ``transformer`` 期望 X 为一维 array-like（向量）时，应使用标量字符串或整数，否则将传递二维数组给 transformer。 callable 传递输入数据 `X` 并可以返回上述任何一个。要按名称或 dtype 选择多列，可以使用 :obj:`make_column_selector`。	[('onehotencoder', ...), ('standardscaler', ...)]
	remainder remainder: {'drop', 'passthrough'} or estimator, default='drop' 默认情况下，只转换 `transformers` 中指定的列并将其组合在输出中，而未指定的列被删除。（默认值为 ``'drop'``）。通过指定 ``remainder='passthrough'``，所有未在 `transformers` 中指定但在传递给 `fit` 的数据中存在的剩余列将自动传递。此列子集与转换器的输出连接。对于数据框，在 `fit` 期间未见的额外列将从 `transform` 的输出中排除。通过将 ``remainder`` 设置为估计器，剩余的未指定列将使用 ``remainder`` 估计器。估计器必须支持 :term:`fit` 和 :term:`transform`。请注意，使用此功能要求在 :term:`fit` 和 :term:`transform` 时输入的 DataFrame 列具有相同的顺序。	'drop'
	sparse_threshold sparse_threshold: float, default=0.3 如果不同转换器的输出包含稀疏矩阵，则如果总体密度低于此值，它们将被堆叠为稀疏矩阵。使用 ``sparse_threshold=0`` 以始终返回密集矩阵。当转换后的输出全部由密集数据组成时，堆叠结果将是密集的，并且此关键字将被忽略。	0.3
	n_jobs n_jobs: int, default=None 并行运行的作业数。 ``None`` 表示 1，除非在 :obj:`joblib.parallel_backend` 上下文中。``-1`` 表示使用所有处理器。有关更多详细信息，请参阅 :term:`Glossary `。	None
	transformer_weights transformer_weights: dict, default=None 每个转换器特征的乘法权重。转换器的输出乘以这些权重。键是转换器名称，值是权重。	None
	verbose verbose: bool, default=False 如果为 True，则在完成每个转换器时打印拟合所花费的时间。	False
	verbose_feature_names_out verbose_feature_names_out: bool, str 或 Callable[[str, str], str], 默认=True - 如果为 True，:meth:`ColumnTransformer.get_feature_names_out` 将用生成该特征的 transformer 的名称作为所有特征名称的前缀。这等效于设置 `verbose_feature_names_out="{transformer_name}__{feature_name}"`。 - 如果为 False，:meth:`ColumnTransformer.get_feature_names_out` 不会给任何特征名称加前缀，如果特征名称不唯一，则会出错。 - 如果为 ``Callable[[str, str], str]``，:meth:`ColumnTransformer.get_feature_names_out` 将使用 transformer 的名称重命名所有特征。 callable 的第一个参数是 transformer 名称，第二个参数是特征名称。返回的字符串将是新的特征名称。 - 如果为 ``str``，它必须是可用于格式化的字符串。给定的字符串将使用两个字段名进行格式化：``transformer_name`` 和 ``feature_name``。例如，``"{feature_name}__{transformer_name}"``。有关更多信息，请参阅标准库中的 :meth:`str.format` 方法。 .. versionadded:: 1.0 .. versionchanged:: 1.6 `verbose_feature_names_out` 可以是 callable 或可格式化的字符串。	True
	force_int_remainder_cols force_int_remainder_cols: bool, default=False 此参数无效。 .. note:: 如果您不访问 `transformers_` 已拟合属性中剩余列的列列表，则无需设置此参数。 .. versionadded:: 1.5 .. versionchanged:: 1.7 `force_int_remainder_cols` 的默认值将从 `True` 更改为 `False`，在版本 1.7 中。 .. deprecated:: 1.7 `force_int_remainder_cols` 已弃用，并将在 1.9 版本中移除。	'deprecated'

	copy copy: bool, default=True 如果为 False，尝试避免复制并就地进行缩放。不保证始终就地工作；例如，如果数据不是 NumPy 数组或 scipy.sparse CSR 矩阵，仍可能返回副本。	True
	with_mean with_mean: bool, default=True 如果为 True，在缩放之前将数据居中。在稀疏矩阵上尝试时不起作用（并且会引发异常），因为将它们居中需要构建密集矩阵，这在常见用例中可能太大而无法放入内存。	True
	with_std with_std: bool, default=True 如果为 True，将数据缩放到单位方差（或等效地，单位标准差）。	True

	regressor regressor: object, 默认值=None 回归器对象，例如派生自 :class:`~sklearn.base.RegressorMixin`。此回归器将在每次拟合之前自动克隆。如果 `regressor is None`，则创建并使用 :class:`~sklearn.linear_model.LinearRegression`。	RidgeCV(alpha...+09, 1.e+10]))
	transformer transformer: object, 默认值=None Estimator 对象，例如派生自 :class:`~sklearn.base.TransformerMixin`。不能与 `func` 和 `inverse_func` 同时设置。如果 `transformer is None` 且 `func` 和 `inverse_func` 也为 None，则 transformer 将是恒等 transformer。请注意，transformer 将在拟合期间克隆。此外，transformer 将 `y` 限制为 numpy 数组。	None
	func func: function, 默认值=None 在传递给 :meth:`fit` 之前应用于 `y` 的函数。不能与 `transformer` 同时设置。如果 `func is None`，则使用的函数将是恒等函数。如果设置了 `func`，则还需要提供 `inverse_func`。函数需要返回一个二维数组。	<ufunc 'log10'>
	inverse_func inverse_func: function, 默认值=None 应用于回归器预测的函数。不能与 `transformer` 同时设置。逆函数用于将预测返回到原始训练标签的相同空间。如果设置了 `inverse_func`，则还需要提供 `func`。逆函数需要返回一个二维数组。	<ufunc 'exp10'>
	check_inverse check_inverse: bool, 默认值=True 是否检查 `transform` 之后接 `inverse_transform` 或 `func` 之后接 `inverse_func` 会导致原始目标。	True

	alphas alphas: 形状为 (n_alphas,) 的 array-like, 默认值=(0.1, 1.0, 10.0) 要尝试的 alpha 值数组。正则化强度；必须是正浮点数。正则化改善了问题的条件并减少了估计的方差。较大的值指定更强的正则化。Alpha 对应于 :class:`~sklearn.linear_model.LogisticRegression` 或 :class:`~sklearn.svm.LinearSVC` 等其他线性模型中的 ``1 / (2C)``。如果使用留一法交叉验证，alphas 必须严格为正。	array([1.e-10...e+09, 1.e+10])
	fit_intercept fit_intercept: bool, 默认值=True 是否为该模型计算截距。如果设置为 false，则在计算中不使用截距（即数据预期已中心化）。	True
	scoring scoring: str, callable, 默认值=None 用于交叉验证的评分方法。选项： - str：有关选项，请参阅 :ref:`scoring_string_names`。 - callable：具有签名 ``scorer(estimator, X, y)`` 的评分器 callable 对象（例如函数）。有关详细信息，请参阅 :ref:`scoring_callable`。 - `None`：如果 cv 为 None（即使用留一法交叉验证），则为负 :ref:`mean squared error `，否则为 :ref:`coefficient of determination ` (:math:`R^2`)。	None
	cv cv: int, 交叉验证生成器或可迭代对象，默认值=None 确定交叉验证分割策略。 cv 的可能输入有： - None，使用高效的留一法交叉验证 - 整数，指定折叠数。 - :term:`CV splitter`， - 返回索引数组（train, test）分割的可迭代对象。对于整数/None 输入，如果 ``y`` 是二进制或多类别，则使用 :class:`~sklearn.model_selection.StratifiedKFold`，否则使用 :class:`~sklearn.model_selection.KFold`。有关可在此处使用的各种交叉验证策略，请参阅 :ref:`User Guide `。	None
	gcv_mode gcv_mode: {'auto', 'svd', 'eigen'}, 默认值='auto' 执行留一法交叉验证时使用的策略标志。选项为：： 'auto' : 如果 n_samples > n_features，则使用 'svd'，否则使用 'eigen' 'svd' : 当 X 为密集时，强制使用 X 的奇异值分解；当 X 为稀疏时，强制使用 X^T.X 的特征值分解。 'eigen' : 强制通过 X.X^T 的特征分解进行计算 'auto' 模式是默认模式，旨在根据训练数据的形状选择两种方法中更经济的一种。	None
	store_cv_results store_cv_results: bool, 默认值=False 指示是否应将对应于每个 alpha 的交叉验证值存储在 ``cv_results_`` 属性中（见下文）的标志。此标志仅与 ``cv=None``（即使用留一法交叉验证）兼容。 .. versionchanged:: 1.5 参数名称从 `store_cv_values` 更改为 `store_cv_results`。	False
	alpha_per_target alpha_per_target: bool, 默认值=False 指示是否为每个目标单独优化 alpha 值（从 `alphas` 参数列表选择）的标志（对于多输出设置：多个预测目标）。当设置为 `True` 时，拟合后， `alpha_` 属性将包含每个目标的值。当设置为 `False` 时，所有目标使用单个 alpha。 .. versionadded:: 0.24	False