8.1. 玩具数据集#

scikit-learn 附带了一些小型的标准数据集，无需从外部网站下载任何文件即可使用。

它们可以使用以下函数加载：

`load_iris`(*[, return_X_y, as_frame])	加载并返回鸢尾花数据集（分类）。
`load_diabetes`(*[, return_X_y, as_frame, scaled])	加载并返回糖尿病数据集（回归）。
`load_digits`(*[, n_class, return_X_y, as_frame])	加载并返回手写数字数据集（分类）。
`load_linnerud`(*[, return_X_y, as_frame])	加载并返回 Linnerud 体育锻炼数据集。
`load_wine`(*[, return_X_y, as_frame])	加载并返回葡萄酒数据集（分类）。
`load_breast_cancer`(*[, return_X_y, as_frame])	加载并返回威斯康星乳腺癌数据集（分类）。

这些数据集有助于快速说明 scikit-learn 中实现的各种算法的行为。然而，它们通常太小，无法代表真实世界的机器学习任务。

8.1.1. 鸢尾花数据集#

数据集特征

实例数量:

150（每三类中各50个）

属性数量:

4个数值型预测属性和类别

属性信息:

萼片长度（厘米）
萼片宽度（厘米）
花瓣长度（厘米）
花瓣宽度（厘米）
类别
- 鸢尾花-山鸢尾 (Iris-Setosa)
- 鸢尾花-变色鸢尾 (Iris-Versicolour)
- 鸢尾花-维吉尼亚鸢尾 (Iris-Virginica)

统计摘要:


萼片长度	4.3	7.9	5.84	0.83	0.7826
萼片宽度	2.0	4.4	3.05	0.43	-0.4194
花瓣长度	1.0	6.9	3.76	1.76	0.9490（高！）
花瓣宽度	0.1	2.5	1.20	0.76	0.9565（高！）

缺失属性值:: 无
类别分布:: 3个类别各占33.3%。
创建者:: R.A. 费雪
捐赠者:: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
日期:: 1988年7月

著名的鸢尾花数据库，由 R.A. Fisher 首次使用。该数据集取自 Fisher 的论文。请注意，它与 R 语言中的版本相同，但与 UCI 机器学习存储库中的版本不同，后者有两个错误的数据点。

这也许是模式识别文献中最著名的数据库。Fisher 的论文是该领域的经典之作，至今仍被频繁引用。（例如，参见 Duda & Hart。）该数据集包含 3 个类别，每个类别有 50 个实例，每个类别指代一种鸢尾花。其中一个类别与另外两个类别是线性可分的；后两个类别彼此之间不是线性可分的。

8.1.2. 糖尿病数据集#

从 n = 442 名糖尿病患者中获得了十个基线变量：年龄、性别、身体质量指数、平均血压，以及六项血清测量值，以及一年后疾病进展的定量测量值（感兴趣的响应）。

数据集特征

实例数量:

442

属性数量:

前10列是数值预测值

目标:

第11列是基线一年后疾病进展的定量测量

属性信息:

age 年龄（岁）
sex 性别
bmi 身体质量指数
bp 平均血压
s1 tc，总血清胆固醇
s2 ldl，低密度脂蛋白
s3 hdl，高密度脂蛋白
s4 tch，总胆固醇 / 高密度脂蛋白
s5 ltg，可能是血清甘油三酯水平的对数
s6 glu，血糖水平

注：这10个特征变量均已进行均值归零并通过标准差乘以 n_samples 的平方根进行缩放（即每列的平方和总计为1）。

来源URL：https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html

更多信息请参见：Bradley Efron, Trevor Hastie, Iain Johnstone and Robert Tibshirani (2004) “Least Angle Regression,” Annals of Statistics (with discussion), 407-499. (https://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf)

8.1.3. 手写数字光学识别数据集#

数据集特征

实例数量:

1797

属性数量:

64

属性信息:

8x8 图像，整数像素值范围为 0..16。

缺失属性值:

无

创建者:

Alpaydin (alpaydin ‘@’ boun.edu.tr)

日期:

1998年7月

这是UCI ML手写数字数据集的测试集的副本 https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

该数据集包含手写数字图像：10个类别，每个类别代表一个数字。

NIST 提供的预处理程序用于从预印表格中提取手写数字的标准化位图。共有 43 人参与，其中 30 人贡献了训练集，另有 13 人贡献了测试集。32x32 位图被分成 4x4 的非重叠块，并统计每个块中“开”像素的数量。这生成了一个 8x8 的输入矩阵，其中每个元素都是 0..16 范围内的整数。这降低了维度并对微小失真具有不变性。

有关 NIST 预处理程序的详细信息，请参阅 M. D. Garris, J. L. Blue, G. T. Candela, D. L. Dimmick, J. Geist, P. J. Grother, S. A. Janet, and C. L. Wilson, NIST Form-Based Handprint Recognition System, NISTIR 5469, 1994。

8.1.4. Linnerrud 数据集#

数据集特征

实例数量:: 20
属性数量:: 3
缺失属性值:: 无

Linnerud 数据集是一个多输出回归数据集。它包含从健身俱乐部招募的二十名中年男性收集的三项锻炼（数据）和三项生理（目标）变量。

physiological - 包含 3 项生理变量的 20 个观测值的 CSV
体重、腰围和脉搏。
exercise - 包含 3 项锻炼变量的 20 个观测值的 CSV
引体向上、仰卧起坐和跳跃。

8.1.5. 葡萄酒识别数据集#

数据集特征

实例数量:

178

属性数量:

13个数值型预测属性和类别

属性信息:

酒精
苹果酸
灰分
灰分碱度
镁
总酚
类黄酮
非类黄酮酚
原花青素
颜色强度
色相
稀释葡萄酒的OD280/OD315
脯氨酸
类别
- 类别_0
- 类别_1
- 类别_2

统计摘要:


酒精	11.0	14.8	13.0	0.8
苹果酸	0.74	5.80	2.34	1.12
灰分	1.36	3.23	2.36	0.27
灰分碱度	10.6	30.0	19.5	3.3
镁	70.0	162.0	99.7	14.3
总酚	0.98	3.88	2.29	0.63
类黄酮	0.34	5.08	2.03	1.00
非类黄酮酚	0.13	0.66	0.36	0.12
原花青素	0.41	3.58	1.59	0.57
颜色强度	1.3	13.0	5.1	2.3
色相	0.48	1.71	0.96	0.23
稀释葡萄酒的OD280/OD315	1.27	4.00	2.61	0.71
脯氨酸	278	1680	746	315

缺失属性值:: 无
类别分布:: 类别_0 (59), 类别_1 (71), 类别_2 (48)
创建者:: R.A. 费雪
捐赠者:: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
日期:: 1988年7月

这是 UCI ML 葡萄酒识别数据集的副本。 https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data

该数据是意大利同一地区由三位不同种植者种植的葡萄酒的化学分析结果。针对三种葡萄酒中发现的不同成分进行了十三种不同的测量。

原始所有者

Forina, M. et al, PARVUS - An Extendible Package for Data Exploration, Classification and Correlation. Institute of Pharmaceutical and Food Analysis and Technologies, Via Brigata Salerno, 16147 Genoa, Italy。

引用

Lichman, M. (2013). UCI Machine Learning Repository [https://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science。

8.1.6. 威斯康星乳腺癌（诊断）数据集#

数据集特征

实例数量:

569

属性数量:

30个数值型预测属性和类别

属性信息:

半径（从中心到周长上点的距离的平均值）
纹理（灰度值的标准差）
周长
面积
平滑度（半径长度的局部变化）
紧致度（周长^2 / 面积 - 1.0）
凹度（轮廓凹陷部分的严重程度）
凹点（轮廓凹陷部分的数量）
对称性
分形维度（“海岸线近似” - 1）

针对每张图像计算了这些特征的平均值、标准误差和“最差”或最大值（三个最差/最大值的平均值），从而得到 30 个特征。例如，字段 0 是平均半径，字段 10 是半径标准误差，字段 20 是最差半径。

类别
- WDBC-恶性
- WDBC-良性

统计摘要:


半径（平均）	6.981	28.11
纹理（平均）	9.71	39.28
周长（平均）	43.79	188.5
面积（平均）	143.5	2501.0
平滑度（平均）	0.053	0.163
紧致度（平均）	0.019	0.345
凹度（平均）	0.0	0.427
凹点（平均）	0.0	0.201
对称性（平均）	0.106	0.304
分形维度（平均）	0.05	0.097
半径（标准误差）	0.112	2.873
纹理（标准误差）	0.36	4.885
周长（标准误差）	0.757	21.98
面积（标准误差）	6.802	542.2
平滑度（标准误差）	0.002	0.031
紧致度（标准误差）	0.002	0.135
凹度（标准误差）	0.0	0.396
凹点（标准误差）	0.0	0.053
对称性（标准误差）	0.008	0.079
分形维度（标准误差）	0.001	0.03
半径（最差）	7.93	36.04
纹理（最差）	12.02	49.54
周长（最差）	50.41	251.2
面积（最差）	185.2	4254.0
平滑度（最差）	0.071	0.223
紧致度（最差）	0.027	1.058
凹度（最差）	0.0	1.252
凹点（最差）	0.0	0.291
对称性（最差）	0.156	0.664
分形维度（最差）	0.055	0.208

缺失属性值:: 无
类别分布:: 212 - 恶性，357 - 良性
创建者:: William H. Wolberg 博士, W. Nick Street, Olvi L. Mangasarian
捐赠者:: Nick Street
日期:: 1995年11月

这是 UCI ML 威斯康星乳腺癌（诊断）数据集的副本。 https://goo.gl/U2Uwz2

特征是从乳腺肿块的细针穿刺 (FNA) 数字化图像中计算出来的。它们描述了图像中细胞核的特征。

上述分离平面是使用多曲面法树（MSM-T）获得的 [K. P. Bennett, “Decision Tree Construction Via Linear Programming.” Proceedings of the 4th Midwest Artificial Intelligence and Cognitive Science Society, pp. 97-101, 1992]，这是一种使用线性规划构建决策树的分类方法。通过在 1-4 个特征和 1-3 个分离平面的空间中进行穷举搜索来选择相关特征。

用于在三维空间中获得分离平面的实际线性规划描述在：[K. P. Bennett and O. L. Mangasarian: “Robust Linear Programming Discrimination of Two Linearly Inseparable Sets”, Optimization Methods and Software 1, 1992, 23-34]。

此数据库也可通过 UW CS ftp 服务器获取

ftp ftp.cs.wisc.edu cd math-prog/cpo-dataset/machine-learn/WDBC/

8.1. 玩具数据集#

8.1.1. 鸢尾花数据集#

8.1.2. 糖尿病数据集#

8.1.3. 手写数字光学识别数据集#

8.1.4. Linnerrud 数据集#

8.1.5. 葡萄酒识别数据集#

8.1.6. 威斯康星乳腺癌（诊断）数据集#

本页