7.1. 玩具数据集#

scikit-learn 附带了一些小型标准数据集,无需从任何外部网站下载任何文件。

可以使用以下函数加载它们

load_iris(*[, return_X_y, as_frame])

加载并返回鸢尾花数据集(分类)。

load_diabetes(*[, return_X_y, as_frame, scaled])

加载并返回糖尿病数据集(回归)。

load_digits(*[, n_class, return_X_y, as_frame])

加载并返回数字数据集(分类)。

load_linnerud(*[, return_X_y, as_frame])

加载并返回 Linnerud 体育锻炼数据集。

load_wine(*[, return_X_y, as_frame])

加载并返回葡萄酒数据集(分类)。

load_breast_cancer(*[, return_X_y, as_frame])

加载并返回威斯康星乳腺癌数据集(分类)。

这些数据集有助于快速说明 scikit-learn 中实现的各种算法的行为。然而,它们通常太小,无法代表现实世界中的机器学习任务。

7.1.1. 鸢尾花卉数据集#

数据集特征

实例数量:

150(每个类别 50 个)

属性数量:

4 个数值型预测属性和类别

属性信息:
  • 花萼长度(厘米)

  • 花萼宽度(厘米)

  • 花瓣长度(厘米)

  • 花瓣宽度(厘米)

  • 类别
    • 山鸢尾

    • 杂色鸢尾

    • 维吉尼亚鸢尾

汇总统计:

花萼长度

4.3

7.9

5.84

0.83

0.7826

花萼宽度

2.0

4.4

3.05

0.43

-0.4194

花瓣长度

1.0

6.9

3.76

1.76

0.9490(很高!)

花瓣宽度

0.1

2.5

1.20

0.76

0.9565(很高!)

缺失属性值:

类别分布:

3 个类别中每个类别 33.3%。

创建者:

R.A. Fisher

捐赠者:

Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)

日期:

1988 年 7 月

著名的鸢尾花数据库,最初由 R.A. Fisher 爵士使用。数据集取自 Fisher 的论文。请注意,它与 R 中的相同,但与 UCI 机器学习资源库中的不同,后者有两个错误的数据点。

这可能是模式识别文献中最著名的数据库。Fisher 的论文是该领域的一部经典著作,至今仍被频繁引用。(例如,参见 Duda & Hart。)数据集包含 3 类,每类 50 个实例,其中每个类别对应一种鸢尾花卉。一类与另外两类线性可分;后两者彼此之间不可线性可分。

参考文献#
  • Fisher, R.A. “The use of multiple measurements in taxonomic problems” Annual Eugenics, 7, Part II, 179-188 (1936); also in “Contributions to Mathematical Statistics” (John Wiley, NY, 1950).

  • Duda, R.O., & Hart, P.E. (1973) Pattern Classification and Scene Analysis. (Q327.D83) John Wiley & Sons. ISBN 0-471-22361-1. See page 218.

  • Dasarathy, B.V. (1980) “Nosing Around the Neighborhood: A New System Structure and Classification Rule for Recognition in Partially Exposed Environments”. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. PAMI-2, No. 1, 67-71.

  • Gates, G.W. (1972) “The Reduced Nearest Neighbor Rule”. IEEE Transactions on Information Theory, May 1972, 431-433.

  • 另请参见:1988 年 MLC 论文集,54-64。Cheeseman 等人的 AUTOCLASS II 概念聚类系统在数据中找到了 3 个类别。

  • 还有很多很多……

7.1.2. 糖尿病数据集#

对 n = 442 名糖尿病患者,获得了 10 个基线变量,包括年龄、性别、身体质量指数、平均血压以及 6 个血清测量值,以及感兴趣的反应,即基线一年后疾病进展的定量指标。

数据集特征

实例数量:

442

属性数量:

前 10 列是数值型预测值

目标:

第 11 列是基线一年后疾病进展的定量指标

属性信息:
  • 年龄(以年为单位)

  • 性别

  • BMI(身体质量指数)

  • 血压(平均血压)

  • S1 TC(总血清胆固醇)

  • S2 LDL(低密度脂蛋白)

  • S3 HDL(高密度脂蛋白)

  • S4 TCH(总胆固醇/HDL)

  • S5 LTG(可能是血清甘油三酯水平的对数)

  • S6 GLU(血糖水平)

注意:这 10 个特征变量都已进行均值中心化,并按标准差乘以 n_samples 的平方根(即每列的平方和为 1)进行缩放。

来源 URL:https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html

更多信息请参见:Bradley Efron、Trevor Hastie、Iain Johnstone 和 Robert Tibshirani (2004) “最小角度回归”,统计年鉴(含讨论),407-499。(https://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf)

7.1.3. 手写数字光学识别数据集#

数据集特征

实例数量:

1797

属性数量:

64

属性信息:

8x8 像素的整数图像,范围为 0..16。

缺失属性值:

创建者:
  1. Alpaydin (alpaydin ‘@’ boun.edu.tr)

日期:

1998 年 7 月

这是 UCI ML 手写数字数据集测试集的副本 https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

数据集包含手写数字的图像:10 个类别,每个类别对应一个数字。

NIST 提供的预处理程序用于从预印表格中提取手写数字的归一化位图。从总共 43 人中,30 人贡献了训练集,13 人贡献了测试集。32x32 位图被分成 4x4 的不重叠块,并计算每个块中开启像素的数量。这会生成一个 8x8 的输入矩阵,其中每个元素都是 0..16 范围内的整数。这降低了维度,并对小变形具有不变性。

有关 NIST 预处理例程的信息,请参见 M. D. Garris、J. L. Blue、G. T. Candela、D. L. Dimmick、J. Geist、P. J. Grother、S. A. Janet 和 C. L. Wilson,NIST 基于表单的手写识别系统,NISTIR 5469,1994 年。

参考文献#
  • C. Kaynak (1995) 多分类器组合方法及其在手写数字识别中的应用,硕士论文,博阿兹奇大学科学与工程研究生院。

    1. Alpaydin、C. Kaynak (1998) 级联分类器,Kybernetika。

  • Ken Tang 和 Ponnuthurai N. Suganthan 和 Xi Yao 和 A. Kai Qin。使用相关性加权 LDA 的线性降维。南洋理工大学电气与电子工程学院。2005 年。

  • Claudio Gentile。一种新的近似最大边距分类算法。NIPS。2000 年。

7.1.4. Linnerrud 数据集#

数据集特征

实例数量:

20

属性数量:

3

缺失属性值:

Linnerrud 数据集是一个多输出回归数据集。它包含从一家健身俱乐部 20 名中年男性收集的三个运动(数据)变量和三个生理(目标)变量。

  • 生理 - 包含 20 个观测值的 CSV 文件,包含 3 个生理变量。

    体重、腰围和脉搏。

  • 运动 - 包含 20 个观测值的 CSV 文件,包含 3 个运动变量。

    引体向上、仰卧起坐和跳跃。

参考文献#
  • Tenenhaus, M. (1998)。PLS 回归:理论与实践。巴黎:Editions Technic。

7.1.5. 葡萄酒识别数据集#

数据集特征

实例数量:

178

属性数量:

13 个数值预测属性和类别

属性信息:
  • 酒精

  • 苹果酸

  • 灰分

  • 灰分的碱度

  • 总酚

  • 黄酮类化合物

  • 非黄酮类酚

  • 原花青素

  • 颜色强度

  • 色调

  • 稀释葡萄酒的 OD280/OD315

  • 脯氨酸

  • 类别
    • 类别 0

    • 类别 1

    • 类别 2

汇总统计:

酒精

11.0

14.8

13.0

0.8

苹果酸

0.74

5.80

2.34

1.12

灰分

1.36

3.23

2.36

0.27

灰分的碱度

10.6

30.0

19.5

3.3

70.0

162.0

99.7

14.3

总酚

0.98

3.88

2.29

0.63

黄酮类化合物

0.34

5.08

2.03

1.00

非黄酮类酚

0.13

0.66

0.36

0.12

原花青素

0.41

3.58

1.59

0.57

颜色强度

1.3

13.0

5.1

2.3

色调

0.48

1.71

0.96

0.23

稀释葡萄酒的 OD280/OD315

1.27

4.00

2.61

0.71

脯氨酸

278

1680

746

315

缺失属性值:

类别分布:

类别 0(59)、类别 1(71)、类别 2(48)

创建者:

R.A. Fisher

捐赠者:

Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)

日期:

1988 年 7 月

这是 UCI ML 葡萄酒识别数据集的副本。 https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data

数据是意大利同一地区三种不同种植者种植的葡萄酒的化学分析结果。对三种葡萄酒中发现的不同成分进行了 13 种不同的测量。

原始所有者

Forina, M. 等人,PARVUS - 用于数据探索、分类和关联的可扩展软件包。制药与食品分析与技术研究所,意大利热那亚,Via Brigata Salerno,16147。

引用

Lichman, M. (2013)。UCI 机器学习资源库 [https://archive.ics.uci.edu/ml]。加州尔湾:加州大学信息与计算机科学学院。

参考文献#

(1) S. Aeberhard、D. Coomans 和 O. de Vel,高维环境下分类器的比较,技术报告。第 92-02 号,(1992),詹姆斯库克大学北昆士兰分校计算机科学系和数学与统计系。(也提交给 Technometrics)。

该数据与许多其他数据一起用于比较各种分类器。这些类别是可分离的,但只有 RDA 实现了 100% 的正确分类。(RDA:100%、QDA 99.4%、LDA 98.9%、1NN 96.1% (z 变换数据))(所有结果使用留一法)

(2) S. Aeberhard、D. Coomans 和 O. de Vel,“RDA 的分类性能”技术报告。第 92-01 号,(1992),詹姆斯库克大学北昆士兰分校计算机科学系和数学与统计系。(也提交给化学计量学杂志)。

7.1.6. 威斯康星州乳腺癌(诊断)数据集#

数据集特征

实例数量:

569

属性数量:

30 个数值预测属性和类别

属性信息:
  • 半径(从中心到周界上点的距离的平均值)

  • 纹理(灰度值的标准差)

  • 周长

  • 面积

  • 光滑度(半径长度的局部变化)

  • 致密性(周长^2 / 面积 - 1.0)

  • 凹陷度(轮廓凹陷部分的严重程度)

  • 凹点(轮廓凹陷部分的数量)

  • 对称性

  • 分形维数(“海岸线逼近” - 1)

对于每个图像,计算这些特征的平均值、标准误差和“最差”或最大值(三个最差/最大值的平均值),从而产生 30 个特征。例如,字段 0 是平均半径,字段 10 是半径标准误差,字段 20 是最差半径。

  • 类别
    • WDBC-恶性

    • WDBC-良性

汇总统计:

半径(平均值)

6.981

28.11

纹理(平均值)

9.71

39.28

周长(平均值)

43.79

188.5

面积(平均值)

143.5

2501.0

光滑度(平均值)

0.053

0.163

致密性(平均值)

0.019

0.345

凹陷度(平均值)

0.0

0.427

凹点(平均值)

0.0

0.201

对称性(平均值)

0.106

0.304

分形维数(平均值)

0.05

0.097

半径(标准误差)

0.112

2.873

纹理(标准误差)

0.36

4.885

周长(标准误差)

0.757

21.98

面积(标准误差)

6.802

542.2

光滑度(标准误差)

0.002

0.031

致密性(标准误差)

0.002

0.135

凹陷度(标准误差)

0.0

0.396

凹点(标准误差)

0.0

0.053

对称性(标准误差)

0.008

0.079

分形维数(标准误差)

0.001

0.03

半径(最差)

7.93

36.04

纹理(最差)

12.02

49.54

周长(最差)

50.41

251.2

面积(最差)

185.2

4254.0

光滑度(最差)

0.071

0.223

致密性(最差)

0.027

1.058

凹陷度(最差)

0.0

1.252

凹点(最差)

0.0

0.291

对称性(最差)

0.156

0.664

分形维数(最差)

0.055

0.208

缺失属性值:

类别分布:

212 - 恶性,357 - 良性

创建者:

威廉·H·沃尔伯格博士、W. 尼克·斯特里特、奥尔维·L·曼加萨里安

捐赠者:

尼克·斯特里特

日期:

1995 年 11 月

这是 UCI ML 威斯康星州乳腺癌(诊断)数据集的副本。 https://goo.gl/U2Uwz2

特征是从乳腺肿块细针穿刺活检(FNA)的数字化图像中计算出来的。它们描述了图像中存在的细胞核的特征。

上面描述的分离平面是使用多表面方法树 (MSM-T) [K. P. Bennett,“通过线性规划构建决策树”。第四届中西部人工智能与认知科学学会论文集,第 97-101 页,1992 年] 获得的,这是一种使用线性规划构建决策树的分类方法。相关特征是使用对 1-4 个特征和 1-3 个分离平面的空间进行穷举搜索来选择的。

用于在三维空间中获得分离平面的实际线性程序是在以下文献中描述的:[K. P. Bennett 和 O. L. Mangasarian:“两个线性不可分离集的鲁棒线性规划判别”,优化方法与软件 1,1992,23-34]。

此数据库也可通过 UW CS ftp 服务器获得

ftp ftp.cs.wisc.edu cd math-prog/cpo-dataset/machine-learn/WDBC/

参考文献#
  • W.N. Street、W.H. Wolberg 和 O.L. Mangasarian。乳腺肿瘤诊断的核特征提取。IS&T/SPIE 1993 年国际电子成像科学与技术研讨会,第 1905 卷,第 861-870 页,加利福尼亚州圣何塞,1993 年。

  • O.L. Mangasarian、W.N. Street 和 W.H. Wolberg。通过线性规划进行乳腺癌诊断和预后。运筹学,43(4),第 570-577 页,1995 年 7-8 月。

  • W.H. Wolberg、W.N. Street 和 O.L. Mangasarian。机器学习技术用于从细针穿刺活检中诊断乳腺癌。癌症快报 77 (1994) 163-171。