7.1. 玩具数据集#

scikit-learn 带有一些小型标准数据集,无需从任何外部网站下载任何文件。

可以使用以下函数加载它们

load_iris(*[, return_X_y, as_frame])

加载并返回鸢尾花数据集(分类)。

load_diabetes(*[, return_X_y, as_frame, scaled])

加载并返回糖尿病数据集(回归)。

load_digits(*[, n_class, return_X_y, as_frame])

加载并返回数字数据集(分类)。

load_linnerud(*[, return_X_y, as_frame])

加载并返回Linnerud体育锻炼数据集。

load_wine(*[, return_X_y, as_frame])

加载并返回葡萄酒数据集(分类)。

load_breast_cancer(*[, return_X_y, as_frame])

加载并返回威斯康星州乳腺癌数据集(分类)。

这些数据集可用于快速演示scikit-learn中实现的各种算法的行为。但是,它们通常太小,无法代表现实世界的机器学习任务。

7.1.1. 鸢尾花数据集#

数据集特征

实例数量:

150(每类50个)

属性数量:

4个数值型预测属性和类别

属性信息:
  • 萼片长度(厘米)

  • 萼片宽度(厘米)

  • 花瓣长度(厘米)

  • 花瓣宽度(厘米)

  • 类别
    • Iris-Setosa

    • Iris-Versicolour

    • Iris-Virginica

汇总统计:

萼片长度

4.3

7.9

5.84

0.83

0.7826

萼片宽度

2.0

4.4

3.05

0.43

-0.4194

花瓣长度

1.0

6.9

3.76

1.76

0.9490(高!)

花瓣宽度

0.1

2.5

1.20

0.76

0.9565(高!)

缺失属性值:

类别分布:

3个类别各占33.3%。

创建者:

R.A. Fisher

提供者:

Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)

日期:

1988年7月

著名鸢尾花数据库,首次由R.A. Fisher爵士使用。该数据集取自Fisher的论文。请注意,它与R中的相同,但与UCI机器学习库中的不同,后者有两个错误数据点。

这可能是模式识别文献中最著名的数据库。Fisher 的论文是该领域的经典之作,至今仍被频繁引用。(例如,参见 Duda & Hart。)该数据集包含 3 类,每类 50 个实例,其中每一类都指一种鸢尾属植物。一类与其他两类线性可分;后两者彼此之间**不**线性可分。

参考文献#
  • Fisher, R.A. “The use of multiple measurements in taxonomic problems” Annual Eugenics, 7, Part II, 179-188 (1936); 也收录于 “Contributions to Mathematical Statistics” (John Wiley, NY, 1950)。

  • Duda, R.O., & Hart, P.E. (1973) Pattern Classification and Scene Analysis. (Q327.D83) John Wiley & Sons. ISBN 0-471-22361-1。参见第 218 页。

  • Dasarathy, B.V. (1980) “Nosing Around the Neighborhood: A New System Structure and Classification Rule for Recognition in Partially Exposed Environments”. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. PAMI-2, No. 1, 67-71。

  • Gates, G.W. (1972) “The Reduced Nearest Neighbor Rule”. IEEE Transactions on Information Theory, May 1972, 431-433。

  • 另见:1988 MLC Proceedings, 54-64。Cheeseman 等人的 AUTOCLASS II 概念聚类系统在数据中发现了 3 个类别。

  • 还有很多……

7.1.2. 糖尿病数据集#

对于 n = 442 名糖尿病患者,分别获得了十个基线变量:年龄、性别、体重指数、平均血压以及六项血清测量结果,以及感兴趣的响应变量——基线一年后的疾病进展定量指标。

数据集特征

实例数量:

442

属性数量:

前 10 列是数值预测值

目标:

第 11 列是基线一年后疾病进展的定量测量值

属性信息:
  • 年龄(岁)

  • 性别

  • BMI 体重指数

  • 血压 平均血压

  • s1 总胆固醇 (tc)

  • s2 低密度脂蛋白 (ldl)

  • s3 高密度脂蛋白 (hdl)

  • s4 总胆固醇/高密度脂蛋白 (tch)

  • s5 甘油三酯水平的对数 (ltg)

  • s6 血糖 (glu)

注意:这 10 个特征变量均已进行均值中心化处理,并按标准差乘以n_samples的平方根进行缩放(即每列的平方和总计为 1)。

数据来源:https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html

更多信息请参见:Bradley Efron, Trevor Hastie, Iain Johnstone 和 Robert Tibshirani (2004) “Least Angle Regression,” Annals of Statistics (with discussion), 407-499. (https://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf)

7.1.3. 手写数字光学识别数据集#

数据集特征

实例数量:

1797

属性数量:

64

属性信息:

8x8 像素的整数图像,像素值范围为 0..16。

缺失属性值:

创建者:
  1. Alpaydin (alpaydin ‘@’ boun.edu.tr)

日期:

1998 年 7 月

这是 UCI ML 手写数字数据集测试集的副本 https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

该数据集包含手写数字图像:10 个类别,每个类别代表一个数字。

使用 NIST 提供的预处理程序,从预印表格中提取手写数字的归一化位图。总共 43 人,其中 30 人贡献了训练集,另外 13 人贡献了测试集。将 32x32 位图划分为 4x4 的不重叠块,并计算每个块中开启像素的数量。这将生成一个 8x8 的输入矩阵,其中每个元素都是 0..16 范围内的整数。这降低了维度,并对小的变形具有不变性。

有关 NIST 预处理程序的信息,请参见 M. D. Garris, J. L. Blue, G. T. Candela, D. L. Dimmick, J. Geist, P. J. Grother, S. A. Janet 和 C. L. Wilson, NIST Form-Based Handprint Recognition System, NISTIR 5469, 1994。

参考文献#
  • C. Kaynak (1995) Methods of Combining Multiple Classifiers and Their Applications to Handwritten Digit Recognition, MSc Thesis, Institute of Graduate Studies in Science and Engineering, Bogazici University。

    1. Alpaydin, C. Kaynak (1998) Cascading Classifiers, Kybernetika。

  • Ken Tang 和 Ponnuthurai N. Suganthan 和 Xi Yao 和 A. Kai Qin。使用相关加权 LDA 的线性降维。南洋理工大学电气与电子工程学院。2005 年。

  • Claudio Gentile。一种新的近似最大间隔分类算法。NIPS。2000 年。

7.1.4. Linnerud 数据集#

数据集特征

实例数量:

20

属性数量:

3

缺失属性值:

Linnerud 数据集是一个多输出回归数据集。它包含来自一个健身俱乐部 20 名中年男性的三个运动(数据)变量和三个生理(目标)变量。

  • 生理指标 - 包含 20 个关于 3 个生理变量的观测值的 CSV 文件。

    体重、腰围和脉搏。

  • 运动 - 包含 20 个关于 3 个运动变量的观测值的 CSV 文件。

    引体向上、仰卧起坐和跳跃。

参考文献#
  • Tenenhaus, M. (1998). La regression PLS: theorie et pratique. Paris: Editions Technic。

7.1.5. 葡萄酒识别数据集#

数据集特征

实例数量:

178

属性数量:

13 个数值型预测属性和类别

属性信息:
  • 酒精

  • 苹果酸

  • 灰分

  • 灰分的碱度

  • 总酚

  • 黄酮类化合物

  • 非黄酮类酚

  • 原花青素

  • 颜色强度

  • 色调

  • 稀释葡萄酒的 OD280/OD315

  • 脯氨酸

  • 类别
    • 类别 0

    • 类别 1

    • 类别 2

汇总统计:

酒精

11.0

14.8

13.0

0.8

苹果酸

0.74

5.80

2.34

1.12

灰分

1.36

3.23

2.36

0.27

灰分的碱度

10.6

30.0

19.5

3.3

70.0

162.0

99.7

14.3

总酚

0.98

3.88

2.29

0.63

黄酮类化合物

0.34

5.08

2.03

1.00

非黄酮类酚

0.13

0.66

0.36

0.12

原花青素

0.41

3.58

1.59

0.57

颜色强度

1.3

13.0

5.1

2.3

色调

0.48

1.71

0.96

0.23

稀释葡萄酒的 OD280/OD315

1.27

4.00

2.61

0.71

脯氨酸

278

1680

746

315

缺失属性值:

类别分布:

类别 0 (59), 类别 1 (71), 类别 2 (48)

创建者:

R.A. Fisher

提供者:

Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)

日期:

1988年7月

这是 UCI ML 葡萄酒识别数据集的副本。 https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data

数据是意大利同一地区三种不同种植者种植的葡萄酒的化学分析结果。对三种葡萄酒中发现的不同成分进行了 13 次不同的测量。

原始所有者

Forina, M. 等人,PARVUS——一个用于数据探索、分类和关联的扩展包。意大利热那亚,萨莱诺旅团街 16147 号,制药和食品分析与技术研究所。

引用

Lichman, M. (2013)。UCI 机器学习资源库 [https://archive.ics.uci.edu/ml]。加利福尼亚州尔湾:加利福尼亚大学信息与计算机科学学院。

参考文献#

(1) S. Aeberhard, D. Coomans 和 O. de Vel,高维环境下的分类器比较,技术报告第 92-02 号,(1992),詹姆斯库克大学昆士兰分校计算机科学系和数学与统计系。(也提交给《技术统计学》)。

这些数据与许多其他数据一起用于比较各种分类器。这些类别是可以区分的,尽管只有 RDA 达到了 100% 的正确分类率。(RDA:100%,QDA 99.4%,LDA 98.9%,1NN 96.1%(z 变换数据))(所有结果均使用留一法)。

(2) S. Aeberhard, D. Coomans 和 O. de Vel,“RDA 的分类性能”技术报告第 92-01 号,(1992),詹姆斯库克大学昆士兰分校计算机科学系和数学与统计系。(也提交给《化学计量学杂志》)。

7.1.6. 威斯康星州乳腺癌(诊断)数据集#

数据集特征

实例数量:

569

属性数量:

30 个数值型预测属性和类别

属性信息:
  • 半径(从中心到周界上点的距离的平均值)

  • 纹理(灰度值的标准差)

  • 周长

  • 面积

  • 光滑度(半径长度的局部变化)

  • 致密性(周长^2 / 面积 - 1.0)

  • 凹度(轮廓凹陷部分的严重程度)

  • 凹点(轮廓凹陷部分的数量)

  • 对称性

  • 分形维数(“海岸线逼近” - 1)

为每个图像计算这些特征的平均值、标准误差和“最差”或最大值(三个最差/最大值的平均值),从而得到 30 个特征。例如,字段 0 是平均半径,字段 10 是半径标准误差,字段 20 是最差半径。

  • 类别
    • WDBC-恶性

    • WDBC-良性

汇总统计:

半径(平均值)

6.981

28.11

纹理(平均值)

9.71

39.28

周长(平均值)

43.79

188.5

面积(平均值)

143.5

2501.0

光滑度(平均值)

0.053

0.163

致密性(平均值)

0.019

0.345

凹度(平均值)

0.0

0.427

凹点(平均值)

0.0

0.201

对称性(平均值)

0.106

0.304

分形维数(平均值)

0.05

0.097

半径(标准误差)

0.112

2.873

纹理(标准误差)

0.36

4.885

周长(标准误差)

0.757

21.98

面积(标准误差)

6.802

542.2

光滑度(标准误差)

0.002

0.031

致密性(标准误差)

0.002

0.135

凹度(标准误差)

0.0

0.396

凹点(标准误差)

0.0

0.053

对称性(标准误差)

0.008

0.079

分形维数(标准误差)

0.001

0.03

半径(最差值)

7.93

36.04

纹理(最差值)

12.02

49.54

周长(最差值)

50.41

251.2

面积(最差值)

185.2

4254.0

光滑度(最差值)

0.071

0.223

致密性(最差值)

0.027

1.058

凹度(最差值)

0.0

1.252

凹点(最差值)

0.0

0.291

对称性(最差值)

0.156

0.664

分形维数(最差值)

0.055

0.208

缺失属性值:

类别分布:

212 个 - 恶性,357 个 - 良性

创建者:

William H. Wolberg 博士,W. Nick Street,Olvi L. Mangasarian

提供者:

Nick Street

日期:

1995 年 11 月

这是 UCI ML 乳腺癌威斯康星州(诊断)数据集的副本。 https://goo.gl/U2Uwz2

特征是从乳房肿块的细针抽吸 (FNA) 数字化图像中计算出来的。它们描述了图像中存在的细胞核的特征。

上面描述的分离平面是使用多表面方法树 (MSM-T) [K. P. Bennett,“通过线性规划构建决策树”。第四届中西部人工智能与认知科学协会论文集,第 97-101 页,1992 年] 获得的,这是一种使用线性规划构建决策树的分类方法。使用在 1-4 个特征和 1-3 个分离平面的空间中进行的穷举搜索来选择相关特征。

用于在三维空间中获得分离平面的实际线性程序在以下文献中有所描述:[K. P. Bennett 和 O. L. Mangasarian:“两种线性不可分集合的鲁棒线性规划判别”,优化方法与软件 1,1992,23-34]。

此数据库也可以通过 UW CS ftp 服务器访问

ftp ftp.cs.wisc.edu cd math-prog/cpo-dataset/machine-learn/WDBC/

参考文献#
  • W.N. Street,W.H. Wolberg 和 O.L. Mangasarian。乳腺肿瘤诊断的核特征提取。IS&T/SPIE 1993 年国际电子成像科学与技术研讨会,第 1905 卷,第 861-870 页,加利福尼亚州圣何塞,1993 年。

  • O.L. Mangasarian,W.N. Street 和 W.H. Wolberg。通过线性规划进行乳腺癌诊断和预后。《运筹学》,43(4),第 570-577 页,1995 年 7-8 月。

  • W.H. Wolberg,W.N. Street 和 O.L. Mangasarian。利用机器学习技术从细针抽吸物诊断乳腺癌。《癌症快报》77 (1994) 163-171。