SKLearn数据集API

数据集一览

类型获取方式
自带的小数据集sklearn.datasets.load_<name>
在线下载的数据集sklearn.datasets.fetch_<name>
计算机生成的数据集sklearn.datasets.make_<name>
svmlight/libsvm格式的数据集sklearn.datasets.load_svmlight_file(...)
mldata.org在线下载数据集sklearn.datasets.fetch_mldata(...)

自带的小数据集

返回的是bunch对象,是字典类型

名称数据包
鸢尾花数据集load_iris()
乳腺癌数据集load_breast_cancer()
手写数字数据集load_digits()
糖尿病数据集load_diabetes()
波士顿房价数据集load_boston()
体能训练数据集load_linnerud()
图像数据集load_sample_image(name)

鸢尾花数据集

image

下面使用花萼长度单个特征来划分查看,这是探索性分析,当我们不知道该使用那些特征的时候,就这样查看一下。

image

下面使用两个特征来划分查看

image

手写数字数据集

image

图像数据集

image

在线下载的数据集

使用datasets.get_data_home()函数获取下载目录

类型获取方式
20类新闻文本数据集fetch_20newsgroups() / fetch_20newsgroups_vectorized()
野外带标记人脸数据集fetch_lfw_people() / fetch_lfw_pairs()
Olivetti人脸数据集fetch_olivetti_faces()
rcvl多标签数据集fetch_rcvl()
加利福尼亚房价数据集fetch_canlifornia_housing()

20类新闻文本数据集

包含了关于20个话题(topic)的18000条新闻报道,被分为两个子集: 训练集和测试集

函数内容
fetch_20newsgroups()原始的文本列表,该文本可以被输入到文本特征提取器sklearn.feature_extraction.text.CountVectorizer进一步处理得到特征向量
fetch_20newsgroups_vectorized()返回一个直接可以使用的特征,无须在进行特征提取。

image

image

Olivetti人脸数据集

Olivetti人脸数据集是AT&T在1992-1994年手机的人脸数据集,包含了40个不同的目标,每个目标10张图片,某些目标的图像在不同的时间段采集,带有光照,面部表情(眼镜开闭,笑容),面部袭细节的各种变化,所有的人脸图像被正立的放在一个灰色的背景上。

每一张图像上有256个灰度级,用无符号8为来存。加载函数会将所有的图像转换成[0,1]区间上的浮点数,目标值target存放着0到39的数字代表人脸的类别标签。然而每个标签对应的人脸图像都只有10张,每张图像的分辨率是64*64。这个小数据集会更加适合来做无监督学习或者半监督学习。

评论 (0)

发表评论