数据挖掘入门系列教程(三)之scikit-learn框架基本使用(以K近邻算法为例)
- 数据挖掘入门系列教程(三)之scikit-learn框架基本使用(以K近邻算法为例)
- 简介
- scikit-learn 估计器
- 加载数据集
- 进行fit训练
- 设置参数
- 预处理
- 流水线
- 结尾
- 数据挖掘入门系列教程(三)之scikit-learn框架基本使用(以K近邻算法为例)
GitHub
在上一篇中,我们使用了简单的OneR算法对Iris进行分类,在这篇博客中,我将介绍数据挖掘通用框架的搭建以及使用(以scikit-learn框架为例子),并以K近邻算法为例展示过程。
GitHub,该数据是CSV格式的。每一行数据有35个值,前34个为采集数据,最后一个表示该数据是否能够判断自由电子的存在。
接下来展示数据的导入。
import numpy as np
# 采集数据
x = np.zeros((351,34),dtype = "float")
# 类别数据
y = np.zeros((351),dtype = "byte")
# 数据文件名
file_name = "ionosphere.data"
with open(file_name,"r") as input_file:
reader = csv.reader(input_file)
for i,row in enumerate(reader):
# 只遍历前34个数据
datas = [float(data) for data in row[:-1]]
x[i] = datas
y[i] = row[-1] == 'g'
此时我们就分别得到了采集的数据和类别数据。接下来就是创建训练集和测试集。这一步在前面的博客有详细说明,就不再解释了。
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state = 14)
GitHub
参考书籍:Python数据挖掘入门与实践
参考书籍:Python数据挖掘入门与实践