数据挖掘入门系列教程(三)之scikit-learn框架基本使用(以K近邻算法为例)


    • 数据挖掘入门系列教程(三)之scikit-learn框架基本使用(以K近邻算法为例)
      • 简介
      • scikit-learn 估计器
      • 加载数据集
      • 进行fit训练
        • 设置参数
      • 预处理
      • 流水线
      • 结尾

GitHub

在上一篇中,我们使用了简单的OneR算法对Iris进行分类,在这篇博客中,我将介绍数据挖掘通用框架的搭建以及使用(以scikit-learn框架为例子),并以K近邻算法为例展示过程。

GitHub,该数据是CSV格式的。每一行数据有35个值,前34个为采集数据,最后一个表示该数据是否能够判断自由电子的存在。

接下来展示数据的导入。

import numpy as np

# 采集数据
x = np.zeros((351,34),dtype = "float")
# 类别数据
y = np.zeros((351),dtype = "byte")

# 数据文件名
file_name = "ionosphere.data"

with open(file_name,"r") as input_file:
    reader = csv.reader(input_file)
    for i,row in enumerate(reader):
        # 只遍历前34个数据
        datas = [float(data) for data in row[:-1]]
        x[i] = datas
        y[i] = row[-1] == 'g'

此时我们就分别得到了采集的数据和类别数据。接下来就是创建训练集和测试集。这一步在前面的博客有详细说明,就不再解释了。

from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state = 14)

GitHub

参考书籍:Python数据挖掘入门与实践