数据挖掘入门系列教程（三）之scikit-learn框架基本使用（以K近邻算法为例）

- 数据挖掘入门系列教程（三）之scikit-learn框架基本使用（以K近邻算法为例）
  - 简介
  - scikit-learn 估计器
  - 加载数据集
  - 进行fit训练
    - 设置参数
  - 预处理
  - 流水线
  - 结尾

GitHub

在上一篇中，我们使用了简单的OneR算法对Iris进行分类，在这篇博客中，我将介绍数据挖掘通用框架的搭建以及使用（以scikit-learn框架为例子），并以K近邻算法为例展示过程。

GitHub，该数据是CSV格式的。每一行数据有35个值，前34个为采集数据，最后一个表示该数据是否能够判断自由电子的存在。

接下来展示数据的导入。

import numpy as np

# 采集数据
x = np.zeros((351,34),dtype = "float")
# 类别数据
y = np.zeros((351),dtype = "byte")

# 数据文件名
file_name = "ionosphere.data"

with open(file_name,"r") as input_file:
    reader = csv.reader(input_file)
    for i,row in enumerate(reader):
        # 只遍历前34个数据
        datas = [float(data) for data in row[:-1]]
        x[i] = datas
        y[i] = row[-1] == 'g'

此时我们就分别得到了采集的数据和类别数据。接下来就是创建训练集和测试集。这一步在前面的博客有详细说明，就不再解释了。

from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state = 14)

GitHub

参考书籍：Python数据挖掘入门与实践

数据挖掘

数据挖掘入门系列教程（三）之scikit-learn框架基本使用（以K近邻算法为例）

GitHub

在上一篇中，我们使用了简单的OneR算法对Iris进行分类，在这篇博客中，我将介绍数据挖掘通用框架的搭建以及使用（以scikit-learn框架为例子），并以K近邻算法为例展示过程。

GitHub

参考书籍：Python数据挖掘入门与实践

相关

R语言入门视频笔记--10--数据挖掘

二、数据挖掘

数据挖掘入门系列教程（五）之Apriori算法Python实现

数据挖掘入门系列教程（五）之Apriori算法Python实现

数据挖掘概念杂记

数据挖掘资料（问答）

Python数据挖掘

数据挖掘-聚类分析【2】

数据挖掘基础

数据挖掘_实验一 _数据挖掘软件环境搭建与使用

数据挖掘_实验二数据预处理常用方法与应用

数据挖掘_实验三_探索性数据分析方法与应用

标签

数据挖掘入门系列教程（三）之scikit-learn框架基本使用（以K近邻算法为例）

GitHub 在上一篇中，我们使用了简单的OneR算法对Iris进行分类，在这篇博客中，我将介绍数据挖掘通用框架的搭建以及使用（以scikit-learn框架为例子），并以K近邻算法为例展示过程。

GitHub 参考书籍：Python数据挖掘入门与实践

相关

GitHub

在上一篇中，我们使用了简单的OneR算法对Iris进行分类，在这篇博客中，我将介绍数据挖掘通用框架的搭建以及使用（以scikit-learn框架为例子），并以K近邻算法为例展示过程。

GitHub

参考书籍：Python数据挖掘入门与实践