> 文章列表 > 机器学习sklearn | sklearn简介

机器学习sklearn | sklearn简介

机器学习sklearn | sklearn简介

机器学习sklearn | sklearn简介

  • 1. 简介
  • 2. 特点
  • 3. 安装
    • 3.1 注意事项
  • 4. 机器学习要做的事
  • 5. 机器学习问题的分类
  • 6. 数据
  • 7. 加载sklearn自带的数据集

1. 简介

scikit-learn是基于Python语言的机器学习库

2. 特点

  • 简单高效的数据分析工具
  • 可在多种环境中重复使用
  • 建立在Numpy,Scipy以及matplotlib等数据科学库之上
  • 开源且可商用的-基于BSD许可

3. 安装

  • pip方法:
pip install -U scikit-learn
  • conda方法:
conda install scikit-learn

3.1 注意事项

升级或卸载使用 Anaconda 安装的 scikit-learn,不应该使用 pip 命令!
应该用:

升级 scikit-learn:

conda update scikit-learn

卸载 scikit-learn:

conda remove scikit-learn

使用 pip install -U scikit-learn 升级 或 pip uninstall scikit-learn 卸载 可能无法正确删除 conda 命令安装的文件

pip 升级和卸载操作仅适用于通过 pip install 安装的软件包

4. 机器学习要做的事

一般来说,机器学习就是用 n 个 样本数据训练模型,然后尝试预测未知数据的属性

如果每个样本是多个属性的数据 (比如说是一个多维记录),就说它有许多“属性”,或称 features(特征)

5. 机器学习问题的分类

我们可以将学习问题分为两大类:

  • 监督学习
  • 无监督学习

监督学习
其中数据带有一个附加属性,即我们想要预测的结果值,这个问题可以是:

分类 :
样本属于两个或更多个类,我们想从已经标记的数据中学习如何预测未标记数据的类别。 分类问题的一个示例是手写数字识别,其目的是将每个输入向量分配给有限数目的离散类别之一。 我们通常把分类视作监督学习的一个离散形式(区别于连续形式),从有限的类别中,给每个样本贴上正确的标签。

回归 :
如果期望的输出由一个或多个连续变量组成,则该任务称为 回归 。 回归问题的一个示例是预测鲑鱼的长度是其年龄和体重的函数。

无监督学习
其中训练数据由没有任何相应目标值的一组输入向量x组成。这种问题的目标可能是在数据中发现彼此类似的示例所聚成的组,这种问题称为 聚类 , 或者,确定输入空间内的数据分布,称为 密度估计 ,又或从高维数据投影数据空间缩小到二维或三维以进行 可视化

6. 数据集

数据集可分为:

  • 训练集
  • 测试集

机器学习是从数据的属性中学习,并将它们应用到新数据的过程。 这就是为什么机器学习中评估算法的普遍实践是把数据分割成 训练集 (我们从中学习数据的属性)和 测试集 (我们测试这些性质)

7. 加载sklearn自带的数据集

cikit-learn 提供了一些标准数据集,例如 用于分类的 iris 和 digits 数据集 和 波士顿房价回归数据集

from sklearn import datasetsiris = datasets.load_iris()
digits = datasets.load_digits()