机器学习概述

最后发布时间:2020-12-18 12:56:31 浏览量:

基本概念

计算机学习能力, 不是通过显著式编程获得。
一个计算机程序可称为可以学习,是指它能够对某个任务T和某个性能指标P(花的识别率),从经验E(训练样本)中学习。这种学习的特点是,他在T上的被P所衡量的性能,会随着经验E的增加而提高。

机器学习分类

按照任务性质划分

  • 监督学习(Supervised Learning):所有的经验E都是由人工采集并输入计算机的

    根据数据标签的存在与否,将监督学习分为:

    • 传统监督学习(Traditional Supervised Learning)
      • 支持向量机(Support Vector Machine)
      • 人工神经网络(Neural Network)
      • 深度神经网路(Deep Neural Networks)
    • 非监督学习(Unsupervised Learning)(假设同一类数据在空间中距离更近)
      • 聚类(Clustering)
      • EM算法(Expectation-Maximization algorithm)
      • 主成分分析(Principle Component Analysis)
    • 半监督学习(Semi-supervised Learning)

    根据标签的固有属性,将监督学习分为:

    • 分类(Classification)标签是离散的
    • 回归(Regression)房价预测
  • 强化学习(Reinforcement Learning):最大化收益函数(Reward function)

机器学习算法的过程

基于SVM的尿沉渣红、白细胞识别

1. 特征提取(Feature Extraction)

  • 通过训练样本获得,对机器学习有帮助的多个维度数据。

2. 特征的选择(Feature Selection)

图片alt

图片alt

图片alt

图片alt

红细胞和白细胞每个样例对应的特征值。

3. 基于选择的特征构建算法

图片alt

图片alt

  • 在只有两个特征的平面上,新样本落在线左边红细胞,右边白细胞
  • 本例中特征空间维度是二维的,机器学习过程是设计一个算法画出一条曲线

在特征空间上距离接近的样本,他们术语同一个类别的概率会genggao