开篇

# 机器学习是什么?

# 机器学习概述

# 数据集在哪

# 数据集常用概念

上图表格中的就是鸢鸟花的结构化数据, 声音、视频之类的是非结构化数据.. 
可以通过一些方法将非结构化数据转换为结构化数据.

1
2

# 机器学习干什么/主要任务

# 分类问题 Classification

- 二分类 y = kx + b   y的取值范围 0 1    eg:垃圾邮件的分类 即是否是垃圾邮件
- 多分类 y = f(x)     y的取值范围 0-n    eg:手写字体识别的分类
- 多标签分类
  - 可简单理解为,多级或二级的分类问题 如-先判断它的类别,在判定类别的基础上再判断它的颜色!
  - 还可以理解为,n个二分类问题
  
> 二分类、多分类、多标签分类之间的界限很多时候没有那么的明显,可以互相转化!
  eg: 核酸检测 二分类-阴性、阳性    多分类-病毒分型
      无人驾驶 二分类-是否需要刹车    多分类-前后左右控制    多标签-用摄像头去区分前方不同的物体时

1
2
3
4
5
6
7
8
9

# 回归问题 Regression

re回归+gression行走=让数据回归本来的规律 也就是作预测 

往深的理解,分类和回归模型本质都是一样的
分类模型可以将回归模型的输出离散化; 回归模型也可以将分类模型的输出连续化..
eg: 预测明天气温多少度 就是典型的回归问题..
    预测明天是阴、晴、下雨 就是典型的分类问题!!

1
2
3
4
5
6

# 监督学习(分类、回归)

分类和回归在机器学习中都被统称为监督学习.
因为这两种任务都是从有类别标记的训练数据中来推导出预测函数 y=f(x)

PS:类别标记/标签/标签
   除了监督学习,还有非监督学习、强化学习.暂且不表.

1
2
3
4
5

# 机器学习的种类

# 机器学习误区和局限

1. 数据越多越好吗?
   - 数据的质量: 比如数据集都是白人女性的,训练出的模型对黑人女性是不靠谱的!
   - 多不一定准确: 智能驾驶的视觉只能识别已知的物体,数据再多也不能识别未知的物体.

2. 模型真的可信吗?
   - 可解释性是目前机器学习所面临的问题之一. 
     尤其是以神经网络为代表的深度学习往往是一个黑盒子. 
     扔进去数据得到一个模型,哪怕效果很好,但你并不知道中间发生了什么.应用的领域就变少了,因为你不知道成功或失败的原因!!
   - 因而浅层的机器学习算法有更好的可解释性!应用范围更广!
     
3. 随机和确定哪个更好?
   - 随机与确定之间的平衡往往是最好的,比如先告知它牛顿三定律,在此基础上开始随机.
  
4. 小样本集怎么办?
   - 机器学习适合大数据;很多问题天然小数据;小样本学习是挑战也是机会!
  
5. 推理而不只是判断.
   - 机器学习尚在判断阶段,像人类的抽象思维和逻辑推理远未实现
   - 数学依然是汪洋大海 机器学习知识统计学加上计算机基础的小结晶.
  
深度学习是有局限性的,它本质上是几何空间的变换; 很多问题用浅层的机器学习效果更好!! 机器学习不死!!!

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

# 四大工具

# Anaconda

conda -V  Anaconda的版本
conda env list  有哪些虚拟环境
conda list  该虚拟环境下安装了哪些包
conda create -n ML python  创建虚拟环境
conda activate ML  切换激活虚拟环境
conda deactivate  退出虚拟环境 
conda remove -n ML --all  删除虚拟环境（注:需先退出这个虚拟环境,再删除它）
conda search numpy  查看要下载的相关的包的版本有哪些
conda install numpy  下载相关的包
conda uninstall numpy  删除相关的包

conda install jupyter notebook
jupyter notebook 启动它

1
2
3
4
5
6
7
8
9
10
11
12
13

# Jupyter

# Numpy

https://github.com/Gengzhige/Machine-Learning/tree/main/Chapter-03

# matplotlib

https://github.com/Gengzhige/Machine-Learning/tree/main/Chapter-03

← ★知识点概览 KNN算法→