DC's blog DC's blog
首页
  • 计算机基础
  • linux基础
  • mysql
  • git
  • 数据结构与算法
  • axure
  • english
  • docker
  • opp
  • oop
  • 网络并发编程
  • 不基础的py基础
  • 设计模式
  • html
  • css
  • javascript
  • jquery
  • UI
  • 第一次学vue
  • 第二次学vue
  • Django
  • drf
  • drf_re
  • 温故知新
  • flask
  • 前后端不分离

    • BBS
    • 订单系统
    • CRM
  • 前后端部分分离

    • pear-admin-flask
    • pear-admin-django
  • 前后端分离

    • 供应链系统
  • 理论基础
  • py数据分析包
  • 机器学习
  • 深度学习
  • 华中科大的网课
  • cursor
  • deepseek
  • 杂文
  • 罗老师语录
  • 关于我

    • me
  • 分类
  • 归档
GitHub (opens new window)

DC

愿我一生欢喜,不为世俗所及.
首页
  • 计算机基础
  • linux基础
  • mysql
  • git
  • 数据结构与算法
  • axure
  • english
  • docker
  • opp
  • oop
  • 网络并发编程
  • 不基础的py基础
  • 设计模式
  • html
  • css
  • javascript
  • jquery
  • UI
  • 第一次学vue
  • 第二次学vue
  • Django
  • drf
  • drf_re
  • 温故知新
  • flask
  • 前后端不分离

    • BBS
    • 订单系统
    • CRM
  • 前后端部分分离

    • pear-admin-flask
    • pear-admin-django
  • 前后端分离

    • 供应链系统
  • 理论基础
  • py数据分析包
  • 机器学习
  • 深度学习
  • 华中科大的网课
  • cursor
  • deepseek
  • 杂文
  • 罗老师语录
  • 关于我

    • me
  • 分类
  • 归档
GitHub (opens new window)
  • 理论基础

  • Py数据分析包

  • 机器学习

    • From - 波sir

    • From - 梗直哥

      • 开篇
        • 机器学习是什么?
        • 机器学习概述
          • 数据集在哪
          • 数据集常用概念
          • 机器学习干什么/主要任务
          • 分类问题 Classification
          • 回归问题 Regression
          • 监督学习(分类、回归)
          • 机器学习的种类
          • 机器学习误区和局限
        • 四大工具
          • Anaconda
          • Jupyter
          • Numpy
          • matplotlib
      • KNN算法
      • 线性算法
  • 深度学习

  • 华中科大的网课

  • AI
  • 机器学习
  • From - 梗直哥
DC
2024-10-08
目录

开篇


# 机器学习是什么?

image-20241008143534285

# 机器学习概述

image-20241008144722294

# 数据集在哪

image-20241008145033742

# 数据集常用概念

image-20241008150346602
上图表格中的就是鸢鸟花的结构化数据, 声音、视频之类的是非结构化数据.. 
可以通过一些方法将非结构化数据转换为结构化数据.
1
2

# 机器学习干什么/主要任务

image-20241008154038156
# 分类问题 Classification
image-20241008155803342
- 二分类 y = kx + b   y的取值范围 0 1    eg:垃圾邮件的分类 即是否是垃圾邮件
- 多分类 y = f(x)     y的取值范围 0-n    eg:手写字体识别的分类
- 多标签分类
  - 可简单理解为,多级或二级的分类问题 如-先判断它的类别,在判定类别的基础上再判断它的颜色!
  - 还可以理解为,n个二分类问题
  
> 二分类、多分类、多标签分类之间的界限很多时候没有那么的明显,可以互相转化!
  eg: 核酸检测 二分类-阴性、阳性    多分类-病毒分型
      无人驾驶 二分类-是否需要刹车    多分类-前后左右控制    多标签-用摄像头去区分前方不同的物体时
1
2
3
4
5
6
7
8
9
# 回归问题 Regression

image-20241008161827497

re回归+gression行走=让数据回归本来的规律 也就是作预测 

往深的理解,分类和回归模型本质都是一样的
分类模型可以将回归模型的输出离散化; 回归模型也可以将分类模型的输出连续化..
eg: 预测明天气温多少度 就是典型的回归问题..
    预测明天是阴、晴、下雨 就是典型的分类问题!!
1
2
3
4
5
6
# 监督学习(分类、回归)
分类和回归在机器学习中都被统称为监督学习.
因为这两种任务都是从有类别标记的训练数据中来推导出预测函数 y=f(x)

PS:类别标记/标签/标签
   除了监督学习,还有非监督学习、强化学习.暂且不表.
1
2
3
4
5

# 机器学习的种类

image-20241008164424622

# 机器学习误区和局限

1. 数据越多越好吗?
   - 数据的质量: 比如数据集都是白人女性的,训练出的模型对黑人女性是不靠谱的!
   - 多不一定准确: 智能驾驶的视觉只能识别已知的物体,数据再多也不能识别未知的物体.

2. 模型真的可信吗?
   - 可解释性是目前机器学习所面临的问题之一. 
     尤其是以神经网络为代表的深度学习往往是一个黑盒子. 
     扔进去数据得到一个模型,哪怕效果很好,但你并不知道中间发生了什么.应用的领域就变少了,因为你不知道成功或失败的原因!!
   - 因而浅层的机器学习算法有更好的可解释性!应用范围更广!
     
3. 随机和确定哪个更好?
   - 随机与确定之间的平衡往往是最好的,比如先告知它牛顿三定律,在此基础上开始随机.
  
4. 小样本集怎么办?
   - 机器学习适合大数据;很多问题天然小数据;小样本学习是挑战也是机会!
  
5. 推理而不只是判断.
   - 机器学习尚在判断阶段,像人类的抽象思维和逻辑推理远未实现
   - 数学依然是汪洋大海 机器学习知识统计学加上计算机基础的小结晶.
  
深度学习是有局限性的,它本质上是几何空间的变换; 很多问题用浅层的机器学习效果更好!! 机器学习不死!!!
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

# 四大工具

# Anaconda

image-20241008175326789
conda -V  Anaconda的版本
conda env list  有哪些虚拟环境
conda list  该虚拟环境下安装了哪些包
conda create -n ML python  创建虚拟环境
conda activate ML  切换激活虚拟环境
conda deactivate  退出虚拟环境 
conda remove -n ML --all  删除虚拟环境(注:需先退出这个虚拟环境,再删除它)
conda search numpy  查看要下载的相关的包的版本有哪些
conda install numpy  下载相关的包
conda uninstall numpy  删除相关的包

conda install jupyter notebook
jupyter notebook 启动它
1
2
3
4
5
6
7
8
9
10
11
12
13

# Jupyter

image-20241008180950416

# Numpy

https://github.com/Gengzhige/Machine-Learning/tree/main/Chapter-03

# matplotlib

https://github.com/Gengzhige/Machine-Learning/tree/main/Chapter-03


★知识点概览
KNN算法

← ★知识点概览 KNN算法→

最近更新
01
deepseek本地部署+知识库
02-17
02
实操-微信小程序
02-14
03
教学-cursor深度探讨
02-13
更多文章>
Theme by Vdoing | Copyright © 2023-2025 DC | One Piece
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式