Skip to content

机器学习简述

机器学习是什么?

学习是一个蕴含特定目的的知识获取过程。其内部表现为新知识的不断建立和修正,外部表现为性能改善。同时,学习既需要外部的材料,也需要内部的推理与记忆的过程。

(广义的机器学习)任何通过数据训练的学习算法都属于机器学习

机器学习整体上分为三个层面数据层面模型层面学习层面

数据层面

数据的类型和特点主要有以下几点,在选择机器学习模型上要首先对数据进行考量:

  • 静态和动态
  • 小数据和大数据
  • 同质和异质:数据类型上的异质性,如结构化数据和非结构化数据;
  • 单态和多态
  • 小类数和大类数:如二分类(性别)、多分类(个体)等;
  • 带噪和缺失数据:如标签带有噪音等;
  • 高维数据和非数值数据:如字符串、图像等;

模型层面

  • 形式上:线性模型/非线性模型
  • 体系:浅层、深度、递归等

学习层面

  • 经典学习方法:如归纳学习、类比学习、解释学习、决策树、贝叶斯分类器、聚类等;
  • 现代学习方法:监督学习/无监督学习、集成学习、强化学习等;
  • 混合学习方法

学习方法的关系:深度学习 表示学习 机器学习 人工智能

机器学习的理论基础

最重要的理论模型:PAC概率近似正确

P(|f(x)y|ϵ)1δ

经典机器学习以感知(获取数据)、预处理特征抽取特征选择推理预测为主要内容。

基本术语

  • 监督学习/无监督学习:由训练资料中学到或建立一个模式,然后依此模式推测新的实例。监督学习是指学习过程中有监督信号(标签),无监督学习则没有。
  • 数据集:训练集、测试集(可能还有验证集)。
  • 示例、样例:指属性空间表的每一
  • 属性、特征:指属性空间表的每一
  • 属性空间、样本空间、输入空间:由各属性张成的空间。
  • 假设(可能的最优参数组合)、真相(实际中的)、学习器
  • 分类、二分类和回归:分类输出是离散值,二分类是输出是两个类别,回归是输出是连续值。

一个实际的例子

我们希望根据房屋的面积(平方英尺)和房龄(年)来估算房屋价格(美元)。 为了开发一个能预测房价的模型,我们需要收集一个真实的数据集。 这个数据集包括了房屋的销售价格、面积和房龄。 在机器学习的术语中,该数据集称为训练数据集(training data set) 或训练集(training set)。 每行数据(比如一次房屋交易相对应的数据)称为样本(sample), 也可以称为数据点(data point)或数据样本(data instance)。 我们把试图预测的目标(比如预测房屋价格)称为标签(label)或目标(target)。 预测所依据的自变量(面积和房龄)称为特征(feature)或协变量(covariate)。

来源于此文章,可参考:DIVE INTO DEEP LEARNING (zh.d2l.ai)

归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好。偏好是必然存在的。在实际模型选择和训练中,即要考虑算法的归纳偏好,还要防止过拟合

一般原则:奥卡姆剃刀

另一个理论模型:NFL 没有免费的午餐。一个算法若在某些问题上比另一个算法好,那就必然存在一些问题让这个算法没有那个算法好。

统计学基本概念

简单统计概念

  • 众数、中位数、平均数、方差、极差等
  • 协方差 cov(X,Y)=E((XE(X))(YE(Y)))
  • 协方差矩阵 [cov(Xi,Xj)]m×n

距离度量函数。如两个样本向量 xi,xjRd,则它们的各个函数计算方法如下

  • 欧式距离 d(xi,xj)=||xixj||2=(xixj)T(xixj)
  • 余弦相似性(类似角度)s(xi,xj)=xiTxj||xi||||xj||
  • 曼哈顿距离 d(xi,xj)=||xixj||1
  • 切比雪夫距离 d(xi,xj)=||xixj||
  • 马氏距离 dM(xi,xj)=(xixj)TM(xixj)

函数凸凹性质、凸优化(可以看《凸优化》这本书入门)

高斯分布

概率

从概率框架的角度对机器学习方法分类

  • 生成式模型:估计 P(x|y=i)P(y=i),然后通过贝叶斯公式计算 P(y=i|x)
  • 判别式模型:直接估计 P(y=i|x)。不假设概率模型,直接求一个把各类分开的边界。

新型机器学习发展趋势

  • 模型层面:大模型+领域知识,大模型+多模态信息/结构信息,小模型+模型蒸馏+量化
  • 优化层面:在线/增量学习、分布式学习+异步优化、加速现有算法
  • 数据层面:大数据(带噪声数据学习、多模态数据学习)、小数据(数据提炼蒸馏)

一些机器学习的例子

  • AlphaGo (2015)​​
  • CLIP (2022)​ 文本+图像的多模态大模型,通过文本来索引图像
  • DALLE(2021) 通过文本来输出图像
  • AlphaFold (2021) 根据氨基酸序列进行蛋白质结构预测
  • AlphaCode (2022) 竞赛程序代码生成
  • GPT3 (2022)
  • ChatGPT (2022)
  • GPT4o (2024)​ 更自然的人机交互
  • Sora (2024) 较强的物体一致性、连续性,初步理解世界知识