机器学习简述

写在最前

机器学习是基于多学科交叉融合的新兴学科，而这当中的基石就是数学。因此，如果希望更好地理解机器学习的来龙去脉，而非只是死记硬背各种算法，那么就必须涉及到的数学知识有基本的了解。

简单来说，机器学习的数学基础主要包括线性代数、概率论、统计学以及优化理论等。读者应当具有大学本科理工科专业所具备的数学知识。此外，笔者在学习的过程中发现，在这一基础上还需要了解一些特定方向的数学知识。而对于这一部分知识，可以在数学基础补充这一文章中找到简单的概述。

如今，机器学习的最新研究成果不少已经落地，而一些经典的技术也在各大领域大放异彩。例如，对于计算机相关学科的学习， $LLM$ 已经成为日常学习的必需品。逐其根本，机器学习实际是数据、模型和学习三个层面相互交叉配合的学科。我们希望通过下面的内容来简单介绍一些机器学习的基本概念、关键思想和发展趋势。

机器学习是什么？

学习是一个蕴含特定目的的知识获取过程。其内部表现为新知识的不断建立和修正，外部表现为性能改善。同时，学习既需要外部的材料，也需要内部的推理与记忆的过程。

（广义的机器学习）任何通过数据训练的学习算法都属于机器学习。

机器学习整体上分为三个层面：数据层面、模型层面和学习层面。

数据层面

数据的类型和特点主要有以下几点，在选择机器学习模型上要首先对数据进行考量：

静态和动态
小数据和大数据
同质和异质：数据类型上的异质性，如结构化数据和非结构化数据；
单态和多态
小类数和大类数：如二分类（性别）、多分类（个体）等；
带噪和缺失数据：如标签带有噪音等；
高维数据和非数值数据：如字符串、图像等；

机器学习的成效对于数据与选择的学习方式和模型有强敏感性。在所有时候，都要对具体数据的类型和特点进行分析，而不能硬搬硬套算法，这是机器学习的基本原则。

模型层面

任务：分类、回归、聚类、降维、关联规则挖掘等
形式上：线性模型/非线性模型
体系：浅层、深度、递归等

学习层面

指具体的学习方法（或称算法），例如下面的：

经典学习方法：如归纳学习、类比学习、解释学习、决策树、贝叶斯分类器、聚类等；
现代学习方法：监督学习/无监督学习、集成学习、强化学习等；
混合学习方法

学习方法的关系：深度学习 $\in$ 表示学习 $\in$ 机器学习 $\in$ 人工智能

机器学习的理论基础

最重要的理论模型： $PAC$ 概率近似正确。它定义了训练样本数、错误率之间的数学关系。简单地讲，就是说对于一个学习器，只要它有足够多的训练样本，那么它就能以很高的概率得到一个接近真实的模型。它是可学习性理论的基础。

P (| f (x) - y | \leq ϵ) \geq 1 - δ

而经典机器学习一般以感知（获取数据）、预处理、特征抽取、特征选择和推理预测为主要内容。现代的机器学习的流程则更加复杂多变，如深度学习、强化学习等。

基本术语

数据集：训练集、测试集（可能还有验证集）。
示例、样例、样本：关于一个事件或对象的描述。即属性空间表的一行。
属性、特征：关于事件或对象在某方面的表现或性质。即属性空间表的一列。
属性空间、样本空间、输入空间：由各属性张成的空间。
标记：关于示例结果的信息。所有标记的集合称为标记空间或输出空间。
特征向量：一个示例在属性空间中对应的坐标向量。
模型：学习算法在给定数据和参数空间上的实例化。
假设（学得模型对应的某种规律）、真相（实际中的规律）、学习器（即模型）。
分类、二分类和回归：分类输出是离散值，二分类的输出是两个类别（正类和反类），回归的输出是连续值。
监督学习/无监督学习：由训练资料中学到或建立一个模式，然后依此模式推测新的实例。监督学习是指学习过程中有监督信号（标记），无监督学习则没有。
聚类：将训练集中的示例根据一种潜在的概念分为若干组。一般来说，聚类中的数据集不带有标记，而是在学习过程中自行推断类别。
泛化能力：学得模型适用于新样本的能力。

一个实际的例子

我们希望根据房屋的面积（平方英尺）和房龄（年）来估算房屋价格（美元）。为了开发一个能预测房价的模型，我们需要收集一个真实的数据集。这个数据集包括了房屋的销售价格、面积和房龄。在机器学习的术语中，该数据集称为训练数据集（training data set）或训练集（training set）。每行数据（比如一次房屋交易相对应的数据）称为样本（sample），也可以称为数据点（data point）或数据样本（data instance）。我们把试图预测的目标（比如预测房屋价格）称为标签（label）或目标（target）。预测所依据的自变量（面积和房龄）称为特征（feature）或协变量（covariate）。

来源于此文章，可参考：DIVE INTO DEEP LEARNING (zh.d2l.ai)

归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好。偏好是必然存在的。在实际模型选择和训练中，即要考虑算法的归纳偏好，还要防止过拟合。

一般原则：奥卡姆剃刀。这是一个科学的原则，也是一种哲学思想。它的主要内容即在所有可能的解释中，最简单的解释最有可能是正确的。我们倾向于认为，这一世界的本质是简单的。在机器学习中，我们也倾向于认为，简单的模型比复杂的模型更有效。

另一个理论模型： $NFL$ 没有免费的午餐。一个算法若在某些问题上比另一个算法好，那就必然存在一些问题让这个算法没有那个算法好。也就是说，没有一个算法能在所有问题上表现最好（免费的午餐）。

统计学基本概念

简单统计概念：众数、中位数、平均数、方差、极差、协方差、协方差矩阵等。
距离度量函数。
函数凸凹性质、凸优化（可以看《凸优化》这本书入门）
概率统计：高斯分布、似然、贝叶斯定理等。

从概率框架的角度对机器学习方法分类

生成式模型：估计 $P (x | y = i)$ 和 $P (y = i)$ ，然后通过贝叶斯公式计算 $P (y = i | x)$ 。
判别式模型：直接估计 $P (y = i | x)$ 。不假设概率模型，直接求一个把各类分开的边界。

新型机器学习发展趋势

模型层面：大模型+领域知识，大模型+多模态信息/结构信息，小模型+模型蒸馏+量化
优化层面：在线/增量学习、分布式学习+异步优化、加速现有算法
数据层面：大数据（带噪声数据学习、多模态数据学习）、小数据（数据提炼蒸馏）

一些机器学习的例子

$AlphaGo (2015)$
$CLIP (2022)$ 文本+图像的多模态大模型，通过文本来索引图像
$DALL \cdot E (2021)$ 通过文本来输出图像
$AlphaFold (2021)$ 根据氨基酸序列进行蛋白质结构预测
$AlphaCode (2022)$ 竞赛程序代码生成
$GPT - 3 (2022)$
$ChatGPT (2022)$
$GPT - 4 o (2024)$ 更自然的人机交互
$Sora (2024)$ 较强的物体一致性、连续性，初步理解世界知识

需求分析

体系结构

详细设计

构造测试

交付演化

补充内容

交互设计的评估

基于总线的计算机系统

HarmonyOS 开发

并发

数理逻辑

机器学习简述

机器学习是什么？

数据层面

模型层面

学习层面

机器学习的理论基础

基本术语

归纳偏好

统计学基本概念

新型机器学习发展趋势

一些机器学习的例子

机器学习简述 ​

机器学习是什么？ ​

数据层面 ​

模型层面 ​

学习层面 ​

机器学习的理论基础 ​

基本术语 ​

归纳偏好 ​

统计学基本概念 ​

新型机器学习发展趋势 ​

一些机器学习的例子 ​

机器学习简述

机器学习是什么？

数据层面

模型层面

学习层面

机器学习的理论基础

基本术语

归纳偏好

统计学基本概念

新型机器学习发展趋势

一些机器学习的例子