向量、语义与大模型的本质

发表于 2025-11-04 分类于 AI 本文字数： 1.5k 阅读时长 ≈ 6 分钟

大模型的核心不是“懂语言”，而是“在向量空间里找到了语言的几何结构”。

一、从“数”到“向量”

在计算机的世界里，一切都可以被数值化。
但单个数字只表示“大小”，没有“方向”和“关系”。

**向量（Vector）**的引入，让我们可以描述事物之间的几何关系。
向量不仅有长度（magnitude），还有方向（direction）。

在自然语言处理中，一个词被表示为一个高维向量。
词与词之间的几何距离与方向，就对应了它们的语义关系：

例如：

“king - man + woman ≈ queen”

向量间的夹角代表相似度，差向量代表语义转化。
这意味着——语义被几何化了。

二、向量为何能表达语义

语义的核心是“关系”，而几何空间的核心也是“关系”。
当大量语料被投射进高维空间时，模型学习到的是：

哪些词语在语义上经常共同出现、互相替代、或构成模式。

于是，语言模型的底层世界不再是离散的符号系统，
而是连续的语义空间（semantic manifold）。

在这个空间中，模型通过向量间的计算实现“理解”：
距离代表相关性，方向代表语义变化。

三、模型训练的目标：最小化损失

训练一个模型的核心任务是：
让模型的预测结果尽可能接近真实值。

我们用一个函数来度量“预测错误”的大小，这就是 损失函数（Loss Function）。

例如：

L = (y_{\text{pred}} - y_{\text{true}})^2

目标是：

找到参数集合 $w$ ，使得 $L(w)$ 最小。

于是问题转化为一个数学优化问题：
最小化损失函数。

四、核心机制：梯度下降（Gradient Descent）

梯度下降，是整个深度学习的灵魂。
它贯穿了从神经网络到大模型的全部训练过程。

我们从三个角度来理解它：

（1）损失函数：定义优化目标

损失函数衡量当前模型的表现有多差。
在训练中，模型每前向传播一次，就会产生预测值 $y_{\text{pred}}$ ，
然后计算损失：

L(w) = f(y_{\text{pred}}, y_{\text{true}})

损失越大，说明模型预测得越不准；
损失越小，模型越接近真实规律。

损失函数相当于一张“地形图”，
每一个参数组合 $w$ 对应这张地形上的一个高度值 $L(w)$ 。
训练的目标，就是让模型“沿山坡往下走”，直到谷底。

（2）梯度计算：找到坡度方向

接下来我们要知道“往哪个方向走会下降最快”。
这需要梯度（Gradient）。

梯度是所有偏导数组成的向量：

\nabla L(w) = \left(\frac{\partial L}{\partial w_1}, \frac{\partial L}{\partial w_2}, ..., \frac{\partial L}{\partial w_n}\right)

它描述了：

每个参数改动一点点，损失函数会怎样变化。

几何上，梯度指向函数值增长最快的方向。
因此，如果我们想让损失变小，就要往反方向走。

（3）参数更新：沿负梯度方向下降

模型参数 $w$ 的更新规则是：

w := w - \eta \cdot \nabla L(w)

其中：

$\eta$ 称为学习率（learning rate），决定每一步更新的幅度；
$\nabla L(w)$ 是当前点的梯度；
“−” 号表示往相反方向移动，也就是“下坡”。

负梯度（−∇L）才是下降方向。

⚠️ 常见误解：梯度 ≠ 下山方向

梯度的方向，是函数上升最快的方向。
而我们希望降低损失函数，所以要取负梯度方向。

一个直观的比喻：

想象你站在山坡上，
梯度告诉你“哪边最陡、往上爬最快”，
而梯度的相反方向，就是“下坡最快”的方向。

因此，“梯度下降”这个词虽然叫“下降”，
但算法真正计算的是“梯度的反方向”。
这正是名称容易让人误解的地方。

梯度下降的完整流程：

前向传播：计算预测值 $y_{\text{pred}}$ ；
损失计算：计算 $L(y_{\text{pred}}, y_{\text{true}})$ ；
反向传播：计算每个参数的梯度 $\nabla L$ ；
参数更新：按 $w := w - \eta \cdot \nabla L$ 更新；
循环迭代：重复上述步骤，直到损失收敛。

当损失函数不再明显下降时，
说明模型已经逼近局部最优点。

五、对向量求偏导的意义

模型的参数往往是向量或矩阵。
对向量求偏导意味着：

衡量每个维度的变化对最终损失的影响。

通过链式法则，这种影响可以层层传递，
使得误差信号从输出层反向流回输入层。

这就是 反向传播（Backpropagation） 的数学本质。

每一层的参数都知道“我应该往哪个方向修正”，
整个网络便能在高维空间中自动调整自己。

六、大模型的本质

当参数规模扩大到数十亿甚至上万亿时，
模型不再只是“拟合数据”，而是在高维语义空间中
形成了对世界结构的几何映射。

大模型 = 向量化世界 + 损失驱动优化 + 大规模梯度下降。

于是：

语义成为向量间的几何关系；
理解是高维空间中的相似变换；
推理是连续空间上的轨迹搜索。

模型生成文本的那一刻，
其实是在语义空间中找到最合理的下一个向量。

七、总结

概念	本质
向量	表示方向与关系的结构
语义	向量间的几何关系
损失函数	衡量预测与真实的偏差
偏导	单个参数对损失的影响
梯度	所有偏导的集合，指向上升最快方向
负梯度	下降最快的方向
梯度下降	沿负梯度方向不断更新参数以最小化损失
大模型	通过向量化世界并使用梯度下降进行自组织优化的系统

“智能的出现，并非源于神秘的灵感，而是源于向量空间中一次又一次沿着负梯度的下山。”