神经网络一小时入门:从一个神经元到 GPT
不写公式,不上反向传播。用揉面团的过程讲清楚什么是神经元、什么是网络、为什么 "大" 模型比 "小" 模型聪明。
提到神经网络,多数文章上来就甩个公式:y = σ(Wx + b)。劝退 95% 的人。
我换个讲法。读完这篇,你能跟朋友解释清楚:神经网络是什么、它怎么"学习"、为什么大模型这两年突然就行了。一个公式都不出现,但本质一点不打折。
1. 一个"神经元"在干啥
想象一个面包评审员。每天有一堆面包送来,他要打分(1–10 分)。
他不是凭感觉,他有一个打分公式:
烤色权重 30% × 烤色分 + 蓬松度权重 50% × 蓬松度分 + 口感权重 20% × 口感分
注意三个数字:30%、50%、20%。这就是这位评审员的"经验"——他更看重蓬松度,烤色其次,口感最不在乎。
这就是一个神经元。
- 输入:烤色、蓬松度、口感(三个特征)
- 内部参数:30%、50%、20%(三个权重)
- 输出:一个分数
神经网络里的"神经元"就这点本事——把若干输入按一组权重加起来,输出一个数。仅此而已。
2. 一个评审员太武断,请一桌评审团
光靠一个评审员风险太大。所以面包店请了一桌评审员,每人有自己的打分偏好:
- A 评审员看重蓬松度
- B 评审员看重口感
- C 评审员看重烤色
- D 评审员看重香气
- ...
每个评审员独立打分,然后把所有人的分数再交给一位总评审——他也按自己的权重把这桌人的分数综合一下,给最终评分。
这就是神经网络的"层"。
原始特征 → [第一层评审团(5人)] → [第二层评审团(3人)] → 最终分数
层数多了,AI 能识别的模式就更精细。第一层评审看简单特征(烤色、蓬松度),第二层评审基于第一层的输出再综合("这个面包既蓬松又烤色好,整体感觉是?"),第三层再综合……越深的层,看的东西越抽象。
GPT-4 这样的大模型,神经元的层数有上百层,每层有几千上万个"评审员"。
3. 它怎么"学会"打分?—— 调权重
新评审员第一天上岗时,权重是随机的(比如烤色 50%、蓬松度 20%、口感 30%)。打分肯定瞎打。
训练流程:
- 给他一块面包,让他打分。他打了 6 分。
- 老师傅说:"这块面包标准分是 9 分,你打低了。"
- 系统自动算:要让他下次打 9 分,权重该往哪个方向调?比如,下次蓬松度权重从 20% 升到 25%、烤色从 50% 降到 40%。
- 调完。换下一块面包,重复。
几百万次后,这位评审员的权重就调到了"接近老师傅"的水平。
整个网络(几亿、几千亿个评审员)就靠这种方式,每个人的权重都在自我调整。这个过程叫"训练",而调权重的方法叫反向传播(这名字不重要,记不住没关系)。
关键直觉: 神经网络不是被人"编程"出来的。它是被海量数据训练出来的。 没有人告诉它"蓬松度权重应该是 50%"——是它自己从几百万个例子里总结出来的。
4. 那大模型到底"大"在哪
参数(权重)数量。
| 模型 | 参数量 | 类比 |
|---|---|---|
| 一个简单的图像识别网络 | ~100 万 | 一个面包房的小评审团 |
| GPT-2(2019) | 15 亿 | 一座城市的评审团 |
| GPT-3(2020) | 1750 亿 | 一个国家的评审团 |
| GPT-4(2023) | 估计 1 万亿+ | 整个地球的评审团 |
为什么 "大" 就 "行"?
参数越多,能记住的"模式"越多,能识别的"概念"越细。15 亿参数能学会写流畅的英文,1750 亿参数能学会写代码、做翻译、解数学题。继续加大,模型会涌现出更多原本不会的能力——这叫"涌现 (emergence)",是大模型最神奇的特点之一。
反过来,"小" 模型也有用:跑得快、装手机里、不用联网、便宜。所以现在很多产品里其实是小模型 + 大模型配合:简单问题让小模型回,难问题转给大模型。
5. 那 GPT 是怎么从"评审"变成"会说话"的?
到这里你可能会想:评审员只是打分,怎么变成对话的?
核心 trick:把"说话"也变成一个打分问题。
具体来说:
给 AI 看一段文字 "今天天气真",让它打分——预测下一个字最可能是什么。 "好"得 95 分、"热"得 85 分、"棒"得 70 分、"鸡"得 0.001 分。 然后挑分数最高的那个,输出"好"。
然后把"今天天气真好"作为新输入,继续预测下一个字 → "啊"、"呀"、","……
循环往复,一字一字往外冒——这就是 ChatGPT 在干的事。
整个 GPT 模型,本质就是一个预测下一个字的超大评审网络。
6. 复盘:你现在懂了什么
读到这儿你已经掌握了:
- 神经元 = 一个加权打分器
- 神经网络 = 多层打分器叠在一起
- 训练 = 通过大量例子,自动调整权重
- 大模型 = 参数(权重)特别多的网络
- GPT = 把"说话"变成"逐字预测"的超大网络
这就是 LLM(大语言模型)的全部本质。剩下的工程细节(Transformer、注意力机制、tokenizer……)都是为这个核心服务的优化。等你想深挖再看也来得及。
下次有人和你扯"AI 在思考"——你可以淡定地说:它不是在思考,它在打分。只不过它的打分能力强到,让结果看起来像在思考。
下一篇我会讲 训练 vs 推理:模型怎么"记住"知识又"忘了"昨天的新闻——揭穿"AI 知道一切"的错觉。