入门科普

神经网络一小时入门：从一个神经元到 GPT

不写公式，不上反向传播。用揉面团的过程讲清楚什么是神经元、什么是网络、为什么 "大" 模型比 "小" 模型聪明。

2026-04-21约 9 分钟

提到神经网络，多数文章上来就甩个公式：y = σ(Wx + b)。劝退 95% 的人。

我换个讲法。读完这篇，你能跟朋友解释清楚：神经网络是什么、它怎么"学习"、为什么大模型这两年突然就行了。一个公式都不出现，但本质一点不打折。

1. 一个"神经元"在干啥

想象一个面包评审员。每天有一堆面包送来，他要打分（1–10 分）。

他不是凭感觉，他有一个打分公式：

烤色权重 30% × 烤色分 + 蓬松度权重 50% × 蓬松度分 + 口感权重 20% × 口感分

注意三个数字：30%、50%、20%。这就是这位评审员的"经验"——他更看重蓬松度，烤色其次，口感最不在乎。

这就是一个神经元。

输入：烤色、蓬松度、口感（三个特征）
内部参数：30%、50%、20%（三个权重）
输出：一个分数

神经网络里的"神经元"就这点本事——把若干输入按一组权重加起来，输出一个数。仅此而已。

2. 一个评审员太武断，请一桌评审团

光靠一个评审员风险太大。所以面包店请了一桌评审员，每人有自己的打分偏好：

A 评审员看重蓬松度
B 评审员看重口感
C 评审员看重烤色
D 评审员看重香气
...

每个评审员独立打分，然后把所有人的分数再交给一位总评审——他也按自己的权重把这桌人的分数综合一下，给最终评分。

这就是神经网络的"层"。

原始特征 → [第一层评审团（5人）] → [第二层评审团（3人）] → 最终分数

层数多了，AI 能识别的模式就更精细。第一层评审看简单特征（烤色、蓬松度），第二层评审基于第一层的输出再综合（"这个面包既蓬松又烤色好，整体感觉是？"），第三层再综合……越深的层，看的东西越抽象。

GPT-4 这样的大模型，神经元的层数有上百层，每层有几千上万个"评审员"。

3. 它怎么"学会"打分？—— 调权重

新评审员第一天上岗时，权重是随机的（比如烤色 50%、蓬松度 20%、口感 30%）。打分肯定瞎打。

训练流程：

给他一块面包，让他打分。他打了 6 分。
老师傅说："这块面包标准分是 9 分，你打低了。"
系统自动算：要让他下次打 9 分，权重该往哪个方向调？比如，下次蓬松度权重从 20% 升到 25%、烤色从 50% 降到 40%。
调完。换下一块面包，重复。

几百万次后，这位评审员的权重就调到了"接近老师傅"的水平。

整个网络（几亿、几千亿个评审员）就靠这种方式，每个人的权重都在自我调整。这个过程叫"训练"，而调权重的方法叫反向传播（这名字不重要，记不住没关系）。

关键直觉：神经网络不是被人"编程"出来的。它是被海量数据训练出来的。没有人告诉它"蓬松度权重应该是 50%"——是它自己从几百万个例子里总结出来的。

4. 那大模型到底"大"在哪

参数（权重）数量。

模型	参数量	类比
一个简单的图像识别网络	~100 万	一个面包房的小评审团
GPT-2（2019）	15 亿	一座城市的评审团
GPT-3（2020）	1750 亿	一个国家的评审团
GPT-4（2023）	估计 1 万亿+	整个地球的评审团

为什么 "大" 就 "行"？

参数越多，能记住的"模式"越多，能识别的"概念"越细。15 亿参数能学会写流畅的英文，1750 亿参数能学会写代码、做翻译、解数学题。继续加大，模型会涌现出更多原本不会的能力——这叫"涌现 (emergence)"，是大模型最神奇的特点之一。

反过来，"小" 模型也有用：跑得快、装手机里、不用联网、便宜。所以现在很多产品里其实是小模型 + 大模型配合：简单问题让小模型回，难问题转给大模型。

5. 那 GPT 是怎么从"评审"变成"会说话"的？

到这里你可能会想：评审员只是打分，怎么变成对话的？

核心 trick：把"说话"也变成一个打分问题。

具体来说：

给 AI 看一段文字 "今天天气真"，让它打分——预测下一个字最可能是什么。 "好"得 95 分、"热"得 85 分、"棒"得 70 分、"鸡"得 0.001 分。然后挑分数最高的那个，输出"好"。

然后把"今天天气真好"作为新输入，继续预测下一个字 → "啊"、"呀"、"，"……

循环往复，一字一字往外冒——这就是 ChatGPT 在干的事。

整个 GPT 模型，本质就是一个预测下一个字的超大评审网络。

6. 复盘：你现在懂了什么

读到这儿你已经掌握了：

神经元 = 一个加权打分器
神经网络 = 多层打分器叠在一起
训练 = 通过大量例子，自动调整权重
大模型 = 参数（权重）特别多的网络
GPT = 把"说话"变成"逐字预测"的超大网络

这就是 LLM（大语言模型）的全部本质。剩下的工程细节（Transformer、注意力机制、tokenizer……）都是为这个核心服务的优化。等你想深挖再看也来得及。

下次有人和你扯"AI 在思考"——你可以淡定地说：它不是在思考，它在打分。只不过它的打分能力强到，让结果看起来像在思考。

下一篇我会讲训练 vs 推理：模型怎么"记住"知识又"忘了"昨天的新闻——揭穿"AI 知道一切"的错觉。

大模型到底是个啥？用面包烤箱讲明白

好提示词的 4 件套：把 AI 变成你的专属助手