Glittering's blog Glittering's blog
Home
  • 学习手册

    • 《TypeScript教程》
    • 《Git》
    • 《Vite》
    • 《Vue3》
    • 《React18》
    • 《CSS》
    • 《Tailwind CSS》
    • 《JavaScript教程》
    • 《ES6 教程》
    • 《TypeScript 从零实现 axios》
  • 技术文档
  • 算法
  • 工作总结
  • 实用技巧
  • collect
About
  • Classification
  • Label
GitHub (opens new window)

Glitz Ma

前端开发工程师
Home
  • 学习手册

    • 《TypeScript教程》
    • 《Git》
    • 《Vite》
    • 《Vue3》
    • 《React18》
    • 《CSS》
    • 《Tailwind CSS》
    • 《JavaScript教程》
    • 《ES6 教程》
    • 《TypeScript 从零实现 axios》
  • 技术文档
  • 算法
  • 工作总结
  • 实用技巧
  • collect
About
  • Classification
  • Label
GitHub (opens new window)
  • 技术文档

  • 算法

  • 工作总结

    • 时区校正
    • 上传下载文件方式总结
    • web异常监控和分析
    • 前端优化指南
    • http缓存机制
    • 静态资源灰度发布
    • 浏览器原理及渲染机制
    • Chrome DevTools 渲染分析实战
    • Layout Thrashing(布局抖动)
    • Composite Layer(合成层)
    • 全局设置滚动条样式好吗?
    • 虚拟列表如何避免Layout和Paint
    • 前端安全知识
    • 安全(同源策略 / CSP / CORS)
    • 浏览器安全模型
    • 从chrome v8 讲安全
    • WebAssembly(Wasm)
    • XSS → JIT → 沙箱逃逸
    • 微前端总结
    • websocket聊天
    • Uni-app基础知识
    • react16高级特性
    • react16基础知识总结
    • vue2常见原理总结
    • vue2基础知识总结
    • webpack优化实践
    • webpack基础应用知识总结
    • Agent Skills是什么?跟MCP Workflow Command Prompt的关系。
    • 从cnn到transformer全解大模型
      • 一、最早阶段:CNN(卷积神经网络)
        • 代表论文:ImageNet Classification with Deep Convolutional Neural Networks
        • 1️⃣ CNN 是干什么的?
        • 2️⃣ 核心思想
        • 3️⃣ 为什么 CNN 不适合做语言?
      • 二、序列时代:RNN(循环神经网络)
        • 1️⃣ RNN 解决什么问题?
        • 2️⃣ RNN 的核心机制
        • 3️⃣ 但 RNN 有两个严重问题
        • ❌ 1. 记忆会衰减(梯度消失)
        • ❌ 2. 不能并行计算
      • 三、革命:Transformer
        • 代表论文:Attention Is All You Need
        • 1️⃣ Transformer 解决了什么?
        • ✅ 不再使用 RNN
        • ✅ 使用 Attention 机制
        • 2️⃣ 什么是 Attention?
        • 3️⃣ Transformer 的优势
      • 四、BERT:双向理解模型
        • 代表论文:BERT: Pre-training of Deep Bidirectional Transformers
        • 1️⃣ BERT 是什么?
        • 2️⃣ 什么叫双向?
        • 3️⃣ BERT 擅长什么?
      • 五、GPT:生成模型的崛起
        • GPT 代表系列:
        • 1️⃣ GPT 是什么?
        • 2️⃣ GPT 和 BERT 的区别
        • 3️⃣ 为什么 GPT 可以成为“大模型”?
        • 1️⃣ 可扩展性极强
        • 2️⃣ 预训练 + 微调
        • 3️⃣ Scaling Law
      • 六、从 CNN 到 GPT 的进化逻辑
      • 七、现在的大模型本质是什么?
      • 八、用一句话总结每个阶段
    • 什么是 Encoder 和 Decoder 结构
    • GPT 为什么能“看懂”问题
    • GPT 是怎么学会数学的
    • 容器领域必学的黄金组合
    • 小程序笔记
    • 小程序工程模板设计
    • 地图标绘--射线法来计算点在多边形内
  • 实用技巧

  • 收藏夹

  • 技术
  • 工作总结
mamingjuan
2026-02-22
目录

从cnn到transformer全解大模型

从 CNN → RNN → Transformer → BERT → GPT 把“大模型的发展逻辑”完整讲清楚。

你会看到这不是五个独立技术,而是一条能力进化路线。


# 一、最早阶段:CNN(卷积神经网络)

# 代表论文:ImageNet Classification with Deep Convolutional Neural Networks

作者:Alex Krizhevsky 等


# 1️⃣ CNN 是干什么的?

CNN 主要用于:

图像识别

例如:

  • 识别猫狗
  • 人脸识别
  • 医学影像分析

# 2️⃣ 核心思想

CNN 的关键是:

卷积(Convolution)

简单理解:

  • 用一个“小窗口”在图像上滑动
  • 提取局部特征
  • 一层层组合成更高级特征

比如:

  • 第一层识别边缘
  • 第二层识别形状
  • 第三层识别物体

# 3️⃣ 为什么 CNN 不适合做语言?

语言有一个问题:

它是“序列”,不是二维图像。

句子:

我 喜 欢 你

顺序改变就变了意义。

CNN 不擅长处理长距离依赖关系。


# 二、序列时代:RNN(循环神经网络)


# 1️⃣ RNN 解决什么问题?

RNN 解决:

语言是时间序列

它可以“记住前面的话”。

比如:

“我今天没带伞,因为____”

RNN 会记住“没带伞”。


# 2️⃣ RNN 的核心机制

每一步:

当前输入 + 上一步的记忆 → 当前状态
1

它像一个“会传递记忆的网络”。


# 3️⃣ 但 RNN 有两个严重问题

# ❌ 1. 记忆会衰减(梯度消失)

句子太长就记不住。

# ❌ 2. 不能并行计算

必须一个词一个词算。

训练非常慢。


后来出现改进:

  • LSTM
  • GRU

但仍然无法解决“长距离依赖 + 训练慢”问题。


# 三、革命:Transformer

# 代表论文:Attention Is All You Need

作者来自:Google


这篇论文改变了一切。


# 1️⃣ Transformer 解决了什么?

两个核心突破:

# ✅ 不再使用 RNN

# ✅ 使用 Attention 机制


# 2️⃣ 什么是 Attention?

一句话:

每个词都可以“看”句子里的所有词。

例如:

“我今天没带伞,因为天气很好”

“没带伞”会关注“天气很好”。

这就是:

远距离依赖建模


# 3️⃣ Transformer 的优势

特性 RNN Transformer
长距离依赖 差 强
并行计算 不行 可以
训练速度 慢 快
扩展性 弱 极强

Transformer 成为大模型基础。


# 四、BERT:双向理解模型

# 代表论文:BERT: Pre-training of Deep Bidirectional Transformers


# 1️⃣ BERT 是什么?

BERT 是:

基于 Transformer 的“理解型模型”

它是:

Encoder-only 模型


# 2️⃣ 什么叫双向?

GPT 只能从左往右读:

我 今天 很 …

BERT 是双向:

同时看左边和右边

比如:

“苹果很好吃”

BERT 会根据上下文判断“苹果”是水果还是公司。


# 3️⃣ BERT 擅长什么?

  • 文本分类
  • 情感分析
  • 搜索排序
  • 问答系统

但:

❌ 不擅长生成文章


# 五、GPT:生成模型的崛起

# GPT 代表系列:

  • GPT-3
  • GPT-4 来自:OpenAI

# 1️⃣ GPT 是什么?

GPT 是:

基于 Transformer Decoder 的生成模型

它是:

自回归模型(Auto-regressive)

意思是:

一个词一个词往后预测


# 2️⃣ GPT 和 BERT 的区别

对比 BERT GPT
结构 Encoder Decoder
是否双向 是 否
擅长 理解 生成
典型任务 分类 写作

# 3️⃣ 为什么 GPT 可以成为“大模型”?

三个原因:

# 1️⃣ 可扩展性极强

参数可以从:

  • 1亿
  • 到 1750亿
  • 再到万亿级

# 2️⃣ 预训练 + 微调

先学通用语言 再做人类对齐

# 3️⃣ Scaling Law

模型越大 → 性能越强


# 六、从 CNN 到 GPT 的进化逻辑

这是一条“能力进化链”:

CNN → 图像理解
RNN → 序列建模
Transformer → 全局注意力
BERT → 强理解
GPT → 强生成
1
2
3
4
5

本质变化是:

从“特定任务模型” 到“通用语言模型”


# 七、现在的大模型本质是什么?

现代大模型 =

Transformer架构
+ 海量数据预训练
+ 超大参数规模
+ 人类反馈对齐
1
2
3
4

它不是简单的“聊天机器人”。

它是:

语言空间中的通用推理引擎。


# 八、用一句话总结每个阶段

CNN:

学会看图

RNN:

学会记忆序列

Transformer:

学会全局理解

BERT:

学会深度理解文本

GPT:

学会生成世界

上次更新: 2026/02/22, 10:45:16
Agent Skills是什么?跟MCP Workflow Command Prompt的关系。
什么是 Encoder 和 Decoder 结构

← Agent Skills是什么?跟MCP Workflow Command Prompt的关系。 什么是 Encoder 和 Decoder 结构→

Copyright © 2015-2026 Glitz Ma
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式