Glittering's blog Glittering's blog
Home
  • 学习手册

    • 《TypeScript教程》
    • 《Git》
    • 《Vite》
    • 《Vue3》
    • 《React18》
    • 《CSS》
    • 《Tailwind CSS》
  • 技术文档
  • 算法
  • 工作总结
  • 实用技巧
  • collect
About
  • Classification
  • Label
GitHub (opens new window)

Glitz Ma

前端开发工程师
Home
  • 学习手册

    • 《TypeScript教程》
    • 《Git》
    • 《Vite》
    • 《Vue3》
    • 《React18》
    • 《CSS》
    • 《Tailwind CSS》
  • 技术文档
  • 算法
  • 工作总结
  • 实用技巧
  • collect
About
  • Classification
  • Label
GitHub (opens new window)
  • 技术文档

  • 算法

  • 工作总结

    • 时区校正
    • 上传下载文件方式总结
    • web异常监控和分析
    • 前端优化指南
    • http缓存机制
    • 静态资源灰度发布
    • 浏览器原理及渲染机制
    • Chrome DevTools 渲染分析实战
    • Layout Thrashing(布局抖动)
    • Composite Layer(合成层)
    • 全局设置滚动条样式好吗?
    • 虚拟列表如何避免Layout和Paint
    • 前端安全知识
    • 安全(同源策略 / CSP / CORS)
    • 浏览器安全模型
    • 从chrome v8 讲安全
    • WebAssembly(Wasm)
    • XSS → JIT → 沙箱逃逸
    • 微前端总结
    • websocket聊天
    • Uni-app基础知识
    • react16高级特性
    • react16基础知识总结
    • vue2常见原理总结
    • vue2基础知识总结
    • webpack优化实践
    • webpack基础应用知识总结
    • Agent Skills是什么?跟MCP Workflow Command Prompt的关系。
    • 从cnn到transformer全解大模型
    • 什么是 Encoder 和 Decoder 结构
    • GPT 为什么能“看懂”问题
    • GPT 是怎么学会数学的
    • RAG 和 Agent的区别
    • context engineering 技术介绍
    • HarnessEngineering 驾驭工程的概念
    • GIS 基础三件套
    • GIS必会知识点
    • 100 万点地图怎么渲染?
    • GIS空间索引的实现
    • Cesium 从入门到精通:实战指南
    • OpenLayers 从零到精通:2025-2026实战指南
    • Mapbox GL JS 从零到精通:2025-2026实战指南
    • Cesium、OpenLayers 和 Mapbox GL JS 的关系、区别
    • 容器领域必学的黄金组合
    • 小程序笔记
    • 小程序工程模板设计
    • 地图标绘--射线法来计算点在多边形内
    • Postgres基础知识学习
    • Postgres查询相关知识
    • 通过nextjs学习seo
    • 搜索引擎工作原理
      • 一、搜索引擎工作原理(深度版)
        • 1️⃣ Crawling(抓取)
        • ✔ 本质
        • ✔ robots.txt 的优先级
        • ✔ robots.txt 常见误区
        • ✔ 抓取频率(Crawl Budget)
        • ✔ 如何观察?
        • 🔥 高级技巧
      • 二、Indexing(索引)
        • ✔ 核心认知
        • ✔ “收录 ≠ 排名”(必须会说)
        • ✔ 影响索引的关键因素
        • 1. 内容质量
        • 2. 页面可解析性
        • 3. 去重机制(非常关键)
        • ✔ canonical 的真正作用
        • 🔥 高级理解
      • 三、Ranking(排名)
        • ✔ 排名核心三要素
        • 1️⃣ 关键词相关性(Relevance)
        • 2️⃣ 权重(Authority)
        • ✔ Link Juice(权重流动)
        • ✔ 示例:
        • ✔ 内链优化(实战重点)
        • 🔥 高级点:权重分散
      • 四、语义化 HTML 的 SEO 价值(深入版)
        • ✔ 为什么语义化很重要?
        • ✔ 推荐结构
        • ✔ 标签语义作用
        • ✔ 对爬虫的价值
        • ❗ 常见错误
      • 五、Heading 体系
        • ✔ 标准规则
        • ✔ SEO 本质
        • ✔ 最佳实践
        • ❗ 常见坑
      • 六、Sitemap.xml(站点地图)
        • ✔ 本质
        • ✔ 示例
        • ✔ 字段解释
        • ❗ 重要认知
        • ✔ 实战建议
      • 七、Canonical(防重复核心机制)
        • ✔ 为什么需要?
        • ✔ 标准写法
        • ✔ 作用总结
        • 🔥 高级场景
        • ✔ 分页 SEO
        • ✔ 多语言站点
      • 八、 SEO 工作原理是什么?
  • 实用技巧

  • 收藏夹

  • 技术
  • 工作总结
mamingjuan
2026-03-23
目录

搜索引擎工作原理

# 一、搜索引擎工作原理(深度版)

# 1️⃣ Crawling(抓取)

# ✔ 本质

搜索引擎通过爬虫(如 Googlebot)不断访问网页,构建“候选页面池”。


# ✔ robots.txt 的优先级

👉 实际规则:

优先级 规则
1 robots.txt(是否允许抓取)
2 meta robots(页面级控制)
3 HTTP Header(X-Robots-Tag)

# ✔ robots.txt 常见误区

❌ 错误理解:

Disallow = 页面不会被收录

✅ 实际:

  • Disallow = 不抓取
  • 但仍可能被索引(通过外链发现)

👉 想完全不收录:

<meta name="robots" content="noindex" />
1

# ✔ 抓取频率(Crawl Budget)

👉 每个网站都有“抓取预算”

影响因素:

  • 网站权重(Authority)
  • 更新频率
  • 页面数量
  • 服务器响应速度

# ✔ 如何观察?

使用 Google Search Console:

路径:

  • Settings → Crawl stats

你能看到:

  • 每天抓取次数
  • 响应时间
  • 抓取文件类型

# 🔥 高级技巧

👉 提升抓取效率:

  • 合理内链(重要!)
  • 提供 sitemap.xml
  • 避免死链
  • SSR 提供完整 HTML

# 二、Indexing(索引)

# ✔ 核心认知

搜索引擎不直接“看网页”,而是“看索引库”


# ✔ “收录 ≠ 排名”(必须会说)

阶段 含义
收录(Indexed) 页面进入数据库
排名(Ranking) 是否展示 + 排第几

👉 举例:

  • 页面被收录 ✔
  • 但排在第 100 页 ❌

# ✔ 影响索引的关键因素

# 1. 内容质量

  • 是否原创
  • 是否有价值

# 2. 页面可解析性

❗ CSR 问题:

<div id="root"></div>
1

👉 对爬虫来说几乎是“空页面”


# 3. 去重机制(非常关键)

搜索引擎会自动判断:

  • 内容是否重复
  • 是否需要合并权重

# ✔ canonical 的真正作用

👉 告诉搜索引擎:

哪个 URL 才是“主版本”

<link rel="canonical" href="https://example.com/page" />
1

# 🔥 高级理解

canonical ≠ 强制指令 👉 是“建议”,搜索引擎可以不听


# 三、Ranking(排名)

# ✔ 排名核心三要素


# 1️⃣ 关键词相关性(Relevance)

👉 搜索引擎在做什么?

“这个页面是不是在回答用户问题?”

匹配维度:

  • title
  • h1
  • 正文
  • 语义(NLP)

# 2️⃣ 权重(Authority)

👉 来源:

  • 外链(Backlinks)
  • 网站历史
  • 品牌信任度

# ✔ Link Juice(权重流动)

👉 概念:

页面权重通过链接传递


# ✔ 示例:

" line-numbers-mode">
A页面(权重高) → B页面
1

👉 B 页面权重会提升


# ✔ 内链优化(实战重点)

  • 首页 → 核心页面
  • 文章之间互链
  • 避免孤岛页面

# 🔥 高级点:权重分散

A → B
A → C
1
2

👉 权重被“分流”


# 四、语义化 HTML 的 SEO 价值(深入版)

# ✔ 为什么语义化很重要?

因为爬虫不会“视觉理解”,只能靠结构判断。


# ✔ 推荐结构

<main>
  <article>
    <h1>文章标题</h1>
    <section>内容</section>
  </article>
  <aside>推荐内容</aside>
</main>
1
2
3
4
5
6
7

# ✔ 标签语义作用

标签 SEO作用
<main> 主内容
<article> 独立内容块
<nav> 导航结构
<aside> 辅助内容

# ✔ 对爬虫的价值

👉 帮助它快速判断:

  • 哪是正文
  • 哪是导航
  • 哪是广告

# ❗ 常见错误

<div class="title">xxx</div>
1

👉 ❌ SEO 无法识别重要性


# 五、Heading 体系

# ✔ 标准规则

  • 1 个页面 → 只能有一个 <h1>
  • 层级递进:
h1 → h2 → h3
1

# ✔ SEO 本质

👉 Heading 是“内容结构树”


# ✔ 最佳实践

<h1>Next.js SEO 完整指南</h1>
<h2>什么是 SEO</h2>
<h3>定义</h3>
1
2
3

# ❗ 常见坑

  • 用样式代替语义 ❌
  • 多个 h1 ❌(现在搜索引擎容忍,但不推荐)

# 六、Sitemap.xml(站点地图)

# ✔ 本质

告诉搜索引擎:我有哪些页面


# ✔ 示例

<url>
  <loc>https://example.com/blog</loc>
  <lastmod>2026-03-01</lastmod>
  <priority>0.8</priority>
</url>
1
2
3
4
5

# ✔ 字段解释

字段 作用
loc 页面地址
lastmod 更新时间
priority 优先级

# ❗ 重要认知

👉 priority ≠ 排名权重 只是“抓取建议”


# ✔ 实战建议

  • 自动生成(Next.js / CMS)
  • 更新时自动刷新

# 七、Canonical(防重复核心机制)

# ✔ 为什么需要?

避免:

example.com
example.com?ref=ads
example.com?page=1
1
2
3

👉 被当成多个页面 → 权重分散 ❌


# ✔ 标准写法

<link rel="canonical" href="https://example.com" />
1

# ✔ 作用总结

  • 合并权重
  • 避免重复内容
  • 提高排名稳定性

# 🔥 高级场景

# ✔ 分页 SEO

?page=1
?page=2
1
2

👉 canonical 指向:

  • 第一页 或 自己(看策略)

# ✔ 多语言站点

结合:

  • canonical
  • hreflang

# 八、 SEO 工作原理是什么?

  • 搜索引擎主要分为抓取、索引、排名三个阶段。
  • 抓取阶段受 robots.txt 和 crawl budget 控制;
  • 索引阶段核心是内容质量和去重机制(canonical);
  • 排名阶段由关键词相关性和权重(link juice)决定。
  • 在前端层面,我主要通过 SSR、语义化 HTML、heading 结构、sitemap 和 canonical 来优化技术 SEO。
上次更新: 2026/03/23, 10:17:07
通过nextjs学习seo
GitHub高级搜索技巧

← 通过nextjs学习seo GitHub高级搜索技巧→

Copyright © 2015-2026 Glitz Ma
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式