AI Research Lab
学习笔记入门#RAG#Vector DB#Learning

RAG 知识库搭建入门

从文档清洗、切片、向量化、检索到答案生成,梳理 RAG 入门路径。

RAG · 2026年5月2日

RAG 基本链路

  • 采集资料并保留来源信息。
  • 清洗格式,按语义和长度切片。
  • 为切片生成 embedding 并写入向量库。
  • 查询时召回相关片段,再交给模型生成答案。

常见坑

  • 切片过长会降低召回精度。
  • 缺少来源会让答案难以验证。
  • 只调 prompt 不调检索,通常无法解决事实遗漏。