LLM + RAG：智能问答实战

Mr.Hope2025/4/20...大约 19 分钟

相关知识点

大语言模型（LLM，Large Language Model）

LLM 是基于深度学习（如Transformer架构）训练的超大规模语言模型，能够理解和生成自然语言文本。典型代表包括GPT、PaLM、LLaMA等。

LLM 的核心特点如下：

海量参数：参数量可达数百亿甚至万亿级，通过自监督学习从文本数据中捕捉语言规律。
通用性：可完成问答、翻译、写作、代码生成等多样化任务。
上下文理解：支持多轮对话和长文本上下文分析（如GPT-4上下文窗口达128k tokens）。

LLM 也有其局限性：

静态知识：训练后知识库固定，无法实时更新（如ChatGPT-3.5的知识截止于2021年）。
幻觉风险：可能生成看似合理但事实错误的内容。
专业领域不足：缺乏垂直领域的深度知识。

近期的大语言模型

自 Deepseek R1 发布以来，LLM 领域涌现出多款新模型，有望作为 Deepseek R1 的替代品的提到有：

Meta Llama 4系列
- 模型亮点：
  - 多模态能力：原生支持文本、图像联合输入，可处理多达48张图像，适用于视觉推理任务。
  - 超长上下文：Scout模型支持1000万tokens上下文窗口，远超主流模型。
  - 高效MoE架构：采用混合专家机制，Maverick模型（400B总参数）性能超越GPT-4o，推理成本低于Llama 3-70B。
  - 开源许可：权重与代码全面开放，支持商业部署。
- 子模型：
  - Scout（109B参数）：适合单GPU运行，长文本处理首选。
  - Maverick（400B参数）：高性价比，推理能力突出。
  - Behemoth（2T参数）：训练中，预计性能超越GPT-4.5。
WizardLM-2系列
- 核心突破：首个开源且超越GPT-4的模型，MT基准测试中表现优于Claude 3 Sonnet。
- 参数版本：
  - 22B：复杂任务性能最优。
  - 70B：顶级推理能力。
  - 7B：轻量高效，适合实时应用。
- 技术亮点：采用Evol-Instruct方法生成高质量指令，通过AI-Align-AI框架优化协作训练。
英伟达Nemotron Ultra
- 参数规模：253B，基于Llama-3.1架构，性能超越DeepSeek R1（671B参数）。
- 创新设计：
  - 可切换推理模式：支持“高复杂度推理”与“直接输出”两种模式。
  - 高效部署：优化内存占用，适配8块H100 GPU节点。
- 应用场景：高级推理、AI助手工作流程，代码与数学任务表现优异。

最后就是本文的重头：Gemma3

Gemma3 可以在单张消费级显卡上部署，提供 1B（10亿）、4B（40亿）、12B（120亿）、27B（270亿）四种参数规模，开发者可根据硬件需求选择适配版本。其中，1B版本仅支持文本处理，4B及以上版本支持文本、图像、短视频的多模态输入。

另外 Gemma3 预训练覆盖 140+ 种语言，直接支持35种语言的交互（如中文、日语、韩语），分词器与Gemini 2.0一致，优化非英语文本处理，同时原生支持函数调用（Function Calling）和结构化输出，便于开发AI代理和工作流自动化工具。量化版本可适配边缘设备与移动端。

检索增强生成（RAG，Retrieval-Augmented Generation）

由于 LLM 训练完成后知识库固定，我们需要一种技术为其提供与问题相关的知识库的能力，那么就需要用到检索增强生成（RAG）技术。

RAG 是一种将信息检索技术与LLM结合的架构，通过实时检索外部知识库来增强生成内容的准确性和时效性。

RAG 的基本流程如下：

检索阶段：用户输入问题时，从数据库/文档中检索相关片段（如向量数据库相似性搜索）。
生成阶段：将检索到的片段与问题一起输入LLM，生成最终回答。

RAG 的优势在于：

动态知识：突破LLM的静态限制，整合最新或专有数据（如企业文档、实时新闻）。
可解释性：提供检索结果作为生成依据，降低幻觉风险。
低成本：无需重新训练模型即可扩展知识。

LLM 与 RAG 的协同效应

对比维度	纯LLM	RAG+LLM
知识时效性	固定于训练数据	可实时更新
专业领域准确性	依赖预训练数据	通过检索增强专业内容
计算成本	推理成本高	需额外检索开销，但低于重新训练
适用场景	通用任务	需外部知识支持的任务

文本嵌入

文本嵌入是将文本单元（如词语、短语或文档）映射到低维连续向量空间的技术过程。该过程通过捕捉语言元素的语义和语法特征，将离散符号转化为稠密实数向量，使得机器能够基于向量间的几何关系进行数学运算和模式识别。

嵌入向量的生成依赖于大规模语料训练。模型通过神经网络架构（如浅层神经网络、Transformer）学习上下文预测任务，例如Skip-Gram模型通过中心词预测上下文词，BERT通过掩码语言建模重构被遮蔽的词汇。训练过程中，模型参数矩阵逐渐形成包含语义信息的向量表示，满足相似语义的文本在向量空间中具有较小的欧氏距离或较高的余弦相似度。

典型技术特性包括：

稠密向量表示：每个文本单元对应300-1024维的实数向量，相比传统稀疏表示（如one-hot编码）显著降低维度
语义保持性：向量空间中的距离反映语义相关性，"king - man + woman ≈ queen"的向量运算示例验证了代数结构对语义关系的编码能力
上下文敏感性：基于Transformer的嵌入模型（如BERT）生成动态向量，同一词语在不同语境中获得差异化表示，例如"bank"在"river bank"与"bank account"中的不同编码

主要技术实现路径包含：

静态嵌入：Word2Vec通过局部上下文窗口学习固定向量，GloVe利用全局词共现矩阵分解
动态嵌入：ELMo使用双向LSTM捕获上下文特征，BERT通过多层自注意力机制建模长距离依赖
多语言嵌入：LASER、mBERT在共享向量空间对齐不同语言，实现跨语言语义匹配

应用层面，文本嵌入支撑着：

语义检索：通过近似最近邻搜索（ANN）匹配查询向量与文档向量
文本分类：将嵌入向量作为深度学习模型的输入特征
序列标注：结合循环神经网络进行命名实体识别等任务
跨模态对齐：与图像/音频嵌入共同训练多模态表示

当前技术挑战集中于多义词消歧的计算效率、长文本的表示压缩，以及小样本场景的领域适应。前沿方向包括：

对比学习框架增强嵌入判别能力
知识图谱注入提升逻辑推理
参数高效微调适配特定任务
量化压缩技术降低部署成本

该技术持续推动自然语言处理从符号匹配向语义理解演进，为语言模型的深层推理能力奠定数学基础。

混含重排

混合重排是一种多阶段数据处理技术，主要应用于推荐系统与信息检索领域。该技术通过整合异构模型的输出结果，对候选集进行动态优化排序，其核心目标在于平衡不同算法特性以提升最终排序质量。

系统通常在第一阶段并行运行多个独立模型，例如基于用户行为的协同过滤模型、基于内容特征的分析模型以及实时反馈模型。每个模型依据其设计目标生成中间排序结果，这些结果可能包含相互冲突的排序建议。混合阶段引入可调节的融合算法，常见的实现方式包括加权线性组合、基于机器学习的排序模型或自适应反馈机制。该过程需要处理不同模型输出的特征对齐问题，同时解决数值尺度差异带来的归一化挑战。

技术实现层面需重点考虑动态权重分配机制，部分系统采用在线学习框架实时更新模型贡献权重。为控制计算延迟，工程实现通常采用两阶段架构：离线预计算与在线实时重排相结合。在电商推荐场景中，该系统可能同时优化点击率预测、购买转化率和商品多样性指标，通过约束优化算法寻找帕累托最优解。

当前技术难点主要集中在模型间偏差校准、冷启动场景下的稳定性，以及多目标优化的计算效率问题。部分前沿研究尝试引入深度神经网络构建端到端的重排模型，直接学习从原始特征到最终排序的映射关系，这种方法虽然提升了模型表达能力，但也带来了可解释性下降的新挑战。

部署环境

硬件：

CPU: Ryzen 9 9950X3D (16 Core)
GPU: 5090D (32G)
内存：32G 6400MHz x 2
硬盘：990 Evo Pro 2TB
操作系统：Windows 11 WorkStation Pro

(成本 3.9w 元)

软件：

Docker Desktop + WSL2
Ollama
Open WebUI

技术栈：

知识库：
- inNENU 小程序介绍，100 万字
- 知识库格式：小程序页面 YAML 转定制化 Markdown 文件，共 1400+ 文档。
文本嵌入：
- 模型：bge-m3
- Chunk Size: 1000
- Chunk Overlap: 100
RAG 检索
- 模式：混合搜索
- 重排模型：bge-reranker-v2-me
- Top K: 15
- Top K Reranker: 5
- Relevance Threshold: 0.5

RAG 提示词：

**目标：** 基于提供的上下文信息回答用户问题，并使用内联引用标注来源。

**指令：**

1. **回答方式：** 使用与用户提问相同的语言风格和表达方式。
2. **引用规范：**
   - **仅当 `<source>` 标签包含明确的 `id` 属性时 (例如 `<source id="1">`)，才使用 `[id]` 格式的内联引用。** 例如： “研究表明，该方法可提高效率20% [1]。”
   - **如果 `<source>` 标签没有 `id` 属性，则不要进行引用。**
   - 引用必须简洁，且直接关联到引用的信息。
3. **信息处理：**
   - **已知答案：** 根据上下文提供明确、简洁的答案，并使用正确的引用。
   - **未知答案：** 坦诚告知用户不知道答案。
   - **不确定问题：** 礼貌地请求用户澄清问题。
   - **上下文质量：** 如果上下文难以理解或质量不佳，告知用户，并尽力提供最佳答案。
   - **自有知识：** 如果上下文中没有答案，但你掌握相关知识，解释情况并根据自己的理解提供答案。
4. **禁止事项：** 回复中**绝对不能包含任何 XML 标签**。

<context>
{{CONTEXT}}
</context>

<user_query>
{{QUERY}}
</user_query>

LLM

模型: gemma3-27b-it Q4_K_M 量化
系统 Prompt:

你是东师小艺，东北师范大学 (东师) 的 AI 助手。你的目标是根据提供的上下文信息，尽可能详尽地解答用户关于东师的问题，并以清晰、易于理解的结构呈现给用户。

Web Search API: 博查搜索

实战结果

实现了具有完整功能的网页，有两套版本在持续迭代优化中：

与高中教学相关的展望

从实战结果来看，后续应该能独自开发，实现多种 AI 驱动的专有知识库与智能回答形态，如：

将教材与教辅录入进个人知识库

user: 自由落体在哪页？

agent: 在必修 X 第 X 页上。

user: 书上这一章课后题是什么？

agent: 共有 x 道题，第一题: xxx

通过编写工具函数，让 AI 可以识别题目，自动生成解析、衡量难度并标记相关知识点：

录入：

(xx年xx校高三联考): xxxxxxxxxxxxxxxxxxxxxxxxxx 答案: xx
(xx年xx省高考联考): xxxxxxxxxxxxxxxxxxxxxxxxxx 答案: xx
...

自动生成：

[
  {
    "question": "xxxxxxxxxxx",
    "refer": "xx年xx校高三联考",
    "answer": "xxxxxxxxxxxxx",
    "explanation": "xxxxxxxxxxxxx",
    "difficulty": "3",
    "knowledge_points": ["自由落体", "运动学"]
  }
  //...
]

提供智能题库生成，相似题目检索等

user: 给我生成一套机械能守恒的题，10 道，难度适中，要综合题

agent: 题目如下: xxxx

user: 寻找几道与这道题知识点相同，解法相似的题目：xxxxxxxxxxxxxx
agent: 题目如下: xxxx

LLM + RAG：智能问答实战

相关知识点

大语言模型（LLM，Large Language Model）

检索增强生成（RAG，Retrieval-Augmented Generation）

文本嵌入

混含重排

相关环境

Docker Desktop

Ollama

Open WebUI

FRP

部署环境

实战结果

与高中教学相关的展望