【LLM实战】LangChain知识库构建与Lora微调ChatGLM2-6B：从数据准备到智能问答

菲律宾梁朝伟

1. LangChain知识库构建全流程解析

构建企业级知识库是让大模型落地业务场景的关键一步。我去年帮一家医疗企业搭建内部知识管理系统时，深刻体会到LangChain在这方面的优势。下面分享从零开始的完整操作指南：

首先需要理解知识库的核心架构。LangChain通过向量数据库实现文档的语义化存储，简单说就是把专业文档变成AI能理解的"数学向量"。我常用ChromaDB作为存储后端，它对中文支持友好且内存占用低。安装只需一行命令：

bash复制pip install chromadb

文档处理环节有几点需要注意：

PDF文件建议先用PyPDF2提取原始文本，避免格式混乱
Excel表格需要按sheet处理，保持数据结构
Word文档注意处理页眉页脚等非正文内容

实测中发现，分段策略直接影响检索效果。我的经验法则是：

技术文档按章节拆分，每段300-500字
合同类文件按条款拆分
知识库文章保持完整段落

配置示例代码：

python复制from langchain.document_loaders import DirectoryLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

loader = DirectoryLoader('./docs', glob="**/*.pdf")
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=300,
    chunk_overlap=50
)
docs = loader.load_and_split(text_splitter)

2. ChatGLM2-6B模型Lora微调实战

微调是将通用大模型变成领域专家的魔法钥匙。相比全参数微调，Lora方法能在消费级显卡上实现效果显著的定制化。最近在3090显卡上实测，24GB显存完全够用。

准备训练数据时要注意：

指令数据至少500条才能保证基础效果
正负样本比例建议3:1
复杂场景需要设计思维链(CoT)样本

关键参数配置示例（train.sh）：

bash复制PRE_SEQ_LEN=256
LR=3e-5
NUM_GPUS=1

python finetune.py \
    --train_file data/train.json \
    --validation_file data/dev.json \
    --model_name_or_path THUDM/chatglm2-6b \
    --output_dir output/lora-chatglm2 \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 8 \
    --learning_rate $LR \
    --num_train_epochs 3 \
    --lora_rank 32 \
    --save_steps 500

训练过程常见问题排查：

损失值波动大：调小学习率(1e-5到5e-5)
显存不足：启用4bit量化(--quantization_bit 4)
过拟合：增加dropout_rate(0.3左右)

3. 知识库与微调模型集成方案

知识库和微调模型的协同工作是个系统工程。在电商客服项目中，我们采用以下架构：

用户提问先进入向量检索模块
检索结果作为上下文注入Prompt
微调模型处理语义理解和答案生成

关键集成代码片段：

python复制from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

template = """基于以下上下文回答问题：
{context}

问题：{question}
"""
prompt = PromptTemplate(
    template=template,
    input_variables=["context", "question"]
)

qa_chain = RetrievalQA.from_chain_type(
    llm=finetuned_model,
    chain_type="stuff",
    retriever=vector_db.as_retriever(),
    prompt=prompt
)

性能优化技巧：

检索top_k建议设为3-5
启用FAISS索引加速向量查询
对长文档做摘要预处理

4. Prompt工程优化方法论

好的Prompt就像给AI的清晰工作说明书。经过多个项目验证，我总结出以下最佳实践：

结构化Prompt设计框架：

code复制[角色定义]
你是一个专业的{领域}助手，具备{特定知识}

[任务说明]
需要完成{具体任务}，特别注意{关键点}

[输出要求]
1. 格式：{示例格式}
2. 长度：{字数限制}
3. 风格：{语言风格}

实际案例对比：

弱Prompt："回答客户问题"
强Prompt："你是有3年经验的手机客服，用亲切口语回答用户问题。先确认问题类型，如果是维修需询问设备型号，回答不超过100字"

进阶技巧：

思维链提示："请分三步解答：首先...然后...最后..."
示例引导："类似这样回答：..."
条件约束："必须包含以下要素：..."

典型优化过程记录：

markdown复制原始提问：产品有什么特点
V1：列出该产品的三个主要优势
V2：从性能、价格、服务三个维度，各用1句话说明产品优势
V3：参照示例格式：1) 性能方面...；2) 价格方面...；3) 服务方面...

在智能硬件知识库项目中，经过Prompt优化后，回答准确率从62%提升到89%。关键是要持续迭代测试，记录不同版本的效果差异。

已经到底了哦

精选内容

1 从论文到代码：我是如何通过两篇学术论文彻底搞懂GRBL速度前瞻算法的 2 Vector CAPL诊断模块：回调函数的实战应用与场景解析 3 手把手教你用Youtube API Key搭建个人视频库（Android/Java实战，含每日配额优化技巧）4 VXLAN集中式网关配置保姆级教程：从Bridge-domain到Vbdif接口一步步详解 5 PyCharm Conda路径识别失败：从环境变量到解释器配置的完整排错指南 6 不只是画图：用 Cadence Virtuoso 版图设计理解 CMOS 与非门的物理实现 7 从PTA链表重排到实战：双指针与数组映射的解题艺术 8 别再只会用if-else了！C/C++中switch-case的5个高级用法与实战避坑指南 9 自己画LAN8720板子，LWIP死活初始化失败？别急，先检查这4个电容！10 避坑指南：海思3516a OSD水印字体倾斜、显示不全？可能是这两个参数没设对

【LLM实战】LangChain知识库构建与Lora微调ChatGLM2-6B：从数据准备到智能问答

1. LangChain知识库构建全流程解析

2. ChatGLM2-6B模型Lora微调实战

3. 知识库与微调模型集成方案

4. Prompt工程优化方法论

内容推荐