
资料内容:
八、优化建议与最佳实践
8.1 切分质量优化
1. 参数调优:不同类型文档使用不同的 chunk_size,技术文档建议 512~768,叙
事性文档建议 768~1024
2. 重叠区间:overlap 设为 chunk_size 的 15% 左右,既保证连续性又不过度冗余
3. 标题前缀注入:每个 chunk 前加上所属章节标题,大幅提升检索相关性
4. 表格特殊处理:表格内容转为自然语言描述或保持结构化 Markdown 格式
8.2 Embedding 优化
1. 指令前缀:BGE 系列模型在 query 端加前缀可提升 3~5% 检索精度
2. 混合检索:向量检索 + BM25 关键词检索融合,覆盖语义 + 精确两种匹配
3. 定期更新模型:关注 MTEB 榜单,适时切换更优模型
4. 缓存热点 Query:对高频 query 的 embedding 结果做 Redis 缓存
8.3 存储与检索优化
1. 索引选择:百万级用 IVF_PQ,千万级考虑 HNSW(内存充足时)或 DiskANN
2. 分区策略:按 kb_id 做 Partition,缩小检索范围
3. Rerank 必加:Cross-Encoder 重排序可提升 10~20% 的检索精度
4. 上下文扩展窗口:命中 chunk 前后各取 1~2 个相邻 chunk,提供更完整的上下文