docs(rag): add MemoryBear RAG implementation docs v1.0
Some checks failed
Sync to Gitee / sync (push) Has been cancelled

Submit the formed RAG documentation set produced across Sprint-1/2/3
(WS-12 through WS-26) under docs/rag/. Includes:

- README.md / INDEX.md: landing + total index (responsibility matrix,
  review verdicts, dual-link to source issues)
- overview/: full-pipeline architecture (4 .mmd diagrams),
  11-stage boundary contracts, doc map, source-code inventory
- pipeline/: 5 deep-dives (Loader/Parser/Chunking, Embedding,
  VDB & retrieval, GraphRAG, Rerank/Prompt/LLM)
- graphrag/, end-to-end/: v1.0 formal versions with full source
  retained as reference
- evolution/: 11 architecture-refactor proposals,
  6-direction roadmap, capability map
- review/: S3-T1 / S3-T2 final reviews, S2-T7 final summary
- _indexes/: glossary (81 terms), source->doc reverse index, chart index
- _release/: v1.0-RC1 release manifest, versioning convention,
  ops & freshness plan
- _meta/README.md: placeholder noting WS-12 governance assets gap

Aggregate review score 92.6/100 (8/8 PASS, 31/31 source-code spot
checks hit). The legacy docs/ ignore in .gitignore is narrowed to
docs/* with an explicit allowlist for docs/rag/.

Refs: WS-26
Co-authored-by: multica-agent <github@multica.ai>
This commit is contained in:
Multica PM Agent
2026-05-09 10:51:48 +08:00
parent feae2f2e1e
commit 343a5eebe3
33 changed files with 8410 additions and 1 deletions

View File

@@ -0,0 +1,47 @@
# MemoryBear RAG · 图表索引Chart Index
> 全集中所有 Mermaid 图表的集中清单。每张图标注:内容、来源、文件路径、阅读重点。
## 1. 总览
| # | 图表名 | 类型 | 来源任务 | 文件路径 | 一句话描述 |
|---|---|---|---|---|---|
| 1 | 全链路架构图 | Mermaid Flowchart | S1-T2 | `overview/01-architecture.mmd` | 11 个 RAG 环节 + 模块映射的全景图 |
| 2 | 文档入库时序图 | Mermaid Sequence | S1-T2 | `overview/02-indexing-pipeline.mmd` | 上传 → Celery → naive.chunk() → Embedding → ES 写入完整时序 |
| 3 | 在线检索时序图 | Mermaid Sequence | S1-T2 | `overview/03-query-pipeline.mmd` | Workflow 节点检索 → 4 种模式分支 → 去重/Rerank → Prompt → LLM |
| 4 | GraphRAG 索引时序图 | Mermaid Sequence | S1-T2 | `overview/04-graphrag-indexing.mmd` | light vs general 两条分支差异 |
| 5 | 模块依赖图 | Mermaid Graph TB | S1-T3 | `overview/source-inventory.md` §二 | 上层调用者 / RAG Core / 旁路 三层依赖 |
| 6 | Loader/Parser/Chunking 数据流图 | Mermaid Flowchart LR | S2-T1 | `pipeline/01-loader-parser-chunking.md` §3 | 多源 → 多格式 → Chunking → ES Doc |
| 7 | 后处理与生成流程图 | ASCII 流程 | S2-T5 | `pipeline/05-reranking-prompt-llm.md` §"实现概览" | Rerank → Prompt → LLM → 后处理 |
| 8 | 能力地图 | Mermaid三色 | S3-T2 | `evolution/capability-map.mmd` | 已有(绿)/ 近期可上(黄)/ 中长期愿景(紫) |
| 9 | 后续迭代路线图甘特图 | Mermaid Gantt | S3-T2 | `evolution/future-extensions-roadmap.md` §4 | Sprint-3 / 短期 / 中期 / 长期 时间线 |
| 10 | 项目甘特图(总) | Mermaid Gantt | WS-11 主控 | `_release/release-manifest-v1.0-RC1.md` §附录 | 14 子任务的整体计划 |
## 2. 速查:场景 → 应该看哪张图
| 场景 | 推荐图表 | 备注 |
|---|---|---|
| 给业务方 / 新人介绍 RAG 链路 | #1 全链路架构图 + #8 能力地图 | 两图配合即可"5 分钟讲清是什么" |
| 排查"文档为什么没入库" | #2 文档入库时序图 | 找到失败的具体阶段 |
| 排查"为什么搜不到这个 chunk" | #3 在线检索时序图 + #5 模块依赖图 | 时序图定位调用步骤;依赖图找上下游 |
| GraphRAG 调试 | #4 GraphRAG 索引时序图 | light/general 差异点 |
| 评估改造影响面 | #5 模块依赖图 + 本目录 `_indexes/file-index.md` | 看代码 → 文档涟漪 |
| 给架构会做演进汇报 | #8 能力地图 + #9 后续迭代甘特图 | 现状 + 路线 |
## 3. 图表渲染说明
- **Mermaid 文件 (`.mmd`)**:可直接在 GitHub / Mermaid Live Editor / VS Code Mermaid 插件中渲染。
- **代码块嵌入图**:直接在 Markdown 渲染器(如 MkDocs Material打开对应文档即可看到。
- **未来扩展(建议)**:在 v1.1 时为 `.mmd` 文件配套生成 SVG挂在 Wiki 上避免 GitHub 渲染限制(当前 GitHub Mermaid 节点上限 1500建议后续按需拆图
## 4. 待补图表v1.0 → v1.1 计划)
| # | 计划图表 | 来源 | 等待依赖 |
|---|---|---|---|
| TBD-1 | E2E 端到端时序图(含 GraphRAG 与 Memory 协同) | S2-T6待重启 | S2-T1~T5 全部完成 |
| TBD-2 | GraphRAG light vs general 的内部数据流图 | S2-T4待重启 | S2-T4 启动 |
| TBD-3 | "GraphRAG with evidence_path" 时序示意 | S3-T2 D3 落地 | D3 增量图演化第一阶段 |
| TBD-4 | Memory ↔ RAG 协同时序图 | S3-T2 D4 落地 | D4 PoC-B 实施后回填 |
| TBD-5 | 散点图:建议 # × 优先级 × 工作量 | S3-T1 + 评审反馈 | S3-T1 终审已完成;散点图作为可选优化 |
**Chart Index · v1.0-RC1 · 2026-05-08**