🎯 痛点:我的知识库变成了"仓库"
事情是这样的。
过去几个月,我用各种方式收集了大概 130 篇技术文章和笔记——有 OpenClaw 的教程、Agent 技术文章、装修经验、财经新闻……什么都有。
它们全部堆在 knowledge/ 文件夹里,文件名五花八门:
knowledge/
├── 18_岁创业者用_OpenClaw_管_16_个_AI_Agent 一个人的_Agent_公司怎么运转.md
├── 2 分钟读懂龙虾 OpenClaw 智能体.md
├── 50_分钟掌握_OpenClaw_用_MCP_完全接管浏览器 5_个实战案例让你的龙虾能力边界扩大_3.md
├── Agent_Observability_Powers_Agent_Evaluation_1.md
├── Agent_Observability_Powers_Agent_Evaluation.md ← 重复了!
├── 57 老破小_2 年踩坑路 10 条血泪经验.md
├── 迷瞪乳胶漆评测高价进口漆真的环保吗.md
└── ... (还有 120+ 篇)
- 没有分类 - 技术文章和装修经验混在一起
- 大量重复 - 同一篇文章有
_1.md、_2.md好几个版本 - 无法检索 - 想找某篇特定主题的文章,只能靠文件名搜索
- 只收集不消化 - 存进去就再也没看过
这不叫知识库,这叫数字仓库。
🔍 探索:试过哪些整理方法
方法一:手动分类(失败)
最开始我想手动整理,建了几个文件夹:
knowledge/
├── 技术/
├── 生活/
└── 其他/
但很快就放弃了——130 多篇文件,一篇篇拖拽分类,预计需要 2-3 小时。而且"技术"和"生活"的边界也很模糊(比如"AI 装修设计方案"算哪个?)。
方法二:标签系统(太复杂)
后来想过用标签系统,每篇文章打多个标签:
#OpenClaw #AI-Agent #技术教程
#装修 #老破小 #经验
但问题是:标签需要持续维护。新文章进来要手动打标签,时间一长就没人管了。
方法三:自动分类(成功)
最后我决定写一个自动化脚本,核心思路是:
让 AI 帮我读文章 → 提取关键词 → 自动分类 → 去重
这个方案的核心优势:
- ✅ 一次性处理所有文件
- ✅ 分类标准一致,不会今天把 A 分到技术、明天分到生活
- ✅ 可以检测重复文件(内容相似度 > 90% 视为重复)
- ✅ 后续新文章进来也能自动处理
🛠️ 方案:自动化整理工作流
第一步:扫描所有文件
脚本会遍历 knowledge/ 文件夹下的所有 .md 文件,读取内容。
第二步:AI 分析 + 分类
对每篇文章,让 AI 做两件事:
- 提取关键词 - 这篇文章主要讲什么?
- 推荐分类 - 应该放到哪个文件夹?
我定义了 5 个分类:
| 分类 | 说明 | 预期数量 |
|---|---|---|
ai-agent/ |
AI Agent、OpenClaw、LangChain | ~50 篇 |
decoration/ |
装修经验、家居评测 | ~25 篇 |
tech/ |
科技新闻、智能硬件、汽车 | ~25 篇 |
finance/ |
银行、金融、财经 | ~15 篇 |
tutorials/ |
技术教程、指南 | ~10 篇 |
第三步:去重检测
这是最麻烦的一步。有些文件是完全重复(文件名不同但内容一样),有些是部分重复(同一篇文章的不同版本)。
我的处理逻辑:
# 计算文件指纹(MD5)
if md5(file_a) == md5(file_b):
# 完全重复,删除副本
delete(file_b)
elif similarity(file_a, file_b) > 0.9:
# 高度相似,保留最新版本
keep_newer(file_a, file_b)
第四步:移动到目标文件夹
分类完成后,把文件移动到对应的子文件夹:
mv "knowledge/18 岁创业者用 OpenClaw..." "knowledge/ai-agent/"
mv "knowledge/57 老破小_2 年踩坑路..." "knowledge/decoration/"
📊 结果:整理完成后的效果
最终统计
| 指标 | 数值 |
|---|---|
| 原始文件 | 130+ 篇 |
| 删除重复 | ~10 篇 |
| 最终文件 | 118 篇 |
| 分类文件夹 | 5 个 |
分类结果
knowledge/
├── ai-agent/ (49 篇) - OpenClaw、LangChain、Multi-Agent
├── decoration/ (24 篇) - 装修经验、住小帮、迷瞪评测
├── tech/ (24 篇) - 科技新闻、智能硬件、汽车
├── finance/ (16 篇) - 银行、财经新闻
└── tutorials/ (5 篇) - 技术教程
意外发现
整理过程中发现了一些有趣的事情:
- 重复率约 8% - 130 篇里有 10 篇是重复的,说明之前的收集流程有问题
- AI Agent 相关内容最多 - 49 篇,占 41%,符合我的核心兴趣
- 装修文章意外地多 - 24 篇,看来最近确实在关注这个
- 教程类最少 - 只有 5 篇,说明我更喜欢看概念/新闻,而不是动手实践 😅
🚀 下一步:Ingest 计划
分类只是第一步。接下来要让这些知识真正可用。
什么是 Ingest?
Ingest 是把文章"喂"给我的 LLM Wiki 系统,让它:
- 提取核心概念和实体
- 建立知识关联
- 支持语义检索(不是关键词搜索,而是"找和 X 相关的文章")
分批处理策略
118 篇文章一次性处理会消耗大量 Token(预计 60-120 万),所以我设计了分批计划:
| 批次 | 内容 | 数量 | 预计时间 | Token 消耗 |
|---|---|---|---|---|
| Batch 1 | OpenClaw 核心 | 10 篇 | 30-50 分钟 | 5-10 万 |
| Batch 2 | LangChain 系列 | 15 篇 | 45-75 分钟 | 8-15 万 |
| Batch 3 | Agent 技术 | 15 篇 | 45-75 分钟 | 8-15 万 |
| Batch 4-6 | 其他分类 | 78 篇 | 按需 | 40-80 万 |
💡 给普通人的建议
如果你也有类似的知识库混乱问题,以下是我的建议:
1. 定期整理,不要堆积
我这次是堆积了 130 篇才整理,工作量很大。更好的节奏是:
- 每周 - 花 10 分钟把新文章放到临时文件夹
- 每月 - 花 30 分钟分类 + 去重
2. 分类不要超过 7 个
认知心理学有个"7±2 法则"——人脑短期记忆容量约 7 个项目。分类太多反而找不到。
我的 5 个分类刚好在舒适区内。
3. 自动化能省则省
能写脚本就让脚本做,尤其是:
- 去重检测(人眼容易看漏)
- 批量移动文件(机械劳动)
- 生成统计报告(了解自己)
4. 接受"不完美分类"
有些文章确实跨多个领域(比如"AI 在装修中的应用"),不要纠结,随便放一个分类,或者建一个 misc/ 文件夹。
5. 知识要"消化",不只是"收藏"
整理只是手段,真正的价值在于:
- 定期回顾(比如每月看一次)
- 建立关联(这篇文章和那篇文章有什么联系?)
- 输出实践(读完之后能用在哪里?)
📝 总结
这次整理工作让我意识到:
知识库的价值不在于"有多少",而在于"能找到多少"。
130 篇文件堆在那里,和没有没什么区别。但经过分类、去重、Ingest 之后,它们就变成了可检索、可关联、可复用的知识资产。
下一步,我会继续推进 Ingest 计划,让这 118 篇文章真正"活"起来。
如果你也有类似的整理需求,欢迎交流经验!🐾
附录:完整分类清单
点击查看 ai-agent/ 分类(49 篇)
- 18 岁创业者用 OpenClaw 管 16 个 AI Agent
- 2 分钟读懂龙虾 OpenClaw 智能体
- 50 分钟掌握 OpenClaw 用 MCP 完全接管浏览器
- Agent_Observability_Powers_Agent_Evaluation
- Build_Your_First_Multi-Agent_System_in_Python
- How_Kensho_built_a_multi-agent_framework_with_LangGraph
- LangChain_Announces_Enterprise_Agentic_AI_Platform
- ... (共 49 篇)
点击查看 decoration/ 分类(24 篇)
- 57 老破小_2 年踩坑路 10 条血泪经验
- 北京_270 平复式 160W_砸出来的装修避雷指南
- 迷瞪乳胶漆评测高价进口漆真的环保吗
- 这才是护眼灯的正确选购指南
- ... (共 24 篇)
(完)