通过关键词追踪、三层过滤、24 小时自动化处理,让 AI 持续从互联网获取新鲜知识
---
你有没有过这种经历:
花了一下午研究某个技术,终于搞懂了。结果朋友告诉你:"这个方案早就过时了,现在流行的是 XXX..."
或者:
看到一个很棒的教程,心想"早看到这个就好了,能少走很多弯路"。
问题出在哪?
我们的学习是被动的、滞后的、依赖偶然的。
如果有一个系统,能 24 小时帮你:
你会不会多出很多时间,少踩很多坑?
这篇文章聊聊 OpenClaw 的被动学习模式——让 AI 从互联网自动获取知识,形成"主动 + 被动"的双向输入闭环。
---
用户:我想搭建一个自动化系统,但不知道用什么方案...AI:您了解过 n8n、Zapier、Make 这些工具吗?
用户:没有,我只知道 Python 脚本...
AI:这些工具可以可视化配置工作流,可能更适合您的需求...
用户:还有这种东西?!
问题: 用户不知道有哪些解决方案,只能在自己已知的范围内选择。
用户:我想学 AI 工作流,B 站一搜 1000 个视频...AI:确实很多,您看过哪些?
用户:看了几个,但不知道哪个质量好...
AI:这个 UP 主的系列不错,还有这个教程...
用户:(花了几小时筛选,还是不确定)
问题: 内容太多,缺乏有效的质量筛选机制。
用户:这个教程太棒了!怎么现在才发现...AI:这个 UP 主上周刚发的,粉丝才 1000,但内容质量很高。
用户:算法从来没给我推过...
AI:因为不是热门内容,但技术价值很高。
问题: 算法推荐基于热度,而非质量,很多优质新内容被埋没。
---
主动模式: 人有 Idea → AI 帮助实现 被动模式: 互联网找 Idea → AI 提取方案 → 帮助实现
双向输入闭环:
┌─────────────────────────────────────────────────────────────┐ │ 双向输入闭环 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ ┌──────────────┐ ┌──────────────┐ │ │ │ 主动模式 │ │ 被动模式 │ │ │ │ 人有 Idea │ │ 互联网找 Idea │ │ │ └──────────────┘ └──────────────┘ │ │ ↓ ↓ │ │ ┌─────────────────────────────────────────────────┐ │ │ │ 中间层处理(最优模型 + 本地拆解) │ │ │ │ 最优模型生成框架 → 龙虾本地化 → 人机确认 → 执行 │ │ │ └─────────────────────────────────────────────────┘ │ │ ↓ │ │ ┌─────────────────────────────────────────────────┐ │ │ │ 产出:Skills │ │ │ └─────────────────────────────────────────────────┘ │ │ ↓ │ │ ┌─────────────────────────────────────────────────┐ │ │ │ Skills 反哺主动/被动模式 │ │ │ └─────────────────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────────────────┘
| 价值 | 说明 |
|---|
| 突破认知局限 | 发现用户不知道的优秀方案 |
|---|
| 持续学习 | 24 小时不间断监控和获取 |
|---|
| 质量筛选 | 三层过滤机制,确保内容质量 |
|---|
| 知识沉淀 | 所有内容结构化存储,可检索可复用 |
|---|
追踪关键词列表:
技术类: ├── "AI 工作流" ├── "自动化" ├── "RAG" ├── "Agent" ├── "大模型应用" └── "技能开发"工具类: ├── "OpenClaw" ├── "龙虾" ├── "AI 工具" └── "效率工具"
方法论类: ├── "思维框架" ├── "工作流设计" └── "知识管理"
抓取逻辑:
好处:
┌─────────────────────────────────────────────────────────────┐ │ UP 主发现流程 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 1. 抓取视频时记录 UP 主信息 │ │ - UP 主名称、ID │ │ - 粉丝数、总播放量 │ │ - 视频发布时间 │ │ │ │ 2. 内容质量评分 │ │ - 视频 1: 85 分 → UP 主 +1 分 │ │ - 视频 2: 60 分 → UP 主 +0.5 分 │ │ - 视频 3: 30 分 → UP 主 不加分 │ │ │ │ 3. UP 主信誉积累 │ │ - 累计 3 个高分视频 → 加入"潜力 UP"列表 │ │ - 累计 5 个高分视频 → 加入"优质 UP"白名单 │ │ - 连续 3 个低分 → 降低优先级 │ │ │ │ 4. 动态推荐 │ │ - 每周输出"新发现优质 UP 主"列表 │ │ - 展示代表作和平均分 │ │ │ └─────────────────────────────────────────────────────────────┘
案例:
【新发现优质 UP 主】- 2026-03-28
---
┌─────────────────────────────────────────────────────────────┐ │ 自动化过滤流程 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 输入:B 站/网站 原始内容 │ │ ↓ │ │ ┌──────────────────────────────────────────────────────┐ │ │ │ Layer 1: 浅层过滤(规则引擎,<1 秒/条) │ │ │ │ - 标题关键词匹配(技术相关) │ │ │ │ - 时长过滤(3-60 分钟) │ │ │ │ - 发布时间(<30 天) │ │ │ │ - 播放量 > 1000(排除无人问津) │ │ │ │ - 点赞/播放比 > 2% │ │ │ │ │ │ │ │ 通过率:约 30% │ │ │ └──────────────────────────────────────────────────────┘ │ │ ↓ │ │ ┌──────────────────────────────────────────────────────┐ │ │ │ Layer 2: 内容质量评分(模型,~5 秒/条) │ │ │ │ - 抓取字幕/正文 │ │ │ │ - 用 Qwen-7B 评分(0-100) │ │ │ │ · 是否有清晰步骤/框架? │ │ │ │ · 是否有可复用的技术方案? │ │ │ │ · 是否有案例/示例? │ │ │ │ · 信息密度是否足够? │ │ │ │ │ │ │ │ 评分 > 70 → 通过 │ │ │ │ 评分 50-70 → 存档(可检索) │ │ │ │ 评分 < 50 → 丢弃 │ │ │ │ │ │ │ │ 通过率:约 40%(占 Layer 1 的 40%) │ │ │ └──────────────────────────────────────────────────────┘ │ │ ↓ │ │ ┌──────────────────────────────────────────────────────┐ │ │ │ Layer 3: 可执行性预评估(规则 + 模型,~3 秒/条) │ │ │ │ - 是否需要特殊权限/资源? │ │ │ │ - 是否涉及付费 API? │ │ │ │ - 技术可行性评分 │ │ │ │ - 预估执行成本(时间、算力) │ │ │ │ │ │ │ │ 可执行 → 进入处理队列 │ │ │ │ 需确认 → 放入待审核(每周汇总一次) │ │ │ │ 不可行 → 存档 │ │ │ │ │ │ │ │ 通过率:约 60%(占 Layer 2 的 60%) │ │ │ └──────────────────────────────────────────────────────┘ │ │ ↓ │ │ 输出:可执行内容列表(约占总量的 7%) │ │ │ │ 假设每天抓取 500 条视频 → 最终约 35 条进入处理 │ │ │ └─────────────────────────────────────────────────────────────┘
过滤规则:
{
"title_keywords": ["AI", "自动化", "工作流", "教程", "实战"],
"duration_range": {"min": 180, "max": 3600},
"publish_within_days": 30,
"min_views": 1000,
"min_like_ratio": 0.02
}
示例:
视频 1: 《AI 工作流设计实战》
视频 2: 《我的日常 Vlog》
视频 3: 《AI 教程》(时长 2 分钟)
评分维度:
| 维度 | 权重 | 评分标准 |
|---|
| 清晰度 | 30% | 是否有清晰的步骤/框架? |
|---|
| 可复用性 | 30% | 是否有可复用的技术方案? |
|---|
| 案例 | 20% | 是否有案例/示例? |
|---|
| 信息密度 | 20% | 是否干货满满,而非注水? |
|---|
请对以下视频字幕内容进行质量评分(0-100):评分维度:
内容: {字幕内容}
请输出:
评分示例:
视频:《AI 工作流设计实战》评分结果:
评语:实战性强,适合入门
→ 通过 Layer 2(>70 分)
评估维度:
| 维度 | 检查项 | 处理 |
|---|
| 权限 | 是否需要特殊权限? | 需要 → 标记"需确认" |
|---|
| 资源 | 是否需要付费 API/资源? | 需要 → 标记"需确认" |
|---|
| 技术 | 技术是否可行? | 不可行 → 存档 |
|---|
| 成本 | 执行成本是否合理? | 过高 → 标记"需确认" |
|---|
内容 1: 《用 Python 搭建自动化系统》
内容 2: 《用企业级 API 搭建系统》
内容 3: 《用量子计算机优化工作流》
---
┌─────────────────────────────────────────────────────────────┐ │ 24 小时自动化处理流程 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 抓取阶段(每小时) │ │ ──────────────── │ │ 00:00, 01:00, ... 23:00 │ │ - 抓取 B 站关键词最新视频(每批次 50 条) │ │ - 抓取 RSS 订阅网站最新文章(每批次 20 条) │ │ - 通过 Layer 1 过滤 │ │ │ │ 评分阶段(持续运行) │ │ ──────────── │ │ - Layer 2 质量评分(队列处理) │ │ - Layer 3 可执行性评估 │ │ - 通过的内容 → 进入处理队列 │ │ │ │ 处理阶段(24 小时满载) │ │ ──────────── │ │ - 视频→音频(whisper) │ │ - 音频→文字(whisper) │ │ - 文字→结构化 Markdown │ │ - 提取技术方案/框架 │ │ - 保存到 knowledge/ 目录 │ │ │ │ 汇总阶段(每日 17:00) │ │ ──────────── │ │ - 统计今日处理数量 │ │ - 生成"新发现优质 UP 主"列表 │ │ - 生成"待确认内容"列表(如有) │ │ - 发送日报给用户 │ │ │ └─────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────┐ │ 被动模式技术架构 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 抓取层 │ │ ─────── │ │ - bilibili_api(B 站抓取) │ │ - feedparser(RSS 解析) │ │ - newspaper3k(文章提取) │ │ │ │ 过滤层 │ │ ─────── │ │ - 规则引擎(Layer 1) │ │ - Qwen-7B 评分模型(Layer 2) │ │ - 可执行性评估器(Layer 3) │ │ │ │ 处理层 │ │ ─────── │ │ - whisper(音频转文字) │ │ - Qwen-7B(内容结构化) │ │ - 自定义脚本(Markdown 生成) │ │ │ │ 存储层 │ │ ─────── │ │ - knowledge/(结构化文章) │ │ - up_database.json(UP 主信誉库) │ │ - processing_log.json(处理日志) │ │ │ │ 调度层 │ │ ─────── │ │ - cron(定时任务) │ │ - queue(任务队列) │ │ - monitor(监控和告警) │ │ │ └─────────────────────────────────────────────────────────────┘
---
knowledge/
├── 2026/
│ ├── 03-march/
│ │ ├── 28/
│ │ │ ├── ai-workflow-design.md
│ │ │ ├── openclaw-skill-dev.md
│ │ │ └── rag-system-pitfalls.md
│ │ └── 27/
│ └── 04-april/
├── topics/
│ ├── ai-workflow/
│ │ ├── index.md
│ │ ├── 2026-03-28-ai-workflow-design.md → ../../2026/03-march/28/ai-workflow-design.md
│ │ └── related-skills.md
│ ├── rag/
│ └── agent/
└── meta/
├── index.json
├── up_database.json
└── processing_log.json
说明:
knowledge/2026/...:按时间存储原始文件knowledge/topics/...:按主题组织(软链接/索引)knowledge/meta/...:元数据和索引# AI 工作流设计方法论来源: B 站视频《AI 工作流设计实战》
UP 主: AI 实践者张三
原始链接: https://b23.tv/xxxxx
处理时间: 2026-03-28 14:30
质量评分: 85/100
---
AI 工作流设计应遵循"先框架后细节"原则
人在环路是关键,避免完全自动化
成果应沉淀为可复用的 Skills ---
适用场景: 快速原型,无需编程
步骤:
安装 n8n(Docker 或本地)
配置触发器(定时/Webhook)
添加处理节点(HTTP/代码/数据库)
测试并部署 优点: 可视化配置,快速上手
缺点: 复杂逻辑支持有限
适用场景: 复杂逻辑,高度定制
步骤:
定义任务类(Task)
实现执行器(Executor)
配置编排器(Orchestrator)
添加监控和日志 优点: 灵活性高,可扩展
缺点: 开发成本较高
---
[ ] n8n 工作流模板
[ ] Python 任务执行器
[ ] 监控和告警模块 ---
视频链接:https://b23.tv/xxxxx
代码仓库:https://github.com/xxx
文档:https://docs.xxx
---
📊 被动模式日报 - 2026-03-28 17:00【今日概览】
【新发现优质 UP 主】
【今日精选】
【待确认】(2 条)
【系统状态】
---
【被动模式抓取】
【内容处理】
【Skills 沉淀】
【用户价值】
【被动模式抓取】
【内容处理】
【用户反馈】 用户:我从来不知道 n8n 这种东西... AI:是的,这是一个可视化工作流工具,适合快速原型 用户:那我现在这个 Python 脚本还要写吗? AI:可以用 n8n 快速验证想法,确认有价值后再用 Python 实现
【结果】
---
---
被动学习模式的核心价值:
| 价值 | 说明 |
|---|
| 突破认知 | 发现用户不知道的优秀方案 |
|---|
| 持续学习 | 24 小时不间断监控和获取 |
|---|
| 质量筛选 | 三层过滤,确保内容质量 |
|---|
| 知识沉淀 | 结构化存储,可检索可复用 |
|---|
构建一个可持续进化的 AI 助手系统,主动(人有 Idea)+ 被动(互联网找 Idea)形成双向输入闭环,持续引入外部优秀解决方案。
---
下一篇预告: 《OpenClaw 架构设计:8 周实施计划》
完整实施路线图,包含每周任务、交付物、风险评估。
---
本文基于 OpenClaw 架构设计研究报告第 6 章改写
完整报告:docs/openclaw-architecture-research-report.md