被动学习模式：让 AI 从互联网自动获取知识

通过关键词追踪、三层过滤、24 小时自动化处理，让 AI 持续从互联网获取新鲜知识

---

你有没有过这种经历：

花了一下午研究某个技术，终于搞懂了。结果朋友告诉你："这个方案早就过时了，现在流行的是 XXX..."

或者：

看到一个很棒的教程，心想"早看到这个就好了，能少走很多弯路"。

问题出在哪？

我们的学习是被动的、滞后的、依赖偶然的。

如果有一个系统，能 24 小时帮你：

监控互联网上的新鲜内容

自动筛选高质量信息

提取可复用的技术方案

整理成结构化知识

你会不会多出很多时间，少踩很多坑？

这篇文章聊聊 OpenClaw 的被动学习模式——让 AI 从互联网自动获取知识，形成"主动 + 被动"的双向输入闭环。

---

用户：我想搭建一个自动化系统，但不知道用什么方案...

AI：您了解过 n8n、Zapier、Make 这些工具吗？

用户：没有，我只知道 Python 脚本...

AI：这些工具可以可视化配置工作流，可能更适合您的需求...

用户：还有这种东西？！

问题： 用户不知道有哪些解决方案，只能在自己已知的范围内选择。

用户：我想学 AI 工作流，B 站一搜 1000 个视频...

AI：确实很多，您看过哪些？

用户：看了几个，但不知道哪个质量好...

AI：这个 UP 主的系列不错，还有这个教程...

用户：（花了几小时筛选，还是不确定）

问题： 内容太多，缺乏有效的质量筛选机制。

用户：这个教程太棒了！怎么现在才发现...

AI：这个 UP 主上周刚发的，粉丝才 1000，但内容质量很高。

用户：算法从来没给我推过...

AI：因为不是热门内容，但技术价值很高。

问题： 算法推荐基于热度，而非质量，很多优质新内容被埋没。

---

主动模式： 人有 Idea → AI 帮助实现 被动模式： 互联网找 Idea → AI 提取方案 → 帮助实现

双向输入闭环：

┌─────────────────────────────────────────────────────────────┐
│                  双向输入闭环                                │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│     ┌──────────────┐              ┌──────────────┐         │
│     │  主动模式     │              │  被动模式     │         │
│     │  人有 Idea    │              │  互联网找 Idea │         │
│     └──────────────┘              └──────────────┘         │
│              ↓                            ↓                 │
│     ┌─────────────────────────────────────────────────┐    │
│     │         中间层处理（最优模型 + 本地拆解）         │    │
│     │   最优模型生成框架 → 龙虾本地化 → 人机确认 → 执行 │    │
│     └─────────────────────────────────────────────────┘    │
│                              ↓                              │
│     ┌─────────────────────────────────────────────────┐    │
│     │              产出：Skills                        │    │
│     └─────────────────────────────────────────────────┘    │
│                              ↓                              │
│     ┌─────────────────────────────────────────────────┐    │
│     │         Skills 反哺主动/被动模式                 │    │
│     └─────────────────────────────────────────────────┘    │
│                                                             │
└─────────────────────────────────────────────────────────────┘

价值	说明

|------|------|

突破认知局限	发现用户不知道的优秀方案

持续学习	24 小时不间断监控和获取

质量筛选	三层过滤机制，确保内容质量

知识沉淀	所有内容结构化存储，可检索可复用

---

追踪关键词列表：

技术类： ├── "AI 工作流" ├── "自动化" ├── "RAG" ├── "Agent" ├── "大模型应用" └── "技能开发"

工具类： ├── "OpenClaw" ├── "龙虾" ├── "AI 工具" └── "效率工具"

方法论类： ├── "思维框架" ├── "工作流设计" └── "知识管理"

抓取逻辑：

B 站搜索这些关键词 → 抓取最新视频

按发布时间排序（优先 7 天内）

不限制 UP 主，只看内容

好处：

✅ 不依赖已知 UP 主

✅ 自动发现新创作者

✅ 基于内容质量而非粉丝数

┌─────────────────────────────────────────────────────────────┐
│              UP 主发现流程                                  │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  1. 抓取视频时记录 UP 主信息                                │
│     - UP 主名称、ID                                         │
│     - 粉丝数、总播放量                                      │
│     - 视频发布时间                                          │
│                                                             │
│  2. 内容质量评分                                            │
│     - 视频 1: 85 分 → UP 主 +1 分                           │
│     - 视频 2: 60 分 → UP 主 +0.5 分                         │
│     - 视频 3: 30 分 → UP 主 不加分                          │
│                                                             │
│  3. UP 主信誉积累                                           │
│     - 累计 3 个高分视频 → 加入"潜力 UP"列表                │
│     - 累计 5 个高分视频 → 加入"优质 UP"白名单              │
│     - 连续 3 个低分 → 降低优先级                            │
│                                                             │
│  4. 动态推荐                                                │
│     - 每周输出"新发现优质 UP 主"列表                        │
│     - 展示代表作和平均分                                    │
│                                                             │
└─────────────────────────────────────────────────────────────┘

案例：

【新发现优质 UP 主】- 2026-03-28

"AI 实践者张三"（新号，3 个高分视频，平均分 88）

代表作：《用 Agent 搭建自动化工作流》粉丝：1200 | 总播放：5 万

"技术思考李四"（粉丝 2 万，首次发现，平均分 82）

代表作：《RAG 系统的 10 个坑》粉丝：2 万 | 总播放：15 万

---

┌─────────────────────────────────────────────────────────────┐
│              自动化过滤流程                                  │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  输入：B 站/网站 原始内容                                   │
│                    ↓                                        │
│  ┌──────────────────────────────────────────────────────┐  │
│  │ Layer 1: 浅层过滤（规则引擎，<1 秒/条）               │  │
│  │ - 标题关键词匹配（技术相关）                          │  │
│  │ - 时长过滤（3-60 分钟）                               │  │
│  │ - 发布时间（<30 天）                                  │  │
│  │ - 播放量 > 1000（排除无人问津）                       │  │
│  │ - 点赞/播放比 > 2%                                    │  │
│  │                                                       │  │
│  │ 通过率：约 30%                                        │  │
│  └──────────────────────────────────────────────────────┘  │
│                    ↓                                        │
│  ┌──────────────────────────────────────────────────────┐  │
│  │ Layer 2: 内容质量评分（模型，~5 秒/条）               │  │
│  │ - 抓取字幕/正文                                       │  │
│  │ - 用 Qwen-7B 评分（0-100）                            │  │
│  │   · 是否有清晰步骤/框架？                             │  │
│  │   · 是否有可复用的技术方案？                          │  │
│  │   · 是否有案例/示例？                                 │  │
│  │   · 信息密度是否足够？                                │  │
│  │                                                       │  │
│  │ 评分 > 70 → 通过                                      │  │
│  │ 评分 50-70 → 存档（可检索）                          │  │
│  │ 评分 < 50 → 丢弃                                      │  │
│  │                                                       │  │
│  │ 通过率：约 40%（占 Layer 1 的 40%）                   │  │
│  └──────────────────────────────────────────────────────┘  │
│                    ↓                                        │
│  ┌──────────────────────────────────────────────────────┐  │
│  │ Layer 3: 可执行性预评估（规则 + 模型，~3 秒/条）      │  │
│  │ - 是否需要特殊权限/资源？                             │  │
│  │ - 是否涉及付费 API？                                  │  │
│  │ - 技术可行性评分                                      │  │
│  │ - 预估执行成本（时间、算力）                          │  │
│  │                                                       │  │
│  │ 可执行 → 进入处理队列                                 │  │
│  │ 需确认 → 放入待审核（每周汇总一次）                   │  │
│  │ 不可行 → 存档                                         │  │
│  │                                                       │  │
│  │ 通过率：约 60%（占 Layer 2 的 60%）                   │  │
│  └──────────────────────────────────────────────────────┘  │
│                    ↓                                        │
│  输出：可执行内容列表（约占总量的 7%）                      │
│                                                             │
│  假设每天抓取 500 条视频 → 最终约 35 条进入处理             │
│                                                             │
└─────────────────────────────────────────────────────────────┘

过滤规则：

{
  "title_keywords": ["AI", "自动化", "工作流", "教程", "实战"],
  "duration_range": {"min": 180, "max": 3600},
  "publish_within_days": 30,
  "min_views": 1000,
  "min_like_ratio": 0.02
}

示例：

视频 1: 《AI 工作流设计实战》

时长：15 分钟 ✓

播放：2 万 ✓

点赞：1200 (6%) ✓

发布：3 天前 ✓

→ 通过 Layer 1

视频 2: 《我的日常 Vlog》

标题无关键词 ✗

→ Layer 1 过滤

视频 3: 《AI 教程》（时长 2 分钟）

时长太短 ✗

→ Layer 1 过滤

评分维度：

维度	权重	评分标准

|------|------|---------|

清晰度	30%	是否有清晰的步骤/框架？

可复用性	30%	是否有可复用的技术方案？

案例	20%	是否有案例/示例？

信息密度	20%	是否干货满满，而非注水？

评分提示词：

请对以下视频字幕内容进行质量评分（0-100）：

评分维度：

清晰度（30 分）：是否有清晰的步骤或框架？

可复用性（30 分）：是否有可复用的技术方案？

案例（20 分）：是否有具体案例或示例？

信息密度（20 分）：是否干货满满，而非注水？

内容： {字幕内容}

请输出：

总分（0-100）

各维度得分

简短评语（20 字以内）

评分示例：

视频：《AI 工作流设计实战》

评分结果：

总分：85

清晰度：28/30（有清晰的 5 步框架）

可复用性：25/30（提供了完整代码）

案例：18/20（3 个实际案例）

信息密度：14/20（略有注水）

评语：实战性强，适合入门

→ 通过 Layer 2（>70 分）

评估维度：

维度	检查项	处理

|------|--------|------|

权限	是否需要特殊权限？	需要 → 标记"需确认"

资源	是否需要付费 API/资源？	需要 → 标记"需确认"

技术	技术是否可行？	不可行 → 存档

成本	执行成本是否合理？	过高 → 标记"需确认"

评估结果：

内容 1: 《用 Python 搭建自动化系统》

权限：无特殊要求 ✓

资源：免费库 ✓

技术：可行 ✓

成本：低 ✓

→ 可执行，进入处理队列

内容 2: 《用企业级 API 搭建系统》

权限：需要企业账号 ⚠️

资源：付费 API ⚠️

技术：可行 ✓

成本：高 ⚠️

→ 需确认，放入待审核

内容 3: 《用量子计算机优化工作流》

权限：无 ✓

资源：量子计算机 ✗

技术：不可行 ✗

成本：极高 ✗

→ 不可行，存档

---

┌─────────────────────────────────────────────────────────────┐
│              24 小时自动化处理流程                           │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  抓取阶段（每小时）                                         │
│  ────────────────                                           │
│  00:00, 01:00, ... 23:00                                   │
│  - 抓取 B 站关键词最新视频（每批次 50 条）                  │
│  - 抓取 RSS 订阅网站最新文章（每批次 20 条）                │
│  - 通过 Layer 1 过滤                                        │
│                                                             │
│  评分阶段（持续运行）                                       │
│  ────────────                                               │
│  - Layer 2 质量评分（队列处理）                             │
│  - Layer 3 可执行性评估                                     │
│  - 通过的内容 → 进入处理队列                                │
│                                                             │
│  处理阶段（24 小时满载）                                    │
│  ────────────                                               │
│  - 视频→音频（whisper）                                    │
│  - 音频→文字（whisper）                                    │
│  - 文字→结构化 Markdown                                     │
│  - 提取技术方案/框架                                        │
│  - 保存到 knowledge/ 目录                                   │
│                                                             │
│  汇总阶段（每日 17:00）                                     │
│  ────────────                                               │
│  - 统计今日处理数量                                         │
│  - 生成"新发现优质 UP 主"列表                               │
│  - 生成"待确认内容"列表（如有）                             │
│  - 发送日报给用户                                           │
│                                                             │
└─────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│              被动模式技术架构                                │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  抓取层                                                     │
│  ───────                                                    │
│  - bilibili_api（B 站抓取）                                │
│  - feedparser（RSS 解析）                                  │
│  - newspaper3k（文章提取）                                 │
│                                                             │
│  过滤层                                                     │
│  ───────                                                    │
│  - 规则引擎（Layer 1）                                     │
│  - Qwen-7B 评分模型（Layer 2）                             │
│  - 可执行性评估器（Layer 3）                               │
│                                                             │
│  处理层                                                     │
│  ───────                                                    │
│  - whisper（音频转文字）                                   │
│  - Qwen-7B（内容结构化）                                   │
│  - 自定义脚本（Markdown 生成）                             │
│                                                             │
│  存储层                                                     │
│  ───────                                                    │
│  - knowledge/（结构化文章）                                │
│  - up_database.json（UP 主信誉库）                         │
│  - processing_log.json（处理日志）                         │
│                                                             │
│  调度层                                                     │
│  ───────                                                    │
│  - cron（定时任务）                                        │
│  - queue（任务队列）                                       │
│  - monitor（监控和告警）                                   │
│                                                             │
└─────────────────────────────────────────────────────────────┘

---

knowledge/
├── 2026/
│   ├── 03-march/
│   │   ├── 28/
│   │   │   ├── ai-workflow-design.md
│   │   │   ├── openclaw-skill-dev.md
│   │   │   └── rag-system-pitfalls.md
│   │   └── 27/
│   └── 04-april/
├── topics/
│   ├── ai-workflow/
│   │   ├── index.md
│   │   ├── 2026-03-28-ai-workflow-design.md → ../../2026/03-march/28/ai-workflow-design.md
│   │   └── related-skills.md
│   ├── rag/
│   └── agent/
└── meta/
    ├── index.json
    ├── up_database.json
    └── processing_log.json

说明：

knowledge/2026/...：按时间存储原始文件

knowledge/topics/...：按主题组织（软链接/索引）

knowledge/meta/...：元数据和索引

# AI 工作流设计方法论
来源： B 站视频《AI 工作流设计实战》
UP 主： AI 实践者张三
原始链接： https://b23.tv/xxxxx
处理时间： 2026-03-28 14:30
质量评分： 85/100
---
AI 工作流设计应遵循"先框架后细节"原则
人在环路是关键，避免完全自动化
成果应沉淀为可复用的 Skills
---
适用场景： 快速原型，无需编程
步骤：
安装 n8n（Docker 或本地）
配置触发器（定时/Webhook）
添加处理节点（HTTP/代码/数据库）
测试并部署
优点： 可视化配置，快速上手
缺点： 复杂逻辑支持有限
适用场景： 复杂逻辑，高度定制
步骤：
定义任务类（Task）
实现执行器（Executor）
配置编排器（Orchestrator）
添加监控和日志
优点： 灵活性高，可扩展
缺点： 开发成本较高
---
[ ] n8n 工作流模板
[ ] Python 任务执行器
[ ] 监控和告警模块
---
视频链接：https://b23.tv/xxxxx
代码仓库：https://github.com/xxx
文档：https://docs.xxx

---

📊 被动模式日报 - 2026-03-28 17:00

【今日概览】

抓取视频：520 条

Layer 1 通过：156 条

Layer 2 通过：62 条

Layer 3 通过：38 条

完成处理：35 篇

【新发现优质 UP 主】

"AI 实践者张三"（新号，3 个高分视频，平均分 88）

代表作：《用 Agent 搭建自动化工作流》

"技术思考李四"（粉丝 2 万，首次发现，平均分 82）

代表作：《RAG 系统的 10 个坑》

【今日精选】

《OpenClaw 技能开发实战》- 85 分

路径：knowledge/2026/03-march/28/openclaw-skill-dev.md

《AI 工作流设计方法论》- 82 分

路径：knowledge/2026/03-march/28/ai-workflow-design.md

【待确认】（2 条）

《企业级 API 集成方案》- 需要付费 API

《大规模部署架构》- 需要 16GB 内存

【系统状态】

计算资源：98% 利用率

队列积压：0 条

错误数：2（已重试成功）

---

【被动模式抓取】

时间：2026-03-28 10:00

来源：B 站视频《RAG 系统避坑指南》

UP 主：技术思考李四（新发现）

评分：88 分

【内容处理】

转写：whisper（15 分钟视频，3 分钟完成）

结构化：Qwen-7B（提取 10 个坑和解决方案）

存储：knowledge/2026/03-march/28/rag-pitfalls.md

【Skills 沉淀】

创建 Skill：rag-validator-v1

功能：RAG 系统常见错误检测

来源：基于视频中的 10 个坑

【用户价值】

用户原本不知道 RAG 有这些坑

现在有了检测工具，避免踩坑

节省至少 10 小时试错时间

【被动模式抓取】

时间：2026-03-27 14:00

来源：B 站视频《用 n8n 替代 Python 脚本》

UP 主：自动化达人王五

评分：82 分

【内容处理】

转写：whisper

结构化：Qwen-7B

存储：knowledge/2026/03-march/27/n8n-vs-python.md

【用户反馈】用户：我从来不知道 n8n 这种东西... AI：是的，这是一个可视化工作流工具，适合快速原型用户：那我现在这个 Python 脚本还要写吗？ AI：可以用 n8n 快速验证想法，确认有价值后再用 Python 实现

【结果】

用户用 n8n 花 30 分钟验证了想法

确认有价值后，再用 Python 实现生产版本

节省了 8 小时无效开发时间

---

✅ 不限制已知 UP 主

✅ 自动发现新创作者

✅ 基于内容质量而非粉丝数

✅ Layer 1：规则引擎，快速排除

✅ Layer 2：模型评分，质量把控

✅ Layer 3：可执行性评估，避免不可行方案

✅ 每小时抓取

✅ 持续处理

✅ 每日汇总

✅ 结构化存储

✅ 主题组织

✅ 反哺 Skills 库

---

被动学习模式的核心价值：

价值	说明

|------|------|

突破认知	发现用户不知道的优秀方案

持续学习	24 小时不间断监控和获取

质量筛选	三层过滤，确保内容质量

知识沉淀	结构化存储，可检索可复用

最终目标：

构建一个可持续进化的 AI 助手系统，主动（人有 Idea）+ 被动（互联网找 Idea）形成双向输入闭环，持续引入外部优秀解决方案。

---

下一篇预告： 《OpenClaw 架构设计：8 周实施计划》

完整实施路线图，包含每周任务、交付物、风险评估。

---

本文基于 OpenClaw 架构设计研究报告第 6 章改写 完整报告：docs/openclaw-architecture-research-report.md

被动学习模式：让 AI 从互联网自动获取知识

文章目录

评论