引言
"这不是一个实验项目。这是我真正在用的生产系统。"
这是"一天一个开源项目"系列的第 81 篇。今天的项目是 GBrain(GitHub)。
先说这个项目最不寻常的地方:它的作者是 Garry Tan(谭建文)——Y Combinator 现任总裁兼 CEO,曾联合创立管理规模达 7 亿美元的 Initialized Capital,是 Coinbase、Instacart、Flexport 的早期投资人,2018 年起连续入选福布斯 Midas List(全球顶级投资人榜单)。
这个人,亲自坐下来写代码,写了一个 AI 记忆系统,然后开源了。
更让人意外的是这不是展示用的"概念项目"。GBrain 是他日常真正在用的生产系统,目前管理着他大脑里的 17,888 份文档、4,383 位人脉、723 家公司。当一个顶级 VC 把自己的整个知识网络——投资组合、创始人关系、市场洞察——都押注在一套开源工具上,这本身就是最有力的背书。
10k+ Stars,1.2k+ Forks——在 AI 记忆系统赛道里,这是最具身份信息含量的开源项目之一。
你将学到什么
- GBrain 的 "Brain-First" 设计哲学:为什么先查本地大脑再调外部 API
- 混合搜索架构:向量检索 + 关键词检索的 RRF 融合,Recall@5 达 95%
- 零 LLM 成本的知识图谱自动连线:5 类关系用正则抽取
- Minions 任务队列:比 LLM 子 Agent 快 13 倍的确定性任务执行
- "编译态页面"模式:类 Git 的知识演化追踪
前置知识
- 了解 AI Agent 和上下文窗口的基本概念
- TypeScript / JavaScript 基础(可选)
- 用过 Obsidian、Notion 等个人知识管理工具(有助于理解应用场景)
项目背景
它是什么?
GBrain 是一个 AI Agent 持久化记忆与知识管理系统,通过 MCP(Model Context Protocol)协议为 AI 助手提供一个可跨会话积累、可语义检索的"大脑"。
设计哲学:Brain-First
传统 Agent 工作方式:
收到问题 → 直接调用外部 API(搜索/数据库/工具)
问题:每次从外部拉数据,重复、昂贵、无积累
GBrain 的 Brain-First:
收到问题 → 先查本地大脑(已索引的知识图谱)
→ 命中?直接回答,零额外成本
→ 未命中?调外部 API → 结果写回大脑 → 下次直接命中
效果:大脑越用越智能,越用越省钱关于作者:Garry Tan
Garry Tan 的经历比大多数 VC 更有技术深度:
- 斯坦福计算机系统工程学士,毕业后进入微软,成为 Palantir 第 10 号员工
- 2008 年联合创办博客平台 Posterous,2012 年被 Twitter 以 2000 万美元收购
- 加入 YC 担任设计合伙人,亲手给 Coinbase 写下第一张种子轮支票(2012 年)
- 联合创立 Initialized Capital,管理规模 7 亿美元,领投 Instacart、Flexport 等
- 2023 年 1 月出任 Y Combinator CEO,发起 20 亿美元募资计划
他一直在自己的 YouTube 频道分享技术内容,是 VC 圈里少见的"真正还在写代码的人"。GBrain 是这种双重身份的最直接产物。
项目数据
- ⭐ GitHub Stars: 10,400+
- 🍴 Forks: 1,200+
- 🐛 Open Issues: 75+
- 📦 最新版本: v0.16.4
- 📄 协议: MIT
- 🌐 主要语言: TypeScript(Bun 运行时)
- 🧠 作者实际使用规模: 17,888 页面 / 4,383 人 / 723 家公司
主要功能
混合搜索:RRF 融合,Recall@5 达 95%
GBrain 的检索引擎结合向量搜索和关键词搜索,用 Reciprocal Rank Fusion(RRF) 公式融合排名:
RRF 分数 = Σ 1/(60 + rank)
原理:
向量搜索找到 [文章A排#1, 文章B排#2, 文章C排#5]
关键词搜索找到 [文章B排#1, 文章D排#2, 文章A排#4]
文章A:1/(60+1) + 1/(60+4) = 0.01639 + 0.01538 = 0.03177
文章B:1/(60+2) + 1/(60+1) = 0.01613 + 0.01639 = 0.03252 ← 综合第一对比纯向量搜索:
| 指标 | 纯向量搜索 | GBrain 混合搜索 |
|---|---|---|
| Recall@5 | 83% | 95% |
| Precision@5 | 39% | 45% |
| 知识图谱 F1 | 57.8%(grep) | 86.6% |
零 LLM 成本的知识图谱自动连线
GBrain 最有趣的设计之一:不用任何 LLM 就能自动抽取实体关系。
用正则/模式匹配从 Markdown 文本中自动识别 5 类关系:
关系类型 触发模式示例
attended "与 X 会面于..."、"参加了 X 的..."
works_at "X 在 Y 公司担任..."
invested_in "领投 Y 的 A 轮..."
founded "X 创立了 Y..."
advises "X 担任 Y 的顾问..."这意味着:当 Garry Tan 在笔记里写"上午与 Brian Armstrong 聊了 Coinbase 的新产品",系统会自动在他的知识图谱中建立 [garry-tan] --attended--> [brian-armstrong] 这条关系边——不花一分 Token 钱。
Minions 任务队列:比子 Agent 快 13 倍
GBrain 把任务分为两类:
确定性操作(用 Minions):
解析 Markdown、建立链接、同步文件、关系抽取
执行延迟:753ms
Token 成本:零
非确定性推理(用 LLM Agent):
总结内容、回答问题、生成洞察
执行延迟:10+ 秒
Token 成本:有Minions 是 Postgres 原生的持久化任务队列——崩溃后可自动恢复,不丢任务。关键在于:大多数知识管理操作是确定性的,不需要 LLM 参与,GBrain 把这部分成本彻底清零。
26 个技能:覆盖 AI 记忆全场景
| 技能类别 | 包含技能举例 |
|---|---|
| 始终在线 | 信号检测(自动识别实体)、脑部读-丰富-写循环 |
| 数据摄入 | 想法处理、媒体摄入、会议录音转录、结构化数据导入 |
| 知识操作 | 知识丰富、智能查询、维护清理、引用修复 |
| 任务运营 | 任务管理、定时调度、报告生成、Webhook 触发 |
| 身份管理 | 灵魂审计、初始化配置、数据迁移、每日简报 |
30+ MCP 工具支持直接从 Claude Code、Cursor、Windsurf 调用。
数据集成 Recipes
开箱即用的数据摄入配方:
✅ Gmail 邮件 → 自动摄入重要联系人和话题
✅ Google Calendar → 会议自动页面化
✅ X/Twitter 时间线 → 关注帖子 + 删推监控
✅ Twilio + OpenAI Realtime → 电话语音实时转录
✅ Circleback → 会议录音自动转录入库快速上手
# 克隆(必须 git clone,不能 bun install -g)
git clone https://github.com/garrytan/gbrain.git ~/gbrain
cd ~/gbrain
# 安装 Bun(项目运行时,非 Node.js)
curl -fsSL https://bun.sh/install | bash
export PATH="$HOME/.bun/bin:$PATH"
# 安装依赖并链接全局命令
bun install && bun link
# 初始化大脑
gbrain init
# 健康检查
gbrain doctor --json
# 导入现有 Markdown 笔记
gbrain import ~/notes/ --no-embed # 先导入,不嵌入
gbrain embed --stale # 批量生成向量
# 提问
gbrain query "这周我跟谁开了会?"
# 知识图谱查询
gbrain graph-query garry-tan
# 启动 MCP 服务器(供 Claude Code 等 AI 助手调用)
gbrain serve集成到 Claude Code:
// ~/.claude/server.json
{
"mcpServers": {
"gbrain": {
"command": "gbrain",
"args": ["serve"]
}
}
}项目详细剖析
三层架构
┌─────────────────────────────────────────────────────────┐
│ Brain Repository(Git 管理的 Markdown) │
│ 唯一数据真相来源(Source of Truth) │
└──────────────────────────┬──────────────────────────────┘
│ gbrain import
┌──────────────────────────▼──────────────────────────────┐
│ GBrain 检索层(Postgres + pgvector) │
│ 向量搜索 ──┐ │
│ ├── RRF 融合排序 → 混合搜索结果 │
│ 关键词搜索 ┘ │
│ 知识图谱(零 LLM 自动连线) │
│ Minions 任务队列(确定性操作) │
└──────────────────────────┬──────────────────────────────┘
│ gbrain serve(MCP)
┌──────────────────────────▼──────────────────────────────┐
│ AI Agent 技能层(26 个 Skills) │
│ Claude Code / Cursor / Windsurf / 任意 MCP 客户端 │
│ Trusted CLI(完整文件权限) │
│ Untrusted MCP(沙箱限制) │
└─────────────────────────────────────────────────────────┘"编译态页面"模式
这是 GBrain 防止知识腐化的核心机制:
# Brian Armstrong
## 当前最佳理解(编译态摘要)
Brian Armstrong 是 Coinbase CEO,专注于加密货币的合规化推进。
2026 Q1 的核心关注点是美国 SEC 监管框架谈判。
---
## 原始证据时间线(只追加,不修改)
2026-01-15:会议记录 - 讨论 Layer2 扩容方案...
2026-02-20:邮件片段 - 提及 ETF 申请进展...
2026-03-10:会议记录 - SEC 谈判策略调整...顶部的"编译态摘要"在每次写入新证据时重新生成;底部的时间线只追加。类似 Git:commit history 不可篡改,working tree 持续更新。
为什么选 Bun 而不是 Node.js
Bun 的优势(GBrain 实际受益项):
✅ 原生 TypeScript 支持(无需 ts-node 或编译步骤)
✅ 启动时间比 Node.js 快 3-4x
✅ 内置测试运行器、打包工具
✅ 单二进制构建:bun build:all → Darwin ARM64 + Linux x64
对于每次命令行调用都要重启的 CLI 工具,快速启动时间直接影响使用体感。安全:信任边界模型
CLI 调用(remote: false):
完整文件系统访问权
可读写 Brain Repository
适合:gbrain import、gbrain query
MCP Agent 调用(remote: true):
严格沙箱限制
只能通过定义的工具访问数据
适合:Claude Code / Cursor 通过 MCP 调用这个设计解决了一个实际问题:当 AI Agent 通过 MCP 调用 GBrain 时,你不希望 Agent 能直接修改你的原始笔记文件——只允许它通过受控的 Skill 接口读写。
"Fat Skills, Thin Harness" 哲学
GBrain 的 26 个技能绝大多数是 Markdown 文件,而非硬编码逻辑:
gbrain/skills/
always-on/
signal-detection.md ← 描述"如何检测实体"的 Markdown
brain-operation.md ← 描述"读-丰富-写循环"的 Markdown
ingestion/
ideas.md
media.md
...优势:技能定义可以直接用自然语言编辑,甚至可以让 AI 帮你修改技能定义——这是真正意义上的可自定义 AI 行为。
项目地址与资源
官方资源
- 🌟 GitHub: https://github.com/garrytan/gbrain
- 👤 Garry Tan GitHub: https://github.com/garrytan
- 🏢 Y Combinator: https://www.ycombinator.com
- 📦 Bun 运行时: https://bun.sh
技术参考
- 🔌 MCP 协议: Model Context Protocol 文档
- 🗄️ PGLite: https://pglite.dev(嵌入式 PostgreSQL)
- 🔢 pgvector: https://github.com/pgvector/pgvector
总结与展望
核心要点
- Brain-First 理念:先问本地大脑,再调外部 API——大脑越用越智能,API 成本越来越低
- RRF 混合搜索:向量 + 关键词双路融合,Recall@5 从 83% 提升到 95%,是最实用的搜索架构改进
- 零 LLM 知识图谱:确定性模式匹配自动建立 5 类人际关系边,知识积累零边际成本
- Minions vs Agent:把确定性操作和 LLM 推理彻底分开,前者快 13 倍且零成本
- Markdown 为真相来源:数据可移植,用 Git 管理,不被任何云平台锁定
- "Fat Skills":把智能写进 Markdown 技能文件,运行时逻辑极简且可自定义
适合谁使用
- 投资人 / VC:管理庞大的人脉网络和被投公司信息——正是 Garry Tan 的原始用例
- 独立研究者:需要 AI 持续积累领域知识、跨会话推理的个人
- 重度 Obsidian 用户:想给 Markdown 笔记库加上 AI 检索和知识图谱能力
- AI Agent 开发者:为自己的 Agent 构建持久记忆基础设施
值得思考的问题
GBrain 的存在提出了一个隐性问题:当顶级投资人开始用开源 AI 工具管理自己的核心知识资产,这意味着什么?
Garry Tan 每天的工作是从海量信息流(创始人、市场信号、政策变化)中找到值得押注的模式。他把这套知识系统的底层开源了——不是因为它不重要,而是因为他相信:真正的竞争优势来自见识和判断,而不是工具本身。
开源知识工具,保留认知能力——这是一种值得学习的思维方式。
访问我的个人网站,探索更多实用知识和有趣产品