一天一个开源项目

一天一个开源项目(第81篇):YC 总裁亲自写代码,把自己的大脑开源了

深入解析 GBrain,Y Combinator 现任 CEO Garry Tan 亲手构建并开源的 AI 持久记忆系统,10k+ Stars。混合搜索(向量+关键词 RRF 融合)Recall@5 达 95%,零 LLM 成本的知识图谱自动连线,Minions 确定性任务队列比子 Agent 快 13 倍,26 个技能覆盖从个人 CRM 到自主 Agent 记忆的全场景。他用它管理着 17,888 份文档、4,383 个人脉、723 家公司。MIT 开源。

·11 分钟阅读·AI工具

引言

"这不是一个实验项目。这是我真正在用的生产系统。"

这是"一天一个开源项目"系列的第 81 篇。今天的项目是 GBrainGitHub)。

先说这个项目最不寻常的地方:它的作者是 Garry Tan(谭建文)——Y Combinator 现任总裁兼 CEO,曾联合创立管理规模达 7 亿美元的 Initialized Capital,是 Coinbase、Instacart、Flexport 的早期投资人,2018 年起连续入选福布斯 Midas List(全球顶级投资人榜单)。

这个人,亲自坐下来写代码,写了一个 AI 记忆系统,然后开源了。

更让人意外的是这不是展示用的"概念项目"。GBrain 是他日常真正在用的生产系统,目前管理着他大脑里的 17,888 份文档、4,383 位人脉、723 家公司。当一个顶级 VC 把自己的整个知识网络——投资组合、创始人关系、市场洞察——都押注在一套开源工具上,这本身就是最有力的背书。

10k+ Stars,1.2k+ Forks——在 AI 记忆系统赛道里,这是最具身份信息含量的开源项目之一。

你将学到什么

  • GBrain 的 "Brain-First" 设计哲学:为什么先查本地大脑再调外部 API
  • 混合搜索架构:向量检索 + 关键词检索的 RRF 融合,Recall@5 达 95%
  • 零 LLM 成本的知识图谱自动连线:5 类关系用正则抽取
  • Minions 任务队列:比 LLM 子 Agent 快 13 倍的确定性任务执行
  • "编译态页面"模式:类 Git 的知识演化追踪

前置知识

  • 了解 AI Agent 和上下文窗口的基本概念
  • TypeScript / JavaScript 基础(可选)
  • 用过 Obsidian、Notion 等个人知识管理工具(有助于理解应用场景)

项目背景

它是什么?

GBrain 是一个 AI Agent 持久化记忆与知识管理系统,通过 MCP(Model Context Protocol)协议为 AI 助手提供一个可跨会话积累、可语义检索的"大脑"。

设计哲学:Brain-First

传统 Agent 工作方式:
  收到问题 → 直接调用外部 API(搜索/数据库/工具)
  问题:每次从外部拉数据,重复、昂贵、无积累
 
GBrain 的 Brain-First:
  收到问题 → 先查本地大脑(已索引的知识图谱)
            → 命中?直接回答,零额外成本
            → 未命中?调外部 API → 结果写回大脑 → 下次直接命中
  效果:大脑越用越智能,越用越省钱

关于作者:Garry Tan

Garry Tan 的经历比大多数 VC 更有技术深度:

  • 斯坦福计算机系统工程学士,毕业后进入微软,成为 Palantir 第 10 号员工
  • 2008 年联合创办博客平台 Posterous,2012 年被 Twitter 以 2000 万美元收购
  • 加入 YC 担任设计合伙人,亲手给 Coinbase 写下第一张种子轮支票(2012 年)
  • 联合创立 Initialized Capital,管理规模 7 亿美元,领投 Instacart、Flexport 等
  • 2023 年 1 月出任 Y Combinator CEO,发起 20 亿美元募资计划

他一直在自己的 YouTube 频道分享技术内容,是 VC 圈里少见的"真正还在写代码的人"。GBrain 是这种双重身份的最直接产物。

项目数据

  • GitHub Stars: 10,400+
  • 🍴 Forks: 1,200+
  • 🐛 Open Issues: 75+
  • 📦 最新版本: v0.16.4
  • 📄 协议: MIT
  • 🌐 主要语言: TypeScript(Bun 运行时)
  • 🧠 作者实际使用规模: 17,888 页面 / 4,383 人 / 723 家公司

主要功能

混合搜索:RRF 融合,Recall@5 达 95%

GBrain 的检索引擎结合向量搜索和关键词搜索,用 Reciprocal Rank Fusion(RRF) 公式融合排名:

RRF 分数 = Σ 1/(60 + rank)
 
原理:
  向量搜索找到 [文章A排#1, 文章B排#2, 文章C排#5]
  关键词搜索找到 [文章B排#1, 文章D排#2, 文章A排#4]
  
  文章A:1/(60+1) + 1/(60+4) = 0.01639 + 0.01538 = 0.03177
  文章B:1/(60+2) + 1/(60+1) = 0.01613 + 0.01639 = 0.03252  ← 综合第一

对比纯向量搜索:

指标纯向量搜索GBrain 混合搜索
Recall@583%95%
Precision@539%45%
知识图谱 F157.8%(grep)86.6%

零 LLM 成本的知识图谱自动连线

GBrain 最有趣的设计之一:不用任何 LLM 就能自动抽取实体关系

用正则/模式匹配从 Markdown 文本中自动识别 5 类关系:

关系类型        触发模式示例
attended      "与 X 会面于..."、"参加了 X 的..."
works_at      "X 在 Y 公司担任..."
invested_in   "领投 Y 的 A 轮..."
founded       "X 创立了 Y..."
advises       "X 担任 Y 的顾问..."

这意味着:当 Garry Tan 在笔记里写"上午与 Brian Armstrong 聊了 Coinbase 的新产品",系统会自动在他的知识图谱中建立 [garry-tan] --attended--> [brian-armstrong] 这条关系边——不花一分 Token 钱。

Minions 任务队列:比子 Agent 快 13 倍

GBrain 把任务分为两类:

确定性操作(用 Minions):
  解析 Markdown、建立链接、同步文件、关系抽取
  执行延迟:753ms
  Token 成本:零
  
非确定性推理(用 LLM Agent):
  总结内容、回答问题、生成洞察
  执行延迟:10+ 秒
  Token 成本:有

Minions 是 Postgres 原生的持久化任务队列——崩溃后可自动恢复,不丢任务。关键在于:大多数知识管理操作是确定性的,不需要 LLM 参与,GBrain 把这部分成本彻底清零。

26 个技能:覆盖 AI 记忆全场景

技能类别包含技能举例
始终在线信号检测(自动识别实体)、脑部读-丰富-写循环
数据摄入想法处理、媒体摄入、会议录音转录、结构化数据导入
知识操作知识丰富、智能查询、维护清理、引用修复
任务运营任务管理、定时调度、报告生成、Webhook 触发
身份管理灵魂审计、初始化配置、数据迁移、每日简报

30+ MCP 工具支持直接从 Claude Code、Cursor、Windsurf 调用。

数据集成 Recipes

开箱即用的数据摄入配方:

✅ Gmail 邮件 → 自动摄入重要联系人和话题
✅ Google Calendar → 会议自动页面化
✅ X/Twitter 时间线 → 关注帖子 + 删推监控
✅ Twilio + OpenAI Realtime → 电话语音实时转录
✅ Circleback → 会议录音自动转录入库

快速上手

# 克隆(必须 git clone,不能 bun install -g)
git clone https://github.com/garrytan/gbrain.git ~/gbrain
cd ~/gbrain
 
# 安装 Bun(项目运行时,非 Node.js)
curl -fsSL https://bun.sh/install | bash
export PATH="$HOME/.bun/bin:$PATH"
 
# 安装依赖并链接全局命令
bun install && bun link
 
# 初始化大脑
gbrain init
 
# 健康检查
gbrain doctor --json
 
# 导入现有 Markdown 笔记
gbrain import ~/notes/ --no-embed   # 先导入,不嵌入
gbrain embed --stale                # 批量生成向量
 
# 提问
gbrain query "这周我跟谁开了会?"
 
# 知识图谱查询
gbrain graph-query garry-tan
 
# 启动 MCP 服务器(供 Claude Code 等 AI 助手调用)
gbrain serve

集成到 Claude Code

// ~/.claude/server.json
{
  "mcpServers": {
    "gbrain": {
      "command": "gbrain",
      "args": ["serve"]
    }
  }
}

项目详细剖析

三层架构

┌─────────────────────────────────────────────────────────┐
│           Brain Repository(Git 管理的 Markdown)        │
│           唯一数据真相来源(Source of Truth)            │
└──────────────────────────┬──────────────────────────────┘
                           │ gbrain import
┌──────────────────────────▼──────────────────────────────┐
│           GBrain 检索层(Postgres + pgvector)           │
│   向量搜索 ──┐                                           │
│              ├── RRF 融合排序 → 混合搜索结果             │
│   关键词搜索 ┘                                           │
│   知识图谱(零 LLM 自动连线)                           │
│   Minions 任务队列(确定性操作)                        │
└──────────────────────────┬──────────────────────────────┘
                           │ gbrain serve(MCP)
┌──────────────────────────▼──────────────────────────────┐
│           AI Agent 技能层(26 个 Skills)                │
│   Claude Code / Cursor / Windsurf / 任意 MCP 客户端     │
│   Trusted CLI(完整文件权限)                           │
│   Untrusted MCP(沙箱限制)                             │
└─────────────────────────────────────────────────────────┘

"编译态页面"模式

这是 GBrain 防止知识腐化的核心机制:

# Brian Armstrong
 
## 当前最佳理解(编译态摘要)
Brian Armstrong 是 Coinbase CEO,专注于加密货币的合规化推进。
2026 Q1 的核心关注点是美国 SEC 监管框架谈判。
 
---
 
## 原始证据时间线(只追加,不修改)
2026-01-15:会议记录 - 讨论 Layer2 扩容方案...
2026-02-20:邮件片段 - 提及 ETF 申请进展...
2026-03-10:会议记录 - SEC 谈判策略调整...

顶部的"编译态摘要"在每次写入新证据时重新生成;底部的时间线只追加。类似 Git:commit history 不可篡改,working tree 持续更新。

为什么选 Bun 而不是 Node.js

Bun 的优势(GBrain 实际受益项):
  ✅ 原生 TypeScript 支持(无需 ts-node 或编译步骤)
  ✅ 启动时间比 Node.js 快 3-4x
  ✅ 内置测试运行器、打包工具
  ✅ 单二进制构建:bun build:all → Darwin ARM64 + Linux x64
  
对于每次命令行调用都要重启的 CLI 工具,快速启动时间直接影响使用体感。

安全:信任边界模型

CLI 调用(remote: false):
  完整文件系统访问权
  可读写 Brain Repository
  适合:gbrain import、gbrain query
 
MCP Agent 调用(remote: true):
  严格沙箱限制
  只能通过定义的工具访问数据
  适合:Claude Code / Cursor 通过 MCP 调用

这个设计解决了一个实际问题:当 AI Agent 通过 MCP 调用 GBrain 时,你不希望 Agent 能直接修改你的原始笔记文件——只允许它通过受控的 Skill 接口读写。

"Fat Skills, Thin Harness" 哲学

GBrain 的 26 个技能绝大多数是 Markdown 文件,而非硬编码逻辑:

gbrain/skills/
  always-on/
    signal-detection.md    ← 描述"如何检测实体"的 Markdown
    brain-operation.md     ← 描述"读-丰富-写循环"的 Markdown
  ingestion/
    ideas.md
    media.md
    ...

优势:技能定义可以直接用自然语言编辑,甚至可以让 AI 帮你修改技能定义——这是真正意义上的可自定义 AI 行为


项目地址与资源

官方资源

技术参考


总结与展望

核心要点

  1. Brain-First 理念:先问本地大脑,再调外部 API——大脑越用越智能,API 成本越来越低
  2. RRF 混合搜索:向量 + 关键词双路融合,Recall@5 从 83% 提升到 95%,是最实用的搜索架构改进
  3. 零 LLM 知识图谱:确定性模式匹配自动建立 5 类人际关系边,知识积累零边际成本
  4. Minions vs Agent:把确定性操作和 LLM 推理彻底分开,前者快 13 倍且零成本
  5. Markdown 为真相来源:数据可移植,用 Git 管理,不被任何云平台锁定
  6. "Fat Skills":把智能写进 Markdown 技能文件,运行时逻辑极简且可自定义

适合谁使用

  • 投资人 / VC:管理庞大的人脉网络和被投公司信息——正是 Garry Tan 的原始用例
  • 独立研究者:需要 AI 持续积累领域知识、跨会话推理的个人
  • 重度 Obsidian 用户:想给 Markdown 笔记库加上 AI 检索和知识图谱能力
  • AI Agent 开发者:为自己的 Agent 构建持久记忆基础设施

值得思考的问题

GBrain 的存在提出了一个隐性问题:当顶级投资人开始用开源 AI 工具管理自己的核心知识资产,这意味着什么?

Garry Tan 每天的工作是从海量信息流(创始人、市场信号、政策变化)中找到值得押注的模式。他把这套知识系统的底层开源了——不是因为它不重要,而是因为他相信:真正的竞争优势来自见识和判断,而不是工具本身

开源知识工具,保留认知能力——这是一种值得学习的思维方式。


访问我的个人网站,探索更多实用知识和有趣产品