NotebookLM,但数据和模型都归你

Open Notebook 把 Google NotebookLM 背后的想法,重建成一套你自己托管的软件:导入 PDF、视频、音频和网页,跨它们搜索,把这份语料当上下文来对话,并生成播客式的音频摘要。它的卖点不是「我们克隆了 UI」,而是 Google 一直闭着的两样东西,你的数据和你对模型的选择,在这里是开放的。

这个立意就是跑它的全部理由。如果你的研究敏感,或者你想把它指向一个更便宜的或本地的模型、而非单一厂商,NotebookLM 做不到,而 Open Notebook 正是为此而造。底层它把一个 Python 后端配上 Next.js 与 React 前端,所有东西存进 SurrealDB,并经由 LangChain 编排模型。

比托管原版你多拿到什么

  • 跨 18+ 服务商的模型选择,含 OpenAI、Anthropic、Ollama 和 LM Studio,所以你能完全本地跑、或按成本混用厂商。
  • 多模态来源:PDF、视频、音频、网页,组织进 notebook。
  • 1 到 4 人的播客生成,带自定义说话人画像,对比 NotebookLM 固定的双主持格式。
  • 全文与向量搜索,覆盖你加载的一切。
  • 一个完整的 REST API,托管产品根本不暴露这个,所以你能自动化摄取和生成。
  • 随处部署:Docker、云、或本地机器,带多语言 UI。

它围着搭建的工作流

这些部件拼成的是一个研究闭环,而不是一堆功能。你把来源加载进一个 notebook,可选地对它们跑内容转换(自定义或内置),把原始素材重塑成摘要或结构化笔记,再用全文与向量检索结合的方式跨一切搜索。从那里你把这份语料当作有据可依的上下文来对话,想要被动复习时,就从中生成一个多说话人播客。内容转换这一步是多数 NotebookLM 克隆跳过的部分,也是这个开放模型挣得灵活性的地方:由你决定内容如何被处理,而不是接受一条固定管线。

安装

文档给的路径是 Docker Compose,前期只要求装 Docker Desktop、别的不要;API key 之后在 UI 里填。拉下 compose 文件并启动:

curl -o docker-compose.yml https://raw.githubusercontent.com/lfnovo/open-notebook/main/docker-compose.yml
docker compose up

compose 文件会把 SurrealDB 和应用一起跑起来,所以数据库是替你配好的,而不是另装一遍。之后你在界面里配置服务商。

它老实地不如 NotebookLM 的地方

这部分值得多停一会儿,因为项目对此很坦白。它自己的对比表把引用标为「基础引用(将改进)」,而把 NotebookLM 的标为「全面、带来源」。对一个研究工具,带来源支撑的引用不是个边角功能,它是信任层。如果你的工作依赖把每条论断追溯回确切的段落,托管原版目前在这条轴上更强,你该把这一点和你换来的隐私与灵活性放在一起掂量。

tracker 反映的是一个仍在积极演进、而非已尘埃落定的项目:截至 2026-06 有 161 个 open issue,发版频繁(v1.9.0 于 2026 年 6 月)。把引用保真度和边界情况稳定性当成移动靶,在围着它搭工作流之前,先拿你自己的语料测一测。

Open Notebook 与 NotebookLM 的对比

Open NotebookGoogle NotebookLM
托管自托管,数据归你仅 Google 云
模型18+ 服务商,本地或托管仅 Google 模型
播客声音1 到 4,自定义画像2 个固定主持
API完整 REST API
引用基础,改进中全面、带来源
许可MIT闭源

这份对比沿用项目自己记录的功能矩阵。NotebookLM 是个闭源托管产品,没有可按 star 衡量的公开仓库,所以这里比的是能力、不是人气。这个取舍是一致的:Open Notebook 在掌控、灵活和自动化上胜出;NotebookLM 目前在引用深度和零配置的打磨度上胜出。

相关

先用 MarkItDown 把文档转干净再喂给它,并经 Ollama 跑本地模型、把一切留在你自己的机器上。想看还有什么在热,见每日速报周报

FAQ

Open Notebook 免费吗? 软件是 MIT 许可、自托管。你唯一的成本是你接的 AI 服务商,而你可以完全本地跑、不花钱。

我能完全离线跑吗? 你可以经 Ollama 或 LM Studio 指向本地模型,把推理留在你的机器上。应用和数据库在本地 Docker 里跑。

它和 NotebookLM 有什么不同? 自托管、18+ 模型服务商、1 到 4 个播客说话人、一个 REST API。主要取舍是目前引用较弱。

它用什么数据库? SurrealDB,由提供的 Docker Compose 文件自动配好。