jialong@columbia:~/site$cat ./lab/literature-review-ai.md
主页
> 实验室 · Waaangjl/literature-review-ai

literature-review-ai

仓库:
Waaangjl/literature-review-ai
语言:
Python
年份:
2026 — 在做

一个流水线:吃一个 prompt——主题、学科、深度——返回一份带可追踪引文的结构化文献综述。在我做 International Climate Finance 助教的时候写的,那个学期我每周要读的学生摘要量越过了「读得很累」的线,进入了「读得很累、靠我一个人读不完」的区间。

老实说一句

文献工作里有一种是你真的得思考的:跨学派综合、注意一个领域里有哪些假设大家已经不再质疑、发现一个还没人做过的角度。没有工具能替代这种工作。

文献工作里还有另一种,纯粹是检索和组织:「在主题 X 下面给我 30 篇经典论文,按方法论传统分组,每篇用一段话讲它在做什么,标出三篇互相矛盾的」。这部分就是 search-and-summarize——给到合适的 scaffolding,模型做得不错。

这个工具只做第二种。写它的全部意义,就是把第一种的时间留出来。

它怎么工作

流水线大致是:

  1. 拆 prompt。 「面向新兴市场气候适应的混合金融文献综述,MPA 级别,约 25 篇」会被解析成一个 query plan:4–6 个子主题、期望的来源类型(peer-reviewed / 灰色文献 / 政策报告)、时间范围、地理范围。
  2. 检索。 通过 OpenAlex、Semantic Scholar 的组合(用户有 JSTOR API 权限的话也走 JSTOR)。每篇论文必须带 DOI——没有 DOI 的不通过。
  3. 筛相关性。 模型对每个摘要打 0–1 的相关性分数。Top N 进入下一步。
  4. 聚类。 在摘要上做层次聚类,把论文分到 3–6 个主题簇里。簇的标签先由模型生成、再交给用户改。
  5. 综合。 每个簇写一段话——这个簇的核心问题、奠基论文、共识、分歧。引文 inline。
  6. 输出。 一份 .md。可选导出 BibTeX。引文链接到真实的 DOI——每一个 claim 都能 check。

这工具诚实承认的事

  • 它会漏掉那种「领域里所有人都知道但没人规范引用」的经典论文。 知识图谱的洞是真实存在的。
  • 它判断不了方法论的好坏。 它能告诉你一篇论文存在、声称什么;它不能告诉你这篇论文的回归设定写得对不对。
  • 它最有用的时候是当 Pass 1。 一个粗扫,你这个人再去精修、争论、加上它没找到的那个角度。

为什么开源

很多 TA 和研究生都在做这种性质的扫读工作。如果它能给其中几个人省下一个下午——并且把那个下午留给它代替不了的那种思考——这笔交易就划算。

克隆

git clone https://github.com/Waaangjl/literature-review-ai
cd literature-review-ai
pip install -r requirements.txt
python review.py --topic "你的主题" --depth medium --out review.md

仓库:github.com/Waaangjl/literature-review-ai ↗