> 实验室 · Waaangjl/literature-review-ai

literature-review-ai

仓库:: Waaangjl/literature-review-ai
语言:: Python
年份:: 2026 — 在做

一个流水线：吃一个 prompt——主题、学科、深度——返回一份带可追踪引文的结构化文献综述。在我做 International Climate Finance 助教的时候写的，那个学期我每周要读的学生摘要量越过了「读得很累」的线，进入了「读得很累、靠我一个人读不完」的区间。

老实说一句

文献工作里有一种是你真的得思考的：跨学派综合、注意一个领域里有哪些假设大家已经不再质疑、发现一个还没人做过的角度。没有工具能替代这种工作。

文献工作里还有另一种，纯粹是检索和组织：「在主题 X 下面给我 30 篇经典论文，按方法论传统分组，每篇用一段话讲它在做什么，标出三篇互相矛盾的」。这部分就是 search-and-summarize——给到合适的 scaffolding，模型做得不错。

这个工具只做第二种。写它的全部意义，就是把第一种的时间留出来。

它怎么工作

流水线大致是：

拆 prompt。 「面向新兴市场气候适应的混合金融文献综述，MPA 级别，约 25 篇」会被解析成一个 query plan：4–6 个子主题、期望的来源类型（peer-reviewed / 灰色文献 / 政策报告）、时间范围、地理范围。
检索。 通过 OpenAlex、Semantic Scholar 的组合（用户有 JSTOR API 权限的话也走 JSTOR）。每篇论文必须带 DOI——没有 DOI 的不通过。
筛相关性。 模型对每个摘要打 0–1 的相关性分数。Top N 进入下一步。
聚类。 在摘要上做层次聚类，把论文分到 3–6 个主题簇里。簇的标签先由模型生成、再交给用户改。
综合。 每个簇写一段话——这个簇的核心问题、奠基论文、共识、分歧。引文 inline。
输出。 一份 .md。可选导出 BibTeX。引文链接到真实的 DOI——每一个 claim 都能 check。

这工具诚实承认的事

它会漏掉那种「领域里所有人都知道但没人规范引用」的经典论文。 知识图谱的洞是真实存在的。
它判断不了方法论的好坏。 它能告诉你一篇论文存在、声称什么；它不能告诉你这篇论文的回归设定写得对不对。
它最有用的时候是当 Pass 1。 一个粗扫，你这个人再去精修、争论、加上它没找到的那个角度。

为什么开源

很多 TA 和研究生都在做这种性质的扫读工作。如果它能给其中几个人省下一个下午——并且把那个下午留给它代替不了的那种思考——这笔交易就划算。

克隆

git clone https://github.com/Waaangjl/literature-review-ai
cd literature-review-ai
pip install -r requirements.txt
python review.py --topic "你的主题" --depth medium --out review.md

仓库：github.com/Waaangjl/literature-review-ai ↗

← 全部 repo$ cd ~/ →