@句嵌入追踪思想谱系Tracing the Genealogies of Ideas with Sentence Embeddings

摘要

I introduce an approach which leverages a sen-tence embedding index to efficiently search for similar ideas in a large historical corpus. This method remains robust in conditions of high OCR error found in real mass digitized his-torical corpora that disrupt previous published methods, while also capturing paraphrase and indirect influence.
I evaluate this method on a large corpus of 250,000 nonfiction texts from the 19th century, and find that discovered influence is in line with history of science literature. By expanding the scope of our search for influence and the origins of ideas beyond traditional structured corpora and canonical works and figures, we can get a more nuanced perspective on influence and idea dissemination that can encompass epistem-ically marginalized groups.【我用19世纪的25万篇非小说文本对这种方法进行了评估,发现所发现的影响符合科学文献的历史。通过将影响和思想来源的研究范围扩大到传统的结构化语料库、经典作品和人物之外,我们可以获得一个更微妙的观点,这种观点可以涵盖知识上边缘化的群体。 】

引言和相关工作

研究背景

数据与方法

语料库构建

技术实现

FAISS

FAISS(Facebook AI Similarity Search)是Meta(原Facebook)开源的高效相似性搜索与向量聚类库,专为处理大规模高维数据设计。

实验结果

OCR鲁棒性验证

Pasted image 20250307193519.png

字符错误率(Character Error Rate)

自然语言处理中的核心评估指标: CER=(S+D+I) N×100% (S: 替换字符数,D: 删除字符数,I: 插入字符数,N: 总字符数)

历史验证

  1. 实验设计
    • 实验组:达尔文《物种起源》(1859)、《人类的由来》(1871)
    • 对照组:随机选取同时期(1859年)的非相关书籍
  2. 验证逻辑
    • 时间验证:著作发表前后的影响对比
      • 预期结果:达尔文著作应对后期文本产生显著影响
    • 学科验证:不同学科间的相似性差异
      • 预期结果:生物学/地质学文本相似度 > 化学/政治学
    • 人物验证:达尔文通信对象著作的关联强度
      • 预期结果:通信密切者文本相似度更高

结果

Pasted image 20250307195218.png

Pasted image 20250307195457.png

局限

1. 当前方法的局限性

2. 未来改进方向

AMR

AMR图(抽象语义表示)是一种用图形简化句子深层含义的方法。它把句子中的核心概念(如人物、动作)变成节点,用箭头表示它们之间的关系(如“谁做了什么”),忽略语法细节(如时态、介词),专注于逻辑结构。例如,“医生治疗病人”会简化为“治疗”连接“医生”和“病人”。

3. 假阳性(False Positives)问题

4. 假阴性(False Negatives)的挑战


总结 (deepseek)

1. 数据预处理

2. 模型选择与微调

3. 向量化与索引构建

4. 相似性搜索与阈值设定

5. 抗OCR噪声的关键设计

与传统方法的对比优势

维度 传统方法(文本重用/主题模型) 本文方法(句子嵌入)
噪声鲁棒性 依赖字符/词匹配,OCR错误影响大 子词分词+语义编码,抗噪性强
语义捕捉 仅限字面匹配或主题分布 支持转述、隐喻、跨领域概念关联
计算效率 需复杂对齐(如n-gram比对),耗时 FAISS索引实现秒级大规模检索
解释性 依赖高频词/主题标签,解释局限 可结合相似句对进行细粒度人工验证