为了解决这些问题，我们比较了以下两种使

Bappy11 · Post by **Bappy11** » Thu Feb 06, 2025 8:05 am

当今社会面临的一个关键挑战是文化遗产的数字化访问。光学字符识别(OCR)技术已经改善了这一问题，即计算机程序从数字图像中提取文本，以便从该图像中提取文本并将其呈现为机器可读的形式。对于历史印刷品，现成的 OCR 解决方案通常会导致读取不准确。访问数字化文化遗产数据的另一个障碍是，文化遗产机构提供大量未经过 OCR（或 OCR 质量很差）的历史印刷品数字化图像的在线访问。改善这种情况的解决方案将使广泛的参与者受益，无论是学者还是普通观众。许多参与者确实会从设计用于从图像中提取高质量机器可读文本的方法中受益匪浅。

[ 2 ]通过使用预先训练的模型并仅在表现出相似特征的少数样本上对其进行微调，可以显著改善 OCR 方法的结果。[1]为此，数字人文界越来越努力地创建和发布特定历史时期、语言和字体的数据集，旨在使学者能够针对其收集的历史文献微调 OCR 模型。[2]在德国，由 DFG 资助的 OCR-D 计划汇集了主要研究图书馆，目标是创建一个用于历史印刷文档 OCR 的开源框架，包括 OCR 基本事实的规范和指南。[3]

[ 3 ]为了提高 OCR 结果，图像和相应的转录本以这样的方式收集：每对（图像和文本）仅代表原始页面中的一行文本。这被称为真实数据集，这正是我们接下来要关注的重点。

[ 4 ]除了手动创建图像转录是一项繁琐的工作之外，这种集体努力还产生了另一个主要问题，即制作扫描件的机构通常会声称对其拥有某种形式的版权。例如，在任何 PDF 的第一页上，Google 图书 »[…] 要求您将这些文件用于个人、非商业用途« [4]。因此，旨在创建 OCR 基本事实数据集的学者无法确定是否可以将重新分发从 PDF 中获取的文本行图像的权利视为已授予。

[ 5 ]本文介绍了一个 OCR 基本事实数据集，其中图像数据的版权设置不明确。我们讨论了法律背景，展示了数据集的相关性，并通过研究两种不同的方法来克服版权问题，深入分析了其构成和重用。
用图像数据发布OCR真实数据集的方式。

由于 Google 图书与文化遗产机构 (CHI) 合作将图书数字化，因此我们征得了 CHI 的许可来重新分发图像数据。
我们发布了一个数据集公式，其中包括转录、图片来源链接以及有关如何构建数据集的说明。对于此过程，我们提供了一个快速、高度自动化的框架，使其他人能够重现数据集。
2. 社区卫生机构的法律背景及其解释
[ 7 ]要明确图书扫描件的版权状况，需要考虑每本书所属的文化遗产机构（通常是图书馆），以及在公私合作的情况下，参与数字化的扫描机构（例如 Google Books）。对于 Google Books，CHI 和 Google 之间存在不同的合同，并秘鲁电报数据非所有合同都向公众开放。但是，通过比较现有的合同，我们假设其他合同在某种程度上是相似的（参见合同清单）。合同包含有关›图书馆数字副本‹的信息，其非营利用途在第 4.8 节中定义（参见英国图书馆 Google 合同），其中规定

“图书馆可以将全部或部分图书馆数字副本（即 [...] 公共领域作品的数字副本）提供给以下对象：（a）学术机构或研究图书馆，或（b）图书馆提出请求并经谷歌、其他不提供与谷歌所提供的搜索或托管服务实质上相似的搜索或托管服务的非营利性机构或政府实体。“ [5]

[ 9 ]当尝试根据此处介绍的用例解读这些法律信息时，会出现多个问题。对于个人学者来说，使用图书馆公共领域作品的数字副本有哪些法律可能性？公共领域作品的使用会受到哪些限制？OCR 模型训练的用例是否与 Google 提供的任何搜索或托管服务基本相似？图书馆是否会充当经纪人，是否可以与 Google 协商非营利用途的书面协议？

[ 10 ]在第 4.8 节的后续部分中，关于“其他机构”的数据重新分配的更多细节被详细说明，其中

»[与谷歌达成的书面协议]将禁止该附加机构将图书馆数字副本的部分内容重新分发给其他实体（除了向学者和其他用户提供或使内容可用于教育或研究目的之外）。« [6]