Taiwan Database

Posted: **Thu Feb 06, 2025 6:17 am**

[ 20 ]然而，语言模型的编辑潜力尚未得到充分利用——因为有时很难跟上模型的发展或其用户界面或功能范围的变化。此外，由于系统的工作方式，重现结果时会出现一些根本问题。目前，编辑团队主要使用 OpenAI 网站的图形界面与 GPT-4 或 4o 进行交互。在 2024 年 5 月的一次研讨会上，格拉茨大学信息建模中心的历史学家 Christopher Pollin 向编辑团队介绍了生成语言模型在编辑工作中的可能用途。此外，双方还共同尝试实现实体的部分自动化标记。这些可以改善目前 5,000 个编辑协议的内容索引的定量和定性范围。理想情况下，人们可以使用常见的商业 AI 模型来至少支持有时重复且无趣的命名实体识别(NER)工作，例如针对地理特征或人物。然而，很快就发现，尽管具有明显的潜力，但通过当前可用的大型语言模型 (LLM) 聊天机器人实现所需的连续和可重复的处理仍不能令人满意地得到保证。

[ 21 ]发现了三个主要问题：首先，模型的上下文窗口无法应对各自编辑协议的文本量。其次，研究数据缺乏可重复性，语言模型的幻觉是一种反复出现的现象——尽管考虑到这些模型的一般随机操作原理，目前仍不清楚是否有可能获得完全可重复的结果。第三，首先清理 XML 数据，然后将结果转换回 TEI-XML 格式的过程需要太多额外努力。

[ 22 ]在对个人协议和编辑程序的个人索引进行初步实验时，使用了当时流行的 GPT-4o 模型来识别命名实体，例如个人（姓氏）或地名，以结构化的方式准备它们并将它们与我们个人列表的标识符链接起来或从根本上促进这种链接。仅部分成功的实验向我们表明，使用提供的用户界面尚无法以一致的质量实现研究数据的可重复性。我们还观察到了前面提到的产生幻觉的倾向，而不是例如发出错误消息或清楚地传达未找到匹配项的倾向。因此，编辑团队仍需要进行详细的后续检查，因此迟早会出现努力和回报的问题。例如，目前看来，使用定制的 Oxygen 编辑器机制（脚本、正则表达式等）编辑文档似乎比改进 AI 模型的输出更经济。

[ 23 ]与这种明显基于规则的 NER 操作相比，错误率较低的是各个协议的内容摘要或主题和论证线索的提取。这显示了具有广泛上下文范围的语言模型的潜力，这对于用户而言尤其重要，因为需要总结持续数小时的会话并在经典但有限的全文搜索之外提取或定位所需主题。然而，目前的定价使得将语言模型 API 集成到网站搜索中对于较小的机构来说很大程度上没有吸引力或具有财务风险。[19]

[ 24 ]长期使用的另一个问题是，开发的结果和工作流程是否也适用于 ChatGPT 或 Gemini 的后续版本，或者是否需要进行调整，这一点值得怀疑，但调整的程度很难估计。大多数提供商都是商业公司，他们提供专有软件，但研究人员无法查看其代码或训练数据。更为严重的是使用此类模型时的数据安全和数据保护问题。由于提供商使用的训练数据的机密性，可以假定[20]与语言模型的聊天记录用于训练进一步的模型。对于已经出版的版本来说，这可能不是什么大问题，但如果你使用的未出版来源包含已出版版本中可能不再存在的个人数据，那么违反 GDPR 几乎是不可避免的。并非每个版本都能够与 LLM 运营商签订单独的数据处理协议，甚至要求在 GDPR 范围内专门处理数据。[21]

[ 25 ]然而，随着技术的进步，我们的评估当然可能会改变。在 LLM 的未来迭代中，除了训练和数据语料库之外，还将特别关注上下文窗口。该模型以多模态形式吸收知识的能力使其能够被结构化为标记[22]并通过训练后的语料库进行扩展。目前，可以使用检索增强生成(RAG)技术来扩展预训练 LLM 的上下文知识。为此，我们为法学硕士 (LLM) 提供了额外的资源。这些源可以通过 API 连接到语言模型。因此，法学硕士不仅可以利用其背景知识来寻找答案，还可以搜索链接的外部资源。这减少了 LLM 对特定问题的答案的幻觉。[23]作为版本的一部分，可以想象使用这项技术使人员 XML 作为外部数据集合可搜索，并可用于在协议内标记人员。然而，由于对编程语言技能的要求很高，并且需要访问 ChatGPT API，迄今为止所有的尝试都失败了。[24]

[ 26 ]然而，RAG 技术可以被 LLM 的上下文窗口所取代。预计大型语言模型的进一步发展还将伴随着先前有限的上下文窗口大小的扩展。[25]这将使得必须通过 RAG 引入的数据和知识源可以作为文档或直接作为纯文本集成到提示中，从而可以将信息添加到聊天的上下文知识中。目前，自动人员标记仅适用于列表的一小部分，因为整个文件太大，无法直接在上下文窗口中处理。[26]

[ 27 ]另一种选择是可作为开源模型的 LLM。它们通常具有更高的可配置性，乍一看具有很大的潜力，但在实践中需要针对特定的应用场景对本地语言模型进行大量的微调。这种微调尤其需要对此类机器学习技术有深入的了解。此外，为了能够有利地训练和使用任何模型，对硬件的要求很高。即使大型语言模型领域的开源文化对于人文学科甚至编辑工艺而言都是可取的，但很明显，即使是大学这样的大型机构也依赖于商业模型，尤其是在人文学科领域，它们不会训练自己的模型——目前，这项工作的努力和对专业知识的要求实在太高，不值得，例如，专门在 TEI XML 和行政文本上训练模型。‍ [27]在商业模型与训练和微调自己的模型之间的决定目前相对明显地有利于商业提供商：尽管每个项目都必须权衡其个性化需求、团队在机器学习领域的内部知识和财务资源，但在可预见的未来，训练自己的模型的巨大努力将继续成为使用专门在协议上训练的 LLM 的决定性障碍。

[ 28 ]除了可用作聊天机器人的模型外，语言模型技术已被证明非常有用且适合在其他编辑工作领域日常使用。最重要的是，这里应该提到在转录与当代证人的访谈时自动转录音频文件，这项操作作为编辑工作的一部分反复进行。为此，该版本使用了 OpenAI 的开源软件Whisper。特别是，本地安装的可能性允许软件离线使用，这使得可以使用它处理敏感数据。事情变得更加简单的是，在这种使用场景中，不需要保证 100% 准确的转录[28]，相反，该技术代表了一种更好地获取内容的工具，否则将需要花费大量时间费力地进行手动转录。

[ 29 ]自动转录在未来的另一个可能用途可能是处理议会小组会议，这些会议被记录为录音，并在编辑过程中进行转录。在自动语音识别软件的帮助下，音频文件现在可以转换成初始书面形式。初步测试表明，该软件对噪音非常不敏感[29]，可以将其从转录中过滤掉。技术术语和标点符号的转录也通常出奇的准确 - 但需要注意的是，较长的转录结果有时需要经过重大修正才能实现。 Whisper 提供的四种型号尺寸各有不同的优点和缺点，使用时必须权衡。例如，最小的模型对噪音的抵抗力较差，不太可能正确转录技术术语或专有名词，而最大的模型可以更好地转录更复杂的句子和单词，但很容易产生幻觉。然而，当需要用上下文知识丰富源数据时，所有转录模型都会失败。在议会小组会议上尤其如此，需要根据上下文识别发言者，或者处理需要与背景噪音区分开来的插话时。对于一位长期从事该项目的经验丰富的打字员或长期任职的编辑来说，相对容易的事情 - 例如，在转录过程中识别谁实际上隐藏在相同的姓和名后面，或者议会成员在批评“叔叔”，即赫伯特·韦纳，或起哄时指的是谁，这些相当简单的任务 - 但对于 Whisper 来说却是困难的，或者（仍然）不可能的。然而，鉴于该领域的快速发展，从事转录的出版商最终将不得不问自己成本问题。您可能需要考虑重新进行自动转录是否比雇用高度专业的专业人员更具经济意义。
工作中有效使用的前景存在分歧：鉴于近几个月和几年大型语言模型领域的快速发展，我们当然认为这是一种可以用于未来各种编辑项目工作流程的技术。然而，这些模型目前以及未来的固有局限性阻碍了它们在所有重视准确性和最重要的可重复性的领域的应用——然而，这些特征对于科学版本来说至关重要。另一方面，我们可以想象它在文本的解释学评估、准备性文本挖掘以及远距离阅读模型意义上的长文本的基于内容的探索中的应用是非常有用的。这种使用不马耳他电报数据会取代实际的科学评估，但会促进行政海量文本的处理。

脚注
[ 1 ]
参见Plener 等人。 (ed.) 2023和Balke 等人（编）2016 年。
[ 2 ]
Bracher 等人（主编）1993 年。
[ 3 ]
由于第一和第二届德国联邦议院（1949-1953 年和 1953-1957 年）中一些规模很小且短命的派系和团体，例如中央党、德国共产党、社会主义帝国党或德意志党，资料来源困难甚至不存在，因此必须取消这些政治团体的会议记录编辑。因此，该版本目前包括了基民盟/基社盟、社民党、自民党、绿党、民主党和基社盟国家党的派系或团体。
[ 4 ]
议会制和政党史委员会 eV（编辑）2018 年。
[ 5 ]
由于目前的情况（通常相对较短的（结果）协议），自民党议会党团和基社盟地区党团迄今已编辑并出版了几个选举时期（例如 1949 年至 1969 年或 1969 年至 1983 年的时期）的摘要形式。
[ 6 ]
有关议会党团在德意志联邦共和国议会制度宪法结构中的角色和功能，请参见例如Lohmar 1975和Schüttemeyer 1998以及Heer 2015。
[ 7 ]
这尤其适用于对德国社会民主党联邦议院议会党团会议的录音记录，尽管这些记录在严格意义上并不构成真正的会议记录，但它们明确地被议会党团或其领导层用作会议记录。
[ 8 ]
尤其是在当代的抄写中，打字员可能会犯错，然后通过划掉明显的错别字来删除它们，或者在错误遗漏的情况下，他们会将缺失的部分插入行间（手写），但这在内容上没有任何意义。在某些情况下，打字员还会以视觉方式突出显示他们认为特别重要的文本部分，例如通过下划线。
[ 9 ]
这通常是通过联邦议院各自的唯一印刷品编号以及全体会议各自的唯一会议编号来完成的。在数字版中，这些标识符随后用于通过解析器生成议会材料文档和信息系统 (DIP) 的文档服务器的相应 URL。这里的问题是缺乏联邦议院的 URL 方案的文档以及持久性状态不明确。因此，对于 2024 年之后的版本中包含的所有文件，只需参考 DIP 的永久 ID。
[ 10 ]
然而，这通常需要大量的人工参与，目前无法通过使用人工智能来减少这些人工参与（见下文相关部分）。
[ 11 ]
参见Kurz 2024，第 355 页；Sahle 2013，第 218-219 页。
[ 12 ]
考虑到既定的印刷标准（例如，参见 Forssman / Willberg 1997或Bringhurst 2012），人们经常认为，设计精良的印刷版的可读性优于网页。然而，这种说法只是部分正确，因为它主要关注视力正常的读者，并没有考虑到残疾人（例如学习障碍人士）的不同需求。 B. 盲人或者视力受损的人。特别是具有响应式设计、屏幕阅读器支持和可调节字体大小的无障碍网站为这些群体提供了更好的可访问性。根据读者的具体要求，数字空间的可读性可以相当于或优于印刷版的可读性。
[ 13 ]
Sahle 2013，第 61 页。
[ 14 ]
这个问题必须仅从财务原因来回答，因为图书市场成本的激增意味着未来越来越多的出版资金将不得不流入这一领域，而这些资金将不再用于实际的编辑工作和出版。
[ 15 ]
为此，决定从2023年开始逐步将以前仅以印刷版形式提供的旧科学介绍转换为XML格式，并尽快将其在线提供。
[ 16 ]
德国联邦议院已在议会信息系统中为每位德国联邦议院议员分配了一个统一的标识符（一种个人身份识别号码），以便在议会记录的 XML 版本中可以清楚地引用被赋予 ID 的发言人。然而，德国联邦议院并不与德国国家图书馆的通用权威文件（GND）合作，因此德国联邦议院的议员数据既没有 GND ID，也没有将没有 GND 条目的议员数据报告给 GND。
[ 17 ]
然而，值得注意的是，即使是带有注释和标记装置的经典书籍版本也始终是面向互文本和超文本的。例如，参见Genette 1993。
[ 18 ]
有关数字版的起源和编辑项目工作流程的转变，请参阅Oberhoff 2022，第 20-21 页。
[ 19 ]
顺便要注意的是，在使用语言模型和成本效益分析时，应该始终考虑当前非常大的生态足迹。另请参阅德语国家数字人文协会绿化 DH 工作组的考虑。五、
[ 20 ]
参见Albrecht 2023，第 25、83 页。
[ 21 ]
考虑到 OpenAI、微软或谷歌的商业行为，即使对于大公司来说，后者实际上也是不可能的。
[ 22 ]
语言模型将输入和输出文本分为所谓的标记。这种标记化通常基于不同的技术。因此，单个或多个字符甚至整个单词都可以是一个标记，参见 Siebert / Kelbert 2024。
[ 23 ]
参见Honroth 等人。 2024 年。
[ 24 ]
后者还带来了计费问题，因为 Plus 模式只能通过信用卡使用——对于 KGParl 这样的机构来说，这是一种相当不寻常的计费程序，在预算审计中也经常受到批评。

Taiwan Database

正如前面所指出的

正如前面所指出的