数据集并未体现上述

A comprehensive repository of Taiwan's data and information.
Post Reply
Bappy11
Posts: 449
Joined: Sun Dec 22, 2024 6:04 am

数据集并未体现上述

Post by Bappy11 »

2. 数据来源
本文中涉及的所有印章均记录在米诺斯和米克尼申印章文献库(CMS) 中。该项目于 1958 年在马尔堡成立,2011 年迁至海德堡。CMS 旨在记录和发布所有已知的爱琴海印章。2007 年,所有印章描述均被收录在可免费访问的对象数据库Arachne中。在 Arachne 中,每一枚印章都用一个关系数据库模型来描述,该模型包含大约 50 个属性,如印章面数量、尺寸、材质、装饰和象征性图案。这些属性被分为 11 个主题组:›标识‹、›出处‹、›形状‹、›材质与技术‹、›尺寸与保存‹、›装饰的一般信息‹、›风格分类‹、›装饰‹、›人物‹、›除生物以外的象征性图案‹和›生物‹。

本研究共考虑了 1033 枚印章,形成了包含 1033 枚印章的数据集,其中双面印章 301 枚,三面印章 637 枚,四面印章 87 枚,还有一些印章(3 枚、3 枚、1 枚和 1 枚)的面数较多(分别为 5 枚、6 枚、8 枚和 14 枚)。

有关印章的信息通过其开放档案倡议元数据收集协议 (OAI-PMH) [3]端点从 Arachne 导入,然后处理成两个表。第一个表包含每行描述一个印章面部的所有属性,第二个表将属于同一印章的印章面部的所有属性合并到一行中。另一个表包含有关所描绘生物的信息,该表是通过网络抓取生成的。最后,从第二个表中编译出第四个包含地理空间信息的表,每行一个印章,并手动丰富了印章发现地的坐标。这些表构成了本项目中所有应用程序的数据基础,包括此处描述的图形数据库。

3.数据集中的不确定性
此数据集中的不确定性源自三个不同的原因,它们与印章的来源、状况以及最终的人为因素有关。接下来的三个小节将简要介绍这些内容。最后一个小节描述了数据集中的值如何标记为不确定,以及哪些属性实际上包含不确定值。

3.1 来源的不确定性
印章的出处,即发现它的考古背景,对于研究印章的含义非常重要,要考虑印章的存放地点和其他相关物品。可靠的发现背景还可以确定印章的地理定位和年代。对于少数印章,缺乏可靠的背景甚至可能导致对其真实性的质疑。如果印章是在可疑的情况下获得的,在大多数情况下,这意味着它不是在考古发掘过程中发现的,那么关于其地理来源的信息就必须谨慎对待,而且根本无法进行背景年代测定。共有 583 枚印章的地理信息可用,但只有 289 枚印章的可靠背景已知。

3.2 海豹状况的不确定性
印章的整体状况对于印章刻印的鉴定至关重要。研究保存完好的印章比研究破损、破损甚至残缺的印章更容易确定所使用的装饰、象形文字或生物种类。图 2中不同保存条件下的印章可作为直观示例。

图 2:CMS IS 038a 的碎片、略有损坏的 CMS I 287b 和保存完好的 CMS XII 135b。第一面封印描绘的是牛或山羊,而其他面则描绘的是山羊。[图片由 CMS Heidelberg 提供。]
图 2:CMS IS 038a 的碎片、略有损坏的 CMS I 287b 和保存完好的 CMS XII 135b。第一面封印描绘的是牛或山羊,而其他面则描绘的是山羊。[图片由 CMS Heidelberg 提供。]
3.3 人类行为带来的不确定性
印章描述不明确的一个不可预测的原因是人为因素,而人为因素是多种多样的。首先,印章是人造物品,因此在制作印章时,印章雕刻师可能在切割石头时犯了错误,甚至可能故意混淆图案,从而导致构图不明确。此外,雕刻材料、所用工具、风格和雕刻师的工艺也导致对同一图案的描绘大相径庭。通过比较 图 2和图3中描绘的印章侧面可以看出这一点。

所有这些因素都可能导致现代学者在对印章进行分类时,对印章上所描绘的图案的命名产生不确定性。根据学者的背景,由于对其他专业领域的了解不足,可能会产生额外的不确定性,例如对特定鸟类的错误归因。在某些情况下,当多位学者研究同一枚印章时,情况会更加模糊,因为他们的解释可能不尽相同。

当信息被传输到 Arachne 数据库中时,输入错误或留空某些字段可能会带来更多不确定性。后者具有歧义性,因为它可能意味着字段被遗忘或实际上没有可用的信息。

3.4 数据集中的不确定值
Arachne 中使用三种不同的标记来表示数据库中不确定但可能的值:问号(给出不同的选项)和前两种变体的组合。当指示选项时,只给出两个。例如,在图 3中,CMS X 322c、CMS IS 038a 和 CMS III 504a 的属性 ›Lebewesen‹(生物)的值为 ›Ziege?‹(山羊?)、›Rind oder Ziege‹(牛或山羊)和 ›Rind oder Ziege?‹(牛或山羊?)。在数据集中,没有任何值具有超过两个不同的选项。

图 3:三张印章侧面,上面标有无法确定身份的生物。CMS X 322c 上的动物被指定为 ›Ziege?‹(山羊?),CMS IS 038a 上的动物被指定为 ›Rind oder Ziege‹(牛或山羊),CMS III 504a 上的生物被指定为 ›Rind oder Ziege?‹(牛或山羊?)。[图片由 CMS Heidelberg 提供。]
图 3:三张印章侧面,上面标有无法确定身份的生物。CMS X 322c 上的动物被指定为 ›Ziege?‹(山羊?),CMS IS 038a 上的动物被指定为 ›Rind oder Ziege‹(牛或山羊),CMS III 504a 上的生物被指定为 ›Rind oder Ziege?‹(牛或山羊?)。[图片由 CMS Heidelberg 提供。]
对于无法确定的假定存在值,使用术语“undefinierbar”或“undef.”(无法定义,不确定)。术语“Intagliolücke”(凹版中的间隙)也用于类似情况。
一些由人为行为引起的不确定性并未如乌干达电报数据 此表示,因为它们是隐含的,例如由错误或缺乏知识引起的不确定性。通过查阅印刷版 CMS 卷的介绍部分,数据集中添加了一个附加属性,用于说明印章是否来自安全环境。[4]

数据集中几乎所有属性的值都存在不确定性标记。在第 2 节中提到的 11 个主题组中,只有“identification”不包含任何模糊值。

除了为安全环境额外引入的属性外,一些有关印章来源的属性(例如原产地)在被视为可疑时会标有问号。如果印章状况不佳或仅保存了一部分,则印章形状的描述存在不确定性。这就是为什么看似不同的属性(例如整个印章或单个印章面的形状、穿孔类型,甚至在一种情况下——CMS V 256——甚至印章面的数量)并不总是毫无疑问地表明的原因。

主题组“材料和技术”中的属性包括有关印章材料、制作印章所采用的技术以及任何其他值得编目的细节的信息。数据集中所有这些属性都存在不确定值。

可以预料的是,包含尺寸的“测量和保存”组中的属性不包含任何不确定值。相反,印章的保存状况则包含不确定值,尤其是当无法可靠地表明印章上有工具痕迹或烧毁迹象时。

所有描述印章上雕刻内容的属性都具有不确定的值。它们属于主题组›装饰的一般信息‹、›风格分类‹、›装饰品‹、›人物‹、›除生物以外的形象图案‹和›生物‹。除了上图 3中给出的不确定识别生物的示例外,还应提供另外两个案例。
Post Reply