[ 23 ]对于基于CIIC的欧甘文数据

A comprehensive repository of Taiwan's data and information.
Post Reply
Bappy11
Posts: 449
Joined: Sun Dec 22, 2024 6:04 am

[ 23 ]对于基于CIIC的欧甘文数据

Post by Bappy11 »

3.1.1 地理数据
[ 12 ]地理空间数据来自三个不同的来源:爱尔兰共和国 (爱尔兰地形测量局,OSi) 和北爱尔兰 (北爱尔兰地形测量局,OSNI) 的政府测量办公室,以及通过爱尔兰 Townlands平台从Open Street Map获取的社区数据。不同的数据提供商以不同的地理数据格式(尤其是ESRI 形状文件)和不同的许可证提供他们的地理数据: CC BY-SA 4.0、开放政府许可证版本 3(OOGL v3)或开放数据共享开放数据库许可证(ODbL)。表1列出了这里使用的层及其许可证:

机构 姓名 执照
硅基 各省 – OSi 国家法定边界 – 广义 20 米 版权声明:
光学信息接口 OSNI 开放数据 – 大规模边界 – NI 大纲 OOGL v3
硅基 行政区域 - OSi 国家法定边界 - 广义 20m CC BY 4.0
光学信息接口 OSNI 开放数据 – 大规模边界 – 县边界 OOGL v3
硅基 行政区域 - OSi 国家法定边界 - 广义 20m CC BY 4.0
开放状态管理模块 townlands.ie OSM 数据 光密度
硅基 城镇 - OSi 国家法定边界 - 广义 20 米 CC BY 4.0
光学信息接口 OSNI 开放数据 – 50K 边界 – 城镇 OOGL v3
表 1:地理数据和许可证的源层。 [蒂埃里 2022]
3.1.2.欧甘文数据
[ 13 ]欧甘文字数据来源于模拟文献和数字来源。最重要的模拟源是CIIC [33]和GTO [34]。最重要的数字源(如在线数据库、存储库和 Access 数据库)包括CISP [35]的在线数据库(Web 界面) ,以及 O3D 项目[36]的在线数据库(Web 界面)和存储库(EPIDOC 文件) 。

[ 14 ]CIIC主要作为根据 Macalister 为 CIIC 宝石建模的基础(参见第 3.2 章)。作为此来源中信息类型的一个示例,对 Kinalmeaky 男爵领地的 CIIC 81 的描述如下所示:

»81.加拉内斯(84)。 [...] 在这个镇区有一组有趣的土方工程,最近经过了挖掘检查。 C[A]SSITT[A]S MAQI MUCOI CALLITI。这块石头自二十世纪六十年代以来就已为人所知,似乎来自该群的一个地下室;在温德尔的时代,它松散地矗立在地面上,与另外一两棵树相邻,但它肯定在那之后不久就倒塌了;它长时间地匍匐在一条沟渠上,那是我第一次看到它的地方。它现在位于科克大学学院博物馆。一根不规则的粘土板岩柱,尺寸为 5' 9'' X 1' 7'' X 0' 7'':铭文从距一个角的底部 2' 6'' 处开始,延伸到顶部,并于距相邻角的底部 3' 0'' 处结束。它由粗体刻痕、冲压和摩擦制成:有一点缺口,所以一些元音丢失了,但读音毫无疑问。第一个单词“I”的凹口被意外地组合在一起形成了 AUA,但雕刻者的意图是毋庸置疑的。在首字母“C”之前有一些划痕,显然是现代的,但无论如何都没有什么意义。“ [37]

[ 16 ]在GTO [38] 中,欧甘语词被描述为公式词[39]和命名词[40]。使用命名词时,需要注意的是

»[...] 欧甘语料库中的人名几乎全部以属格出现(见§6.25),大致可分为三类:(A)复合二元词名称(德语 Vollname),(B)带或不带后缀的非复合单元名词和形容词(德语 Kurz- 和 Kosename)和(C)结构为屈折名词 + 从属属格或属性形容词的非复合二元词名称« [41]。

[ 18 ]这里收集的›命名词‹数据主要参考 MacManus 的 (A) 和 (B)。 (A)的例子有»CUNA-(也称为CUNO-、CONU-、CVNO-)« [42]或»CAT(T)U-(也称为CATA-、CAT-、CATO)« [43],或(B)»[...] 5 ALATTOS,215 ALATTO(gen. Alta,OI allaid ›野生的‹),90 BAIT(Báeth,báeth ›愚蠢的‹)[...] 277 BIR(Berr,berr ›短毛的‹)« [44]。公式词的突出例子有»[...] MAQ(Q)I (MAQ, MAC, MACI, MACCI 等),铭文上出现频率最高的词是 gen sg。 PI *maqqas [...] 是爱尔兰语中表示“son‹ [...]« [45]或 »[...] 的标准词,MUCOI (mocu, maccu) 在后来的爱尔兰语中被局限于刻板序列 X mocu Y 和 mocu Y [...]« [46]。

[ 19 ]CISP和 O3D的数据库和存储库中包含大量爱尔兰欧甘石碑等,以及关于位置、测量、铭文和各个科学家的抄写的更多信息,以及铭文上提到的人物的信息。在CISP 数据库中的信息以HTML/XML格式提供;在O3D 存储库,这些数据被编码在EPIDOC 文件中。参考文献主要通过CISP 数据库中Macalister 出版物的页码提供 (但不在作者当前可用的 Access 数据库中,也不在CIIC编号系统中),例如B.GARES /1 =Macalister/1945:81。

[ 20 ]查找位置的数据对所有来源都构成挑战。O3D项目尽可能提供“找到”、“原始”或“最后记录”的 GPS 坐标,例如B.中智12 . CISP 数据库在在线数据库中提供了›爱尔兰电网参考‹,例如B. Garranes (W 472 629),但有时不完整,例如B. Glanmore (Q 661 52),这使得有效转换为WGS84 [47] 变得复杂,例如使用 爱尔兰网格参考查找器。从CIIC传输位置信息也是一个挑战。尽管可以假定“数字右边” [48]提到的地方 代表一个镇区,但即使借助男爵领地和县的信息,分配通常也很困难。爱尔兰城镇档案库 (Irish Townlands Repository)是第一个可供比较的资料来源。然而,在某些情况下,麦卡利斯特的信息缺失、不完整或不正确(例如拼写错误、地名错误)。此外,1995年至2021年期间还进行了领土改革。因此,一些城镇土地无法被直接识别,或者只能在其他存储库的帮助下进行观察和合理性检查后才能识别。例如B.爱尔兰历史环境查看器和地名数据库(Logainm)。

3.2 数据收集、数据处理和数据丰富
[ 21 ]对于已发表的数据,进行了数据收集(数字化)、数据处理和数据丰富。对于地理数据和 Ogham 数据,必须分别考虑这些方法。处理的基础是postgres / PostGIS数据库, CISP项目提供的Access数据库最初集成到该数据库。地理数据 (OSi、OSNI、OSM) 的Shapefile 也使用 QGIS 软件进行传输。所有其他数据都可以通过几个步骤和用 Python 编写脚本以 CSV 格式传输到数据库(参见第 3.2.2 章)。以下小节展示了如何收集、处理和丰富个人数据。

3.2.1 地理数据
[ 22 ]爱尔兰岛、爱尔兰共和国(RI)和北爱尔兰(NI)行政单位、省、郡、男爵领地和镇区等行政边界的基础是第 3.1.1 章中提到的数据。这些被使用 QGIS 软件(特别是来自 RI 和 NI 的地理数据)聚合成一个公共的“岛层”,并移动到 PostGIS 数据库。特别值得一提的是,岛屿和国家边界的数据是从各省的地理数据汇总而来的。对于北爱尔兰的男爵领地,使用了 OSM 的数据,因为 OSNI 没有提供数据。城镇数据缺失区域(都柏林、科克、戈尔韦和沃特福德市区的数据)被数字化并与城镇地理数据合并。在 postgres 数据库中,除了城镇之外的所有实体(因为它们没有完全包含在 Wikidata 中)都已分配 Wikidata ID(使用来自 Wikidata 的数据)。在爱尔兰城镇管理局的帮助下,这些城镇被分配了 OSM ID 和 Logainm ID ,这也确保了进一步的互操作性。

3.2.2 欧甘文数据(石头、遗址、铭文) 巴拉圭电报数据 进行手动数据收集(逆数字化)。这是由 Sophie C. Schmidt 和 Florian Thiery 在电子表格中手动完成的。这些数据以 CSV 文件 的形式构成了PostgreSQL数据库的基础。在 PostgreSQL 中,这些数据被链接并以 CSV 格式提供(参见第 3.4 章)。各个站点的坐标创建遵循第 3.1.2 章中的程序。

[ 24 ]CISP数据库中的 Ogham 数据最初已经作为 postgres 数据库提供。该数据库首先通过SCRIPTTYPE = ogams / ogham / Ogams / Ogham和 COUNTRY = Ireland进行过滤。所得到的石头可以链接并以 CSV 格式提供(参见第 3.4 章)。但是底层的Access数据库并不完整。在线数据库缺少一些信息[49](例如 GRID 坐标、参考文献)。这些都是手动数字化并集成到数据库中。随后的GRID坐标转换按照3.1.2章描述的工作流程 进行。

[ 25 ]O3D 项目的数据既可以作为 EPIDOC 文件提供,也可以作为网站上的信息提供。使用Python 脚本解析EPIDOC 文件,并将生成的 CSV 集成到 postgres 数据库中。此外,还从网站上手动数字化了其他信息(例如,欧甘文铭文),并将其作为 CSV 集成到数据库中。处理后,数据可以链接并以 CSV 格式提供(参见第 3.4 章)。

[ 26 ]根据前面介绍的欧甘石文的步骤,人们创造了一种所谓的松鼠石[50],作为“石头数据容器” 。此欧甘石松鼠识别号集成了CIIC 、CISP和O3D系统的欧甘石。

[ 27 ]有关单词的信息从GTO [51] (参见第 3.1.2 章)数字化,并以 CSV 格式导入到 postgres 数据库中。可以使用 Python 脚本从CISP和 O3D项目的数据集合中提取欧甘石上的人物,并将其作为 CSV 导入 postgres 数据库(参见 第 3.1.2 章)。经过数据准备和链接后,这些数据可以以 CSV 格式提供(参见 第 3.4 章)。
Post Reply