斗拱构件知识图谱的构建

作者: 刘星

斗拱构件知识图谱的构建 0

当前针对本体的知识图谱在存储复杂实体知识方面存在局限,难以满足像斗拱这样复杂组合体的知识存储与应用需求。为更好地分析斗拱各构件间的关系,实现斗拱知识的数字化存储与应用,文章基于明清时期文献中关于斗拱的种类、位置、尺寸、构件等关键概念,以及构件间的约束关系,构建了全面的斗拱构件实体知识图谱。文章利用图数据库Neo4j进行知识图谱的存储与管理,为复杂实体的知识存储与分析提供了创新的解决方案,并为明清斗拱的数字化研究与应用提供了新思路。

斗拱是古代木制建筑的重要组成构件,融合了力学与美学的价值,体现了丰富的历史文化,彰显了中国古代建筑的伟大成就。作为构件间相互组合约束的复杂组合体,斗拱由多种多样的单一构件按照特定的规则组合而成,其种类、尺寸、位置以及构件之间的连接关系规则,构成了一个复杂的知识体系。在当今数字化技术快速普及发展的背景下,对斗拱的研究逐渐由传统的纸质文献和事物测绘转向数字化保护和信息化管理。然而,斗拱相关知识大都散落于书籍之中,如何有效地存储、组织和应用斗拱相关知识,来满足数字化保护和实际应用的需求,仍然是一个重要的课题。知识图谱以节点和关系的形式来表达实体及其间的关系,能够清晰明了地展示复杂实体的结构和内容,因而在信息管理和知识表达领域得到了广泛应用。针对斗拱构件种类繁多、关系复杂的特点,构建斗拱知识图谱可以有效地梳理斗拱相关知识,并为其数字化保护、构件分析和三维建模提供基础支持。

文章以明清时期的斗拱文献为基础,围绕斗拱的种类、位置、尺寸、构件及其间的约束关系,提出了构建斗拱构件知识图谱的方法,利用Neo4j图数据库对斗拱的知识进行存储和可视化展示,并形成了一套完整的构建流程,为复杂实体的知识图谱构建提供了新的思路,同时也为斗拱的数字化保护与应用奠定了基础。

研究现状

知识图谱是一种以图形化形式表示知识的工具,能够清晰地展示实体及其关系。通过结构化和语义化的方式,知识图谱可以有效地组织信息,帮助人们更好地理解和使用领域内的知识。针对小规模专业领域的研究,研究人员深入剖析中医典籍里的病症及其相关属性,手工构建出中医古籍知识图谱。大规模知识图谱构建是个难题,研究人员提出基于大语言模型的科技领域知识图谱构建方法。这种方法采用分层架构,把数据存储、知识构建以及应用展示整合起来,实现了科技领域知识的高效提取与利用。在古建筑领域数字化应用方面,学者通过运用贝叶斯算法对古建筑构件及其关系进行建模,以数据驱动的方式实现快速模型生成。用户只需在交互式界面选取少量构件前提,即可完成古建模型的生成。古建筑知识库在遗产保护中起着关键作用,研究表明,系统化的知识库所提供的信息对古建筑修复和保护至关重要。

图谱构建方法

属性和关系。斗拱这一实体的属性和关系相对简单,采用手工创建的方式能够满足需求。由于目前缺少相应的数据库支持,无法依赖已有的基础进行扩展,因此文章选择自下而上的手动创建方法来构建斗拱的知识图谱。该知识图谱构建分为以下5个步骤(如图1所示)。

建立知识图谱搭建框架:根据斗拱的搭建法则构建一种适用于斗拱构件实体的知识图谱搭建框架。

概念层的构建:采用自下而上的方法,从基础数据出发,逐步建立图谱的基本概念结构。

知识抽取:利用半结构化的XML等数据以及非结构化的书本、图片等多源数据,系统地抽取了斗拱实体、关系和属性信息,并进行整理。通过深度挖掘这些数据源,提取出关于斗拱的信息,包括不同构件的特征、它们之间的关联关系以及相关的属性。

知识加工:整理抽取的知识,按照不同的斗拱构件,对实体和关系进行精细的数据加工。

知识存储:利用Neo4j图数据库存储与斗拱相关的知识数据。Neo4j提供了强大的图数据库管理系统,能够有效地组织和查询斗拱知识图谱,为我们的研究提供可靠的基础。

想法和框架。斗拱的造型极为复杂,构件间遵循特定的搭建法则,使得斗拱成为一个构件间相互约束的复合体。由于斗拱具有特殊性,因此目前尚缺乏统一的分类标准,而根据不同特征属性可以将其划分为多个类别。文章通过深入分析斗拱的空间结构、构成构件以及连接关系等,提出了一套适用于斗拱构件标注的知识图谱构建规则。这些规则不仅考虑了斗拱的整体形态,还充分考虑了构件之间的相互作用,为知识图谱的构建提供了具体而全面的指导(如下页图2所示)。

在对斗拱进行知识划分时,根据其所处的空间结构,将斗拱划分为不重合的不同空间单元,每个空间内的斗拱包含不同的类型和属性。根据斗拱及其构件的形制,我们将其划分为斗、升、昂、翘、拱等类别。每类构件根据自身特性进一步细化为多个子类,而每个子类又依据不同的斗拱属性生成独特的构件实例。不同的构件通过不同的榫卯以特定方式进行连接,销子榫卯用于竖直方向有关系的构件相叠(如昂和翘之间),刻半榫卯用于构件之间十字插交的情况(如拱与翘),而剔(入)袖榫卯则用于构件的相邻连接(如栱与十八斗)。

同时,构件的空间与结构属性直接影响其连接关系。各构件实体通过特定的连接方式彼此关联,不同要素的属性相互制约与作用,共同构成完整的斗拱整体。这一知识体系为斗拱构件实体知识图谱构建提供框架。

知识图谱构建。斗拱构件知识图谱构建分为以下3个步骤(如下页图3所示)。

概念层构建,知识图谱的概念层主要是指图谱主体框架的构建,需要对图谱的实体和关系进行定义。斗拱构件知识图谱的构建,首先分析斗拱空间结构形式以及基元构件和连接关系,以斗拱空间位置、斗拱形制、构件实体进行划分。按照斗拱所处的空间位置划分不同的空间。根据斗拱的类型划分不同类型的斗拱(斗科、品字科等),每种类型包含不同的构件。不同的构件实体按照形状特征及空间位置划分为斗、升、昂、翘、拱等类别,进一步划分到特定的基元构件(大斗、三才升等)。构件实体间通过特定的连接关系形成完整的斗拱。图谱模式层(如图4所示)。

知识抽取。从《斗拱》《工程做法则例》《中国古建筑木作营造技术》等相关资料中获取信息,采用属性和关系描述模式层的结果。在实体描述方面,包括斗拱名称、斗拱构件名称、斗拱种类等(如表1所示)。对于关系的描述主要涵盖斗拱的空间关系、斗拱与构件之间的关系、构件之间的连接关系等。共有九类关系用来描述概念及它们之间的关联(如图5所示)。

知识加工,通过斗拱资料制定表示文本资源规则,为斗拱资料的内容分析、编辑、加工等工作提供基准。采用Neo4j软件数据格式,对抽取的知识数据进行详细的分析、加工和转换,包括XML、WORD、JPG、PDF、TXT等文本及图片文件,实现对斗拱文本的结构化分析处理。同时,将从资料中提取的实体、属性和关系整理为结构化数据,为构建斗拱知识图谱提供必要的基础支持。整理后的资料内容(如表2所示),为后续的知识存储提供了基础保障。

知识存储与可视化展示。文章采用Neo4j图数据库管理系统来储存数据和可视化。Neo4j使用图像来表示和储存数据,数据由节点(Nodes)和关系(Relationships)组成,这种模型非常适合表示斗拱这种构件种类多和连接关系较为复杂的实体。通过图源数据可以更直观有效地对斗拱构件知识进行可视化展示和调用。在数据处理过程中,将加工整理后的知识数据进一步加工为结构化数据的CSV文件(如表3所示),并通过导入功能加载至Neo4j系统中。

将这些资料按照模型层结构以及上文定义的规则进行斗拱本体知识图谱构建,并将实体知识数据存储到Neo4j图数据库中。褐色圆圈表示斗拱分类节点,粉色圆圈表示斗拱构件实体节点,绿色圆圈表示斗拱位置实体节点,黄色圆圈代表斗拱形制实体节点,蓝色圆圈代表斗拱构件类别实体,橙色圆圈代表具体的类型斗拱实体。圆圈之间的连线代表各实体关系。该图谱涵盖明清斗拱中的13类主要类型斗拱与各部分之间的关系,形成了一个完整的明清斗拱知识库。利用Neo4j图数据库中的Cypher语言完成对数据库的增删改查操作,实现对每一个斗拱的检索、遍历等功能。

文章详细介绍了手动构建斗拱构件知识图谱的方法,并介绍了斗拱构件实体知识图谱的构建流程。针对斗拱这种复杂组合体的节点及关系繁多且难以梳理的情况,提出一种知识梳理框架,明确整理斗拱构件的种类、位置、尺寸及其约束关系,并以此为基础构建知识图谱。在梳理斗拱的知识之后,利用Neo4j图数据库存储知识,用属性图模型表示知识。最后利用Neo4j图数据库可视化地展示斗拱构件实体知识图谱。文章构建的知识图谱为复杂组合体的知识整理与存储提供了方法参考,同时也为斗拱的数字化保护和知识应用提供了支持。

(作者单位:北京建筑大学 测绘与城市空间信息学院)