中国语言文学系

Department of Chinese Language and Literature

纪要|【傅璇琮学术讲座08】王宏甦:网络基础设施中的中国历代人物传记资料库

 

2018年6月22日上午,“傅璇琮学术讲座”第八讲在清华大学新斋304室举行。应清华大学中文系邀请,中国历代人物传记资料库项目经理王宏甦老师作了主题为“网络基础设施中的中国历代人物传记资料库”的精彩报告。讲座由中文系李飞跃副教授主持,刘颖教授、马银琴教授和中国古典文献研究中心张力伟研究员等数十名校内外师生参加了此次讲座。

报告开始前,李飞跃老师对此次讲座的背景和主题作了简要介绍。李老师指出,数字人文研究在国外起步较早,近年国内高校也纷纷成立各种研究中心和项目组,采用大数据及其相应技术研治古代文史方兴未艾,已对不同学科的知识体系、学术观念和研究方法产生了深刻影响,正在成为改变学术生态的一种力量。此讲将不仅有助于我们了解与数字人文有关的最新知识和信息,也将有助于我们自觉更新研究观念与方法。

 王宏甦老师首先介绍了中国历代人物传记资料库的情况。该数据库收集了自唐代至清代近41万条人物信息,是一个关系型数据库。利用资料库来研究一个社会群体的特征或变化,可以获得新的研究视角。王老师还对资料库中数据资料的年代分布作了简要说明。资料库中的数据主要集中于唐代至清代,原因是唐以前的官僚机构以及可量化的地理信息资料相对不系统,不利于批量收集和分析。另一方面,由于中国近现代社会与古代社会结构不同,如果强行加入后世数据,同样会有诸多不适,因此数据库选择截至清代。

接下来,王老师向同学们讲解了数字人文常用的三种研究方法。首先是群体传记学的研究方法。地方志中有诸多重复资料,省志和县志也常见互相抄袭现象。通过比对分析可以发现有些地方在地理上并无关联,但仍有官员信息重叠,由此可以推断地方官吏的互任情况。此类人物通常为低级官吏,使用传统的文献研究方法很难发现,但利用群体传记学的研究方法可以快速发现这一信息。其次是地理信息系统分析的研究方法。以CBDB 与KVisionLab 合作的唐代墓志所见的社会流动可视化为例,使用唐代方志所载人物的籍贯、出生地、死亡地、葬地等信息并做可视化分析,可清晰呈现了墓志中所呈现不同时代的唐人社会迁徙状况。其三是社会网络分析的研究方法,这一方法主要利用了唐五代人物交往诗资料。社会网络分析为流派研究提供了新视角,以往传统的流派研究依靠诗论开展,而数据资料根据交往关系进行分组,从中可发现传统上并非同一流派的人物聚集。

合作可以带来高效的数据制作,减少重复开发,并提供新的研究视角,对原始问题提出新的见解,对于数字人文研究至关重要。针对网络基础设施(cyberinfrastructure)建设,王宏甦老师引用了ACLS对网络基础设施的倡议,指出其作用是连接对学科有用的电脑软件、数据集、人才、研究方法、标准和合作模式等,有利于不同项目利用一些共通的科技。因此,每一位论文撰写者都是潜在的内容分享者。

王宏甦老师以中国历史研究的网络基础设施国际研讨会为例,介绍了会议目标、召集对象及相关议程,并介绍了不同机构对网络基础设施的不同理解,包括上海图书馆提出的数字人文基础设施模型、德国马普研究所提出的Asia Network模型以及台湾大学提出的DocuSky系统。王老师提出的网络基础设施是一套倡议和标准,包括API、标准、历史版本和永续存储以及社区。其中API可理解为可被机器读取的数据结构,把原始史料变为文本,然后把文本标准化,可让程序快速调用或使用。针对如何去做数据的标准化这一问题,他以国际图像互操作框架Mirador项目为例介绍了由德龙(Donald Sturgeon)开发的API标准实践——Textref.org和Biogref.org 项目。王老师指出,历史版本和永续存储对于发表和分享数据十分重要,目前Dataverse、Github等软件已可以实现历史版本再现和永续存储。

王宏甦老师还介绍了目前国内数字人文社区的几种形式,包括数字人文会议与论坛、数字人文媒体等。他认为,未来数字人文社区的发展目标,一是建立面向中文世界和英文世界的数字人文社区;二是建立主题明确,可以永久保存的数字人文交流平台;三是面向公众分享会议论文集和幻灯片;最后是要建立数字人文图书馆。最后,他再次引用ACLS对网络基础设施的倡议,强调实践这一倡议背后所执行的标准,即去中心化、标准化、开放互联合作。

在提问环节,王宏甦老师与在座师生就唐以前人物传记资料的数据化以及数据库所收唐代墓志资料状况等问题作了深入交流。讲座在热烈的掌声中落下帷幕。

(撰稿/中文系2017级硕士生曲一迪)