11月23日下午,教育部语言文字应用研究所研究员冯志伟先生受邀为浙江大学研究生课程《学科交叉型语言应用与研究》的同学们带来了题为《数字人文研究与学科交叉》的专题讲座。讲座时长两个半小时,以线上-线下方式顺利举行,线下会场安排在紫金港校区北三教学楼307。讲座由外国语学院乐明教授主持,参与者逾50人。本活动由浙江大学“董氏文史哲研究奖励基金”资助。
讲座伊始,冯志伟先生结合自己早年在北大从理科到文科的学术探索和,介绍了数字人文发展的三个重要阶段。最初在人文科学的研究中,文本资料的小规模文本数据处理一直是通过手工编写卡片来进行的,非常费时费力。直至1954年,第一次机器翻译试验的成功用强有力的事实说明了使用计算机来处理人文现象是可能的。机器索引和机器翻译是人文计算研究的萌芽。这个阶段的特点是研究数据主要是文本,数据的规模都比较小,可以叫做“小规模的文本数据处理”阶段。此后,人文计算研究的队伍日益壮大,自1989年以来,机器翻译在基于规则的技术上引入了语料库方法,这种建立在大规模真实文本处理基础上的机器翻译,是人文计算研究的一场革命,自此进入了人文计算的第二个阶段,即“大规模真实文本数据处理”阶段。20世纪90年代早期至21世纪初期,随着万维网和计算机技术的发展,“人文计算”的对象从电子文本逐步扩展到超文本、图像、视频、音频、数字地图、网页、虚拟现实、三维(3D)等多媒体,计算的领域从语言学扩展到文学、历史、音乐、艺术等多个人文科学的领域,进入了第三个阶段,即“大规模的多媒体数据处理”阶段。
在回顾了数字人文的历时发展后,冯先生向大家介绍了数字人文研究的四个层次。第一个层次是人文数据库或数据集的建设,即将各种人文资料转化为数字内容并进行规范化标注。一个典型的例子是北京大学中国古代史研究中心发起共建的中国历代人物资料库将中国古代著名人物在地图上的分布以可视化的方式一目了然地呈现出来。第二个层次是人文数字工具的开发与使用,通过非人文领域研究方法的数字工具,传统人文领域的很多难题都有了解决的途径。第三个层次在于人文研究方法和研究范式的创新,将人文学者较多采用的定性研究转为定性研究与定量研究相辅助的研究。冯老师以自己计算汉字的信息熵的研究工作为例,展示了如何用数学方法来分析语言。第四个层次是人文领域和文化遗产的数字化重建。通过数字技术切入人文领域,对人类文化遗产的传承、传播、全球化和创新提供新的方法。例如,中国2010年上海世博会期间所展示的全息《清明上河图》,以全息视频的形式将静态人物进行动态展示,推动了古代中国绘画、中国古代文化的全球化传播。
最后,冯先生为大家介绍了国内外数字人文研究的几个实例,更加具象化地让我们了解如何使用数字人文技术来解决问题。在美国,刻在泥板上的楔形文字散落成文字碎片之后,相关人员使用楔形文字到英语的机器翻译系统、使得文字残片得以解读。我国的数字人文研究应用也颇为丰富,在古籍数字化中应用很多,不仅在传统意义上处理语言文字,还涉及地理信息系统与历史性的交叉领域。
乐明教授为讲座做了总结:冯先生不仅从数字人文切入,显示了语言研究对人类深远而宏大的影响,还以自身文理兼修的经历启发了有着不同专业背景的同学对跨学科研究的思考。
在互动环节,同学们踊跃提问,冯先生一一做了精彩而细致的解答。