王小红教授谈“中国古代哲学语料库建模”
点击次数: 更新时间:2023-11-10
本网讯(通讯员 彭文楷) 11月8日晚,应策略冠军论坛陈波教授邀请,西安交通大学人文社会科学学院哲学系教授、博士生导师王小红做了题为“中国古代哲学语料库建模”的讲演。本次讲座由叶茹副教授主持,中国社会科学院哲学研究所研究员段伟文教授评议。300余名听众参与本次线上讲座。
王小红教授主讲,叶茹副教授主持
结合她主持的实验室的已有工作成果,王小红将此次的讲座内容以问题的形式分为了三个部分,即:什么是中国古代哲学语料库建模?为什么要对中国古代哲学语料库建模?以及怎样对中国古代哲学语料库建模?通过本次讲座对这三个问题的解答,王小红概要介绍了如何将数学模型和人工智能的计算应用于人文学科,特别是中国哲学的研究,以便于研究者从一个更加客观中立且全面的视角来进行相关学术研究。
在第一部分中,王小红首先介绍了中国古代哲学语料库。王小红的实验室所采用的语料库名为“全新汉典”(即对“汉典”的拓展),这一语料库在2015-2019年间逐步完善,目前已经收录了各类经史子集以及其他补充文本共9257部,囊括了目前能够收集到的中国古代哲学相关的绝大部分典籍。王小红对其中部分内容进行了展示,并说明了这些语料需要精细校对并初始化转化为可以由代码所识别的电子版,以便后续的建模,而这一过程是十分繁重耗时的。构建一个高质量的语料库占据了总工作量的80%。
然后,王小红介绍了对中国古代哲学语料库建模的建模工作。实验室对这一语料库的建模采取了隐含狄利克雷分布主题模型(Latent Dirichlet Allocation topic model,简称LDA模型)对文本内容进行分析,该模型是通过机器模型算法,按照输入的主题数量参数(K值),用算法计算字词的聚类,即计算字词的共现频率,将语料库中所有的字词划分出各种全概率分布的概率排序,而每一种排序构成一个有意义但又有待诠释的主题。并且这一模型是生成式的,而非传统的静态统计,因此算法输出的结果会根据输入的参数不同而发生改变。这一算法大约需要2000次迭代,耗时三天,可以得出一个相对收敛的结果,使字词的聚类变得明显,从而得到一个主题。
通过LDA这一算法模型,研究者可以对语料库中所有典籍共4.3亿字,挖掘其中的主题结构。我们不仅可以得出关于整本书的主题,还可以得出以篇章、段落乃至于语句的具体主题。这些主题可以帮助我们区分出语料的来源和主旨,例如可以借助这个模型判断一段语料究竟是理学的还是道教或佛教的。
在第二部分中,王小红讨论了对中国古代哲学语料库进行建模的目的。王小红认为,主题算法模型是辅助人类研究者开展人文研究工作的新工具和新视角,她引述科林·艾伦(Colin Allen)和森舸澜(Edward Slingerland)的观点,认为以研究者亲自对语料进行阅读和总结的“人文研究方法1.0”已经拥有了数千年的历史且从未发生改变,但引入模型可能会创造出“人文研究方法2.0”。将LDA模型应用于人文研究上的主要特点在于“远距离阅读”和“超书架功能”,“远距离阅读”确保了结论的客观中立,而“超书架功能”则使研究对象的数量达到更高的海量级,这两者都是传统研究方式自身所不具备的,人类研究者在这方面较之于LDA模型具有较强的局限性。并且,由于越来越多的文本已经被电子化,这也方便了我们运用计算机的算法模型来对这些语料进行研究。王小红还大致介绍了中外相关机构对于汉语语料电子化工作的现状。
在第三部分中,王小红介绍了如何对中国古代哲学语料库进行建模。王小红首先以一些案例来说明LDA模型应用于人文研究的现状。例如在清史研究中,LDA模型可以被用于分析奏折内容,进而生成一个对时局的理解模型来分析清代18-19世纪的社会变乱情况。这种分析可以避免人类研究者对于“何为变乱”这一问题的先入为主的先验定义,同时也避免了范畴模糊的词语的干扰,从而得到更客观中立的结论。在科学史研究中,LDA模型可以被用于分析达尔文的著作,从而解释达尔文在研究中的思想转变,以及“达尔文延迟”问题,进而可以构造出关于“发现的哲学”。在汉学研究中,LDA模型可以被用于分析孔孟荀的著作,在“对神灵的态度”“教化”“性善论”等一系列主题上,可以分析出三人的思想的亲疏关系,并且森舸澜借助这一分析得出了一个反传统的结论,即荀子在思想上比孟子更接近孔子。
王小红指出,虽然目前将LDA模型应用于哲学研究的情况仍然较少,但并不代表它不能研究哲学。例如在一些研究中,研究者会以哲学期刊为语料库进行建模,分析数十年间哲学期刊中主题的变迁或同时期哲学研究主题的差异,这种研究既有历时性,又有共时性,但这只是对哲学的间接研究。而更为直接的研究则以实验室成员对张载思想的研究为例。在对张载的著作单独建模分析,以及基于整个新汉典语料库的整体分析之后,我们可以发现张载在思想上的原创性,以及张载在整个中国哲学发展脉络上所处的转折性地位。例如,张载在儒家道统中开启了之前一直被道家所把持的探讨宇宙论的传统,将天道与人道在解释上予以贯通,以及较之于其他哲学家,张载更注重概念的论证。
LDA模型同样可以应用于哲学概念的分梳。王小红引用杨国荣的观点:“中国哲学中的概念并非没有确定内涵,而是这些概念的丰富涵义往往没有在形式层面得到梳理和辨析”。在对“气”这一概念进行模型分析后,我们可以得出在儒家、道家、中医等一系列主题之下的“气”的不同涵义。
接下来,王小红谈到了对主题进行标注与诠释学的问题。由于LDA模型只是根据字词的聚类得出概率排序,因此只能确定某些字词是从属于一个特定主题的,但并不能直接得出这个主题是什么,所以需要对这些主题额外进行标注,以得到对主题的有效诠释。
实验室对此进行了汉典主题标注的人机对照实验。通过对比学习中国哲学的人类研究生与ChatGPT和文心一言等AI语言模型对于中国哲学语料库中的模型标注,我们可以发现AI语言模型的解释较之人类更大而化之,不够精准、缺乏引申、泛泛而谈,因此现阶段的LDA模型在标注和诠释阶段仍然无法做到完全脱离人类,实现全面的自动化。由此会引申出关于计算哲学的伦理学和诠释学的进一步思考。
在讲座的最后,王小红自问自答式地回应了两个可能的问题,即LDA模型是否能够稳定地产出文本意义结构?以及LDA模型的实证研究如何将汉典模型融入中国哲学的问题域?首先,王小红认为LDA模型是能够产生稳定意义结构的。虽然该模型是生成式的,但是通过实验可以发现其足够稳定,输入参数的变化对这种稳定性的影响不大,而一个高质量的语料库则是更重要的,语料库越大、越完备,那么对概念的分梳工作就会做得越好。其次,王小红通过对汉典模型的推广以及与其他哲学工作者的交流发现,该模型可以在古代逻辑学、语言学、情报学等多个领域得到非常具体的应用,因此这一模型广泛契合了目前的研究问题域。
段伟文教授评议
在评议环节,段伟文评价王小红的工作十分扎实,将AI与人文科学研究相结合的方式十分有益。他认为,AI对世界的认知建立在语料库上, AI的认知由语料库、算法、建模三个部分所构成。主题建模相当于计算认知,而AI并不知道其中的意义,仍然需要研究者去对意义做出诠释,在这个意义上,语义具有双重性,即人类可理解的语义和数字化可计算但有待诠释的语义。因此将讲座的最终落脚点放在诠释学问题上是切中要害的。在这种人机融合的过程中,我们仍然需要面对的是维特根斯坦的遵守语言规则的问题。目前ChatGPT等语言模型的出现可能对汉典模型是一个机遇,今后的中国哲学研究者需要更加严肃地对待这一工具。汉典模型目前既有扎实的实验研究,又有对研究工具的探讨和反思,并且已经影响到了国际汉学界的研究,他希望这一模型也能在国内多做宣传,做到真正影响到对国内的中国哲学的研究。
王小红总结道,段伟文对自己的工作十分了解,并且学术视野广泛,他的评议富有启发性,对汉典模型背后的机理亦掌握得很透彻,这个评议加深了她对对自身研究的理解和把握。对此,王小红表达了感谢。
讲座互动现场
(编辑:邓莉萍 审稿:严璨)