【徐振国】黄一农院士以大数据研究红楼梦的冲击和启示——对科技部政治学门的建言与辩白

栏目:《原道》第31辑
发布时间:2016-12-21 21:13:46
标签:

黄一农院士以大数据研究红楼梦的冲击和启示——对科技部政治学门的建言与辩白

作者:徐振国(台湾东吴大学政治系兼任教授) *

来源:《原道》第31辑,陈明 朱汉民 主编,新星出版社2016年出版

时间:孔子二五六七年岁次丙申十一月廿三日丁丑

          耶稣2016年12月21日

 

 

 

作者按:这原来是给科技部政治学门的一封信函,寄出后获得新任召集人吴重礼教授和前任召集人苏彩足教授的善意回应,非常感谢。然而研究的契机稍纵即逝,当年的研究伙伴或已退休、或出国任职、我自己也已届七十二岁高龄,已经不具申请科技部研究计划的资格。然而我相信我在文中所提的建言和辩白还是有意义的,故将原函修改成一般文章的形式,期能引发同好的讨论和指教,是所至盼。

 

前年(2014年,编者注)12月我看到《中国时报》所载《穿梭清史:黄一农e考据解红学》一文,觉得和我的研究方向相近,而我最后两年的研究计划遭到否决,一时深有感触,故曾给当时的“国科会”政治学门召集人致函,表达我的一些看法。然而当时粗心大意,居然将一封还没有写完的网络信件寄发出去,却也收到召集人的回函,语多鼓励,顿时让我感到羞愧,立即回函致歉,表示在自己的意见更清晰之后会再陈述意见。

 

后来,我认真拜读了黄一农院士的《二重奏:红学与清史的对话》,的确是一本厚重扎实的著作,沿袭民清以来的红学研究争议,说明红楼梦不仅是曹学芹个人的文学创造,其写作的内容,特别是大观园元妃省亲等处细节,的确有其史实依据。另从更大的范围来看,一农院士不仅是在考据一部小说,而是呈现了清朝“辽人”(关外汉人)的生活方式和人情义理,对清朝的政治社会史产生了截然不同的看法。就方法论的概念而言,一农院士是以全文检索的方式,在六十亿字的各类满汉文档资料进行搜寻、比对和解析,来建立自己的论述。他宣称:“……随着近年大数据(Big Data)的出现,相关文献的发掘反而迈向一崭新局面,甚至相对于‘新红学’或‘新索隐派’的发展模式而言,‘新新曹学’或‘新新红学’的兴起亦不无可能。”

 

从黄一农院士的著作,我想到若干年前和谢清俊教授的一次长谈。谢教授是中文计算语言学的创始人,他认为此一新兴学科非常符合中国的注疏考证之学。他举《金刚经》为例,经文很短,历代高僧注解金刚经的文献却汗牛充栋。谢教授认为这背后有其独特的思想运作逻辑,有别于西方的归纳法和演绎法。他提到屡次和西方科学家讨论此一问题,后者认为西方思想的确偏重归纳/演绎逻辑,注疏考证的基本逻辑形式必须在中国或印度的古典哲学中去发掘。谢教授的说法极具启发。我当时回应,作为现代政治科学根基的宪法便是一门注疏考证之学,宪法的法条不多,但长年以来累积的司法判例却因应时空环境为宪法增添了许多新的解释,并藉此贯彻了民主宪政生活。从方法论的角度,我还认为宪法解释背后蕴含的诠释科学方法论,可以和注疏考证之学连结,而获得更高层次的提升。

 

然而必须注意的是,大数据近年来获得极大的重视,主要是从信息专业的角度提出主张,强调在统计、数学和软件三方面下功夫,却很少从人文社会科学使用者的立场提出需求和理论主张。现从上述两位学术先进的启发以及自己长年做“国科会”研究计划的一贯诉求,我认为大数据的功能兼具了实证科学方法论和诠释科学方法论相互交融的特色。甚或可以说,大数据研究跨越了实证主义而进入到后实证主义,特别切合人文社会科学的发展趋势。我现就此一观点提出下面几项意见和看法。

 

第一,从“数据库”到“意联网”。黄一农院士以“e考据”和“大数据”的概念利用多达六十亿字的各类满汉文档数据库研究红楼梦。相应于此,各类媒体、官书、法律、史料的数据库早已有非常庞大的累积,然而大多只是用于资料的查询,还未发展出更深刻的用途和价值。然从当前科技发展的角度来看,自然科学界和和工商业界皆强调依据大数据的概念,落实成“物联网”,并衍生成更具体的“车联网”和“医联网”。相应于此,人文社会科学应该从语言和符号的基础上出发,发挥语言文字数据库的功能,使其从“字联网”形态进入到更深层的“意联网”脉络,藉快速检阅各种庞大的文类和文本,而能解析人们各类语境中的“意向性”内涵。

 

第二,平衡语料库。就技术层次而言,要大量有效的使用语言文字数据库,必须认识在其背后的“语料库”的运作。这是依循古典语言学家的“词类标记”概念,不断地搜集日常生活中各种文类的语句,分别标记出其中的名词、动词、受词、形容词等词性,藉此可以全面地呈现某一社会在特定时空环境中的语言使用的状态及其可能的变化。值得注意的是,计算机本身便是以0、1为基础的数位语言,和人类的自然语言早就有相互启迪和传译的关系。自1960年代,西方信息学界更是沿袭古典语言学词性标记方法来开发电子语料库,由此形成专业的“计算语言学”或“计算机语言学”。自1990年代初,采用西方计算语言学的发展而奠定了中文计算语言学的基础,完成了“中研院语料库”(Sinica Corpus),让人们每天可以在计算机上快速地筛选我们需要的字词。其实,当我们每天使用计算机和手机时,便会触及到语料库的运作。例如键入“政”字,后面便有“政治”“政党”“政局”“政变”等有意义的字符串供我们选用,而不是在每一个字键入后都会跟着三千五百个左右的常用汉字,让我们疲于筛选而放弃使用。

 

第三,数据库的使用途径。面对庞大的各类数据库,必须采用适当的方法和途径来开发利用,在这方面用心的人很多,我自己长年做“国科会”研究先后意识到三种运用资料的方法。其一,大量制作数据库之时,人们便开始运用关键语词的特性来萃取资料。我早期制作的台湾报纸社论标题等数据库便是采用此一途径。其后,我从当代语言学的发展脉络来界定此一研究途径的特性,而冠以“文本论述分析”的名目,希望能够加深其学理意涵,而获得更深刻的使用价值。其二,Roberto Franzosi发展的SAO过录法,此须善用语料库来界定语句中的词性,如主词、动词、受词等等,然后利用“主体-行动-[客体]”的基本语法模式,来解析一篇新闻报导中的叙事情节,而能更精确地掌握到相关事件或议题的演变。其三,Michael Laver发展的文本内容分析(textualcontent analysis,TCA),采用其自制的统计套装软件,将欧洲政党的党纲打散,萃取出其中有实质意涵的单字,并以字词出现的频率与标准差进行排序,将新旧党纲做一对照,而能从新党纲中新产生的加权字词中看到新政策概念的走向。值得注意的是,上述三述研究方法,只有以关键语词为检索资料的方法获得非常散漫的使用,其他研究方法都还未获得有系统的开发,此乃因当今方法论学者还未充分认识当代语言学以及后实证主义科学哲学观而形成之侷限。

 

第四,重新认识当代语言学和诠释科学方法论。前面提到,日常语言和计算机语言有其共通的特性而有其相互启迪的过程,甚至由此发展成计算语言学,而直接影响了计算机文字档和图像档的转译和呈现。依此线索,我们必须重新认识当代语言学的发展渊源。论者一般都认为当代语言学的创始人是索绪尔(F. De Saussure,1857-1913)。他从日常语言出发,能看到“名”“实”之间的重要分际,而区分出“所指”(the signified)和“能指”(the signifier)两个范畴,前者指名目概念或形式结构,后者指具体的声光形象等实质内容,两者合称“符号”。“所指”和“能指”之间有其可能的对应关系,但又有各自的变通原则(rule或grammar)。这样的语言学概念,可以呈现语言使用者的主观运用空间,也能够在约定成俗的基础上达到“互为主观”的沟通运作效果。

 

另就逻辑的特性而言,索绪尔的语言学中蕴含了一种“二元模式”(the binary mode)。所谓“所指”和“能指”便是一种对立的二元,而两者所指涉的“个体”及其所隶属的“整体”也是一种对立的二元。此一二元模式超越了实证科学方法论所偏重的归纳法和演绎法,而进入到辩证逻辑的领域,超越了合黑格尔的“正、反、合”模式,却更能契合当代现象学家Robert Sokolowski所说“显性和不显性”“整体和局部”“同一和多重”等三个基本形式结构。

 

值得注意的是,索绪尔语言学后来经维根斯坦等人后实证主义科学哲学观的加持,经Noam Chomsky以数理形式语言的面貌呈现,再经Teun A. van Dijk以论述语言学的方式彰显,终于从1970年代开始在文史哲艺界大行其道,形成所谓“论述转向”或“语言学转向”的庞大趋势。令人感到遗憾的是,当时政治科学正从行为主义转变为后行为主义,却停留在实证主义科学方法论的思维观点而未能参与语言学转向的新趋势。错失了这一环节,使政治科学至今落后,而未能积极主动地参与大数据时代的理念主导和开创。另一方面,我也必须很严肃地指出,由于索绪尔是瑞士人,深深地影响了东欧和前苏联地区的语言学发展。此外,辩证法的逻辑思考也加强了索绪尔当代语言学的发展。基于此一传承,中国大陆学界对当代语言学以及相关后现代概念的衔接要比我们深刻宽广。基于此,中国大陆计算机硬件的发展不如我,然而软件以及网络商业模式的发展却超过我。此外,大陆人士有“话语权”“潜规则”等说法,也反应了其背后不同的语言学认知基础。追本溯源,我们不能不注意两岸在当代语言学和逻辑思维两项源头上的差异。

 

第五,若干辩白和补述。我100年和101年的研究计划被否决,当时按程序提出申覆未果,故曾致函承办人林芳美女士表示“不为申覆只为原则”,现仍沿此一方向提出一些辩白和补充。

 

1.关于实证政治科学方法论的发展困境。我早从86年度的研究计划开始,便强调我是以方法论驾驭我整个的研究计划,核心概念是追求实证科学方法论和诠释科学方法论的融合,根源是取自Donald Moon在1975年TheHandbook of Political Science一书中的一篇长文。然而,我逐渐发现Moon对于诠释科学的语言学观点和辩证逻辑的认识不深,跳脱不出实证主义的“律则涵盖解释”思考模式,违背他自己文章的宗旨,反而去推崇当时正在崛起而偏重演绎逻辑的理性抉择政治学。他的退缩受到G. Almond的奚落,也受到W.Riker的嘲讽,反批他没能真正了解理性抉择政治学的妙用。对于Moon的失败以及所引发的争议,我认为是政治科学方法论发展过程中的一件大公案,由此错失了「语言学转向」和「论述转向」的契机,徒使政治学方法论偏重实证经验研究,而无法维护长期以来以公法、公共论述和政治思想为基础的传统政治学,也无法顺利进阶到后实证主义而难以适应当前大数据和信息科学的发展趋势。我在“国科会”的研究计划中屡次提到这一问题,也不断有文章检讨,然而未受重视。我2013年发表的一篇最具代表性的论文,《政治科学改造运动的争议和启发:从“通则”到“脉络”的转向》,可以更详细地说明我这一方面的意见。

 

2.关于主要代表作的认定问题。在研究方法和研究技术方面,我自2005有重大改变,采用M. Level的文本内容分析(textualcontent analysis, TCA),试图将其文字计数软件引进到中文世界。然而,我和我的研究团队低估了中文在断词上的困难,连续两年未能达到预期的测试效果,“国科会”因此终止了我2008年度的续约,理所当然,毫无可怨。可庆幸的是,此时我受到瞿海源教授之邀约,参与《社会及行为科学研究方法:质性研究法》一书之写作,负责其中“内容及文本内容”一章之规划和撰写。我深知这是检讨我整个研究计划的一个大好机会,花了三年的时间,七易其稿,主编也为我做了字斟句酌的校勘。在此写作过程中,我对实证内容分析和诠释文本分析作了详细的分辨,并形成本函前面提到的一些变化。然而遗憾的是,计划审查人看不到该项代表作的实质内容,而贬低为“一篇教课书文章”。我要强调的是,瞿编研究方法是一次非常用心的编著工程,邀约了四十余位各领域的专家,将1978年杨国枢教授编著之后三十余年的研究方法发展,做了一次概括性的整理和呈现。况且,此一系列专书是要为博硕士研究生以及年轻学人提供一本研究方法的参考模板,绝不是一本普通的“教课书”。

 

3.关于文本内容分析在中文断词上的可能突破途径。在2008年接受瞿海源教授的编书邀约之时,东吴大学特别给我经费资助,让我能够继续聘请信息助理来协助写作,并检讨上述文本内容分析测试失败的原因。在此次写作过程中,我深受Franzosi的影响,对当代语言学的发展和“论述转向”有一更完整的认识,也对“SAO过录法”“词类标记”“语料库”有更贴切的了解。循此,信息助理廖文伟利用“中研院语料库”和既有的中英文翻译软件的基础,制作了一个可以进行中文SAO过录的界面,试图以此作为中文“文本叙事分析”的基础。至于如何改善中文的“文本内容分析”,文伟主张放弃断词,仅用单字,便可达到中文计数的测试效果。郭丰州老师持不同看法,担心以单字萃取太过单薄,容易扭曲原文本资料的内涵,故主张另写文字计数统计软件,顺应中文以及中文语料库的特性,方能产生信度较佳的后果。我当时决定先以中文SAO过录法做文本叙事分析,可以藉此更深入地了解中文语料库的特性,然后再以单字或新统计软件来测试中文文本内容分析的可行性。可惜的是,前后这最后两次的研究方案皆遭否决,而我自己也届龄退休,遂使前后八年的研究工作成了一种无从收尾的状态。

 

4.服务器废除后的尴尬处境:2008年研究计划中断之后,我用“国科会”研究经费购置的服务器仍旧呈放在东吴大学信息中心,其后逐渐呈现失修状况。我2013年退休之后,更因难以修复而予以拆除,存放在东吴政治系一位助教的办公桌下,形同废物。这对我形成两个难堪的后果。其一,我在瞿海源教授编著的文章中,所标示的资料来源和运作界面都在此一服务器中,现在失了根源,读者无从寻索。其二,历来用了很多的经费累积的资料,其中我最珍惜的是剪辑光复初期八分报纸而做成的社论标题数据库,以及采集光复初期《台湾银行季刊》中“经济日志”而制成的财经数据库。社论标题数据库后来曾利用“国科会”研究经费向联合和中时两大报系购得社论本文而有相当完整的内容。两报系在签约时也都同意可以在学术网络上自由使用,不用于图利,便无侵犯智慧财产权的问题。我曾利用此类数据库写过十余篇会议论文,包括“金融”议题之发展和“民主”意识形态之演变等等。早期,由于数据库管理不善,每逢更换合作对象或更换服务器,文本资料容易出现乱码。其后,经过信息系同仁不断修正,这个问题已大幅改善。我一直有一个心愿将这十余篇论文修改充实后刊登,现在整个服务器废弃了,这个愿望也就很难达成了。

 

我必须坦白地说,对最后两次研究计划遭受否决的事非常不满,显示当时的学门召集人委任审查人不当,摆脱不掉自己的本位立场。而如前所述,我整个研究计划的核心关怀一直是在方法论层次,试图打破实证科学方法论的狭窄视域,在诠释科学上找到更宽广的出路。现就此一点来反观黄一农教授,原来是专业天文学家出身,以e化概念研究红楼梦,大作中却看不到一项统计数据,也看不到一项软件程序,而是不断的以各类满汉文本交互参照来展现当时人们的生活情境,甚至以一尊画像的品题来呈现曹家开基祖先在八旗社会中的人脉关系,由此折射到红楼梦中人物写诗颂词的生活情调。黄一农院士的红学研究为人文社会科学的大数据研究提供了一个好的示范,也在无意之间突显了诠释社会科学的方法论精髓,值得人文社会科学界的重视。

 

责任编辑:柳君


微信公众号

儒家网

青春儒学

民间儒行