計算機與「紅學」研究
自清朝傳世二百多年以來,《紅樓夢》的藝術魅力長久地吸引著許許多多國內外研究者和普通的讀者。在這部不朽的名著中,作者塑造了眾多的栩栩如生的人物形象,使用了優美、生動的文學語言。書中還涉及到哲學、經濟、教育、詩詞、對聯、謎語、酒令、成語、修辭、園林、建築、服裝、醫藥、烹調、戲曲、音樂、舞蹈、繪畫、愛情、心理、外貌描寫等領域以及人物空間、時間的主體結構和錯綜複雜的關係,引起了人們廣泛的探索和研究。目前已經形成了一門國際性的學問──紅學。近年來關於紅學研究現代化,如何運用計算機分析文學作品的問題,已經引起了社會科學和計算機科學界的普遍關注。國際上關於建立以計算機為代表的現代化「國際紅學資料中心」的呼聲也引起紅學界的注意。在這種形勢下,綜論計算機與紅學研究的歷史和現狀,介紹其研究內容和存在的問題不僅可以加深人們對《紅樓夢》這部輝煌巨著的認識和理解,而且對於古典文學研究的現代化探索也是有借鑒意義的。
一
計算機應用於文學作品的研究是近十多年的事情。七十年代中期,英國劍橋大學的兩位師生因運用計算機偵破偽造莎士比亞的奇案而震動了西方文學界。他們對一家出版商出版的莎士比亞新作品,用計算機對它的修辭和結構進行分析和比較。把新作品中的句型與公認的莎士比亞作品作比較,發現莎士比亞一向不採用的修辭和用語出現了,句型和結構也同慣用的方法不一樣。他們將用計算機分析出來的大量證據向法院起訴,使偽造莎士比亞作品的出版商啞口無言,只得承認作偽。這項研究成果引起了國內外學者的重視,紛紛利用計算機來分析研究別的古典文學作品,導致計算機闖進「紅學」研究園地。
二
1980年6月。在美國夢斗湖畔的威斯康星大學召開的首屆國際《紅樓夢》研討會上,威斯康星華裔學者陳炳藻先生宣讀了一篇《從詞彙上的統計論〈紅樓夢〉的作者問題》的文章,引起了國際紅學界的注意和興趣。1986年,陳炳藻教授公開發表了《電腦在文學上的應用:〈紅樓夢〉與〈兒女英雄傳〉兩書作者用詞的比較》一文;之後又出版了《電腦紅學:論〈紅樓夢〉作者》的專著。利用計算機對《紅樓夢》前八十回和後四十回的用字進行了測定,並從數理統計學的觀點出發,探討《紅樓夢》前後用字的相關程度。他將《紅樓夢》一百二十回本按順序編成三組,每組四十回。並將《兒女英雄傳》作為第四組進行比較研究,從每組中任取八萬字,分別挑出名詞、動詞、形容詞、副詞、虛詞這五種詞,運用數理語言學,通過計算機程序對這些詞進行編排、統計、比較和處理,進而找出各組相關程度。結果發現《紅樓夢》前八十回與後四十回所用的詞彙正相關程度達78.57%,而《紅樓夢》與《兒女英雄傳》所用詞的正相關程度是32.14%。由此推斷得出前八十回與後四十回的作者均為曹雪芹一人的結論。這項關於著作權之爭的研究結論能否為紅學界所接受,還存在一定的爭論。但是,這種用計算機進行探索的創造性研究方法,給人們留下了深刻的印象。
《紅樓夢》著作權的問題多年來一直爭論不休。目前紅學家們普遍的看法是:前八十回為曹雪芹所作,後四十回為高鶚所續。按照這種看法,從陳炳藻先生的研究結論,我們可以從另一個角度看出,曹雪芹續的《紅樓夢》後四十回是相當成功的。由於高鶚對前八十回研究的深入透徹,不但保持了前八十回的思想傾向和藝術風格,而且在文字風格上也幾乎一致。所以,曹雪芹、高鶚合著的一百二十回本《紅樓夢》才被社會普遍承認,一直廣泛流傳至今,成為中國古典文學的瑰寶。
運用計算機分析研究《紅樓夢》為紅學研究現代化開闢了一條嶄新的道路。然而,讓計算機讀懂《紅樓夢》似乎神秘莫測。但是,我們只要瞭解計算機的特點,就能從這種神奇的應用中認識其本質。計算機有高速的運算能力,每秒鐘可運算百億次以上來處理由0和1組合成的符號系統和數學模型。計算機有高超的記憶能力,可以存儲整座圖書館書籍和文獻的內容。計算機有高度的精確性和準確的邏輯判斷能力,每秒鐘可進行成千上萬次的邏輯判斷,可代替人的部分腦力勞動,把重複、繁重的漢字邏輯判斷交給機器高速處理。計算機還可以自動運行,只要把事先編好的程序輸入計算機,就可以自動地指揮計算機工作。文學作品是語言文字的組合,語言是人類用來表達和交流思想的工具,文字是記錄語言的符號。從計算機科學的角度來看,一部文學作品就是一個符號系統。因此可以採用計算機技術來理解《紅樓夢》這樣的文學作品,進行探索和研究。
《紅樓夢》一書中前前後後寫了三十二個夢,這些夢是否有內在的聯繫呢?計算機專家們將夢的文學描寫變成數字模型,編好程序輸入到計算機裡,用計算機測定了它們之間的相關程度。比如第五回「賈寶玉神遊太虛境」與第一百一十六回的夢,經過計算機分析,兩個夢有許多相同處,「太虛幻境」與「真如福地」的環境名異實同。因此這兩個夢有一定的內在聯繫。由此可見,計算機的分析能力是相當驚人的。
三
1983年以來,國內紅學研究者運用計算機探索《紅樓夢》,也給紅學研究帶來了新的活力。江蘇學者彭崑崙等用計算機探索《紅樓夢》時間進程和人物年齡問題,取得了成效,解開了《紅樓夢》中的年齡謎;對於林黛玉入京都這一年究竟是幾歲,紅學家們歷來就有多種說法──13歲、11歲、9歲、8歲、6歲。他們選定賈寶玉、林黛玉、薛寶釵等七十二名人物為信息存儲對象。按小說各章節所描寫的人物年齡和時令特徵,參照有關紅學家的研究成果和各種說法,將信息編碼存入計算機。運用數理邏輯對年齡、年序問題進行分析、篩選,獲得了初步成功。計算機認為林黛玉入京都「九歲論」說似乎矛盾點少一些,比較符合生活和文學邏輯。中央電視台拍攝的電視連續劇《紅樓夢》有中關故事紀年、季節和人物年齡的處理意見,曾經採用了這項研究成果。
運用計算機探索《紅樓夢》人物年齡方面取得成功後,彭崑崙等人又用計算機定量研究《紅樓夢》版本來解決一些疑難問題,成功地運用計算機程序模擬出具有深刻藝術韻味的「怡紅夜宴圖」。一百多年來,「怡紅夜宴圖」一直是困擾紅學家的疑案之一。紅學家們為此爭論不休,爭論的焦點就是參加夜宴的總人數和宴席上的座次排列。在這個問題上,彭崑崙等人幾乎考察了從乾隆年代開始的脂評系統的所有國內版本,也瞭解了紅學各家的研究動態、主要分歧,終於用計算機繪製出他們心目中的「怡紅夜宴圖」。他們研製的《探討怡紅夜宴圖程序》解決了參加夜宴的總人數和宴席上的座次排列。計算機能根據使用者的要求顯示或打印出《夜宴灑令點數異文及研究者的評判總表》;能自動形成《怡紅夜宴圖》的各主要研究者的《怡紅夜宴圖人物座位圖》;能找出某些版本存在的錯誤;能允許使用者隨機輸入自己的新觀點,並對之進行審查。最後,計算機還能定量評價版本的權威性。以上這些工作都能在幾秒鐘之內完成。這一研究成果,在松花江畔的哈爾濱召開的第二屆國際《紅樓夢》研討會上進行了交流,引起了國內外紅學家的極大關注。雖然有的學者對這個計算機模擬的「怡紅夜宴圖人物座次圖」提出了商榷意見,但是這種引入計算機進行探索的方法,畢竟為紅學研究揭開了新的一頁。
1985年以來,南京工學院(現東南大學)、深圳大學相繼開發了《紅樓夢》作品研究的計算機數據庫系統,把紅學研究的計算機化推向了一個新的高潮。南京工學院與江蘇鎮江市科委合作開發的《紅樓夢》大型數據庫系統,在微型計算機中,全文存入人民文學出版社(1982年版)根據庚辰本修訂的《紅樓夢》一百二十回本原著。這個《紅樓夢》數據庫具有原著檢索、人物檔案處理、統計表格和圖形顯示四大功能。提供了4154項檢索項目、525名人物簡要檔案、24份反映近年紅學研究的統計表、兩幅榮國府、大觀園圖形、十條人物活動路徑,將小說劃分為1661個結構模型等項目。尤其是榮國府大觀園平面示意圖及路徑顯示和組合查詢功能引起了專家學者的極大興趣。計算機系統提供的林黛玉入賈府、劉姥姥一進榮國府、元春省親等十個人物的活動路徑的動態表演,使人「眼花繚亂」。系統所提供的對原著的綜合檢索功能,可按文學、哲學、政治、法律、社會、經濟、倫理、技藝、音樂和歷史等諸方面進行檢索。對文學又分詩詞、對聯、灑令、謎語、戲曲、文論、詩論和畫論等8個方面進行檢索。他們的《紅樓夢》數據庫系統在1986年6月哈爾濱《紅樓夢》博覽會上展出並進行操作表演,充分顯示了現代科學技術與古典文學相結合的藝術魅力。
深圳大學也研製成功《紅樓夢》多功能計算機自動檢索系統,為從語言、文學和中國古代文化等方面對《紅樓夢》進行研究提供資料。研究人員將中國藝術研究院《紅樓夢》研究所校注、人民文學出版社1982年出版的《紅樓夢》作為基礎原文全文輸入計算機。人們利用這個檢索系統第一次得到了《紅樓夢》中一系列重要的統計數據。如《紅樓夢》全書的精確字數是731017個;書中使用不同的漢字4462個,使用最多的是「了」,達21176次;全書有1623個不同的四字格成語,用得最多的是「不在話下」;書中採用了二十四種修辭手法,用得最多的是「比喻」,共408條。這個計算機系統可對有關語言、文學、古代文化等方面三十個專題二百多個項目進行檢索。研究者使用這個檢索系統,可以在1分鐘內查到三十個專題範圍內的有關內容。在文學研究方面,可以查到常用修辭手法在《紅樓夢》中的用例,各類文學描寫的有關段落,每個人物出現的全部場合,詩詞中的任何一個篇章。外貌描寫分面容、神情、體態等小類;心理描寫分喜悅、憂愁、怨恨、嫉妒等小類;愛情描寫分寶玉和黛玉、尤三姐和柳湘蓮等小類。例如:要瞭解書中有關寶黛愛情的全部描寫,只需幾秒鐘到幾十秒鐘的時間,計算機螢光屏上就能顯示出來,並由打印機自動打印出來。這個系統還可以用計算機軟件的形式為各方面的研究者提供較為完整的《紅樓夢》成套專題資料,第一次實現了運用計算機對中國古典名著進行綜合研究。根據電腦檢索系統提供的資料,有關人員對紅學研究中的一些問題提出了新的看法。例如,在對《紅樓夢》前八十回與後四十回的一些語言風格要素與風格手段,即某些用字、用詞及回尾處理的差異做了比較研究後,得出了前八十回與後四十回語言風格存在明顯差異的結論,為兩者出現不同作者之手提供了有力的證據。這與從詞彙數量統計的結果相比較,似乎更具有說服力。深圳大學完成的這項《紅樓夢》電腦分專題自動檢索科研課題在北京通過了國家鑒定。1987年月10月在慕尼黑舉辦的聯邦德國第一屆中文信息電腦處理研討會上,《紅樓夢》電腦檢索系統成為一個最引人注目的項目,受到了與會者的高度關注和讚揚。
1987年,復旦大學數學系副教授李賢平的工作引人注目。他在美國威斯康星大學的計算機前工作了數百小時,繪製了三百多張圖紙,運用計算機技術中的模式識別法和統計學家使用的探索性數據分析法,對《紅樓夢》進行統計分析、風格分析。他翻閱了大量的紅學研究論文和資料,利用過去紅學家發掘的資料進行考證。把《紅樓夢》一百二十回本作為一個整體,以47個虛字為識別特徵,對它們在書中各回的出現頻率進行統計分析,輸入計算機後將使用頻率繪成圖紙,根據圖紙反映出的表明不同創作風格的星雲狀和階梯狀圖形,提出了又一次震驚紅學界的《紅樓夢》成書過程新觀點,證明了《紅樓夢》各回寫作風格具有不同的類別,各部分實際上是由不同作者在不同時期裡完成的。李賢平認為:「《紅樓夢》前八十回是曹雪芹據《石頭記》增刪而成,其中插入他早年著的《金瓶梅》式小說《風月寶鑒》,並增寫了具有深刻內涵的許多內容。《紅樓夢》後四十回是曹家親友在曹雪芹全書尚未完成就突然去世之後,搜集整理原稿並加工補寫而成。程偉元將全稿以活字版印刷刊行。高鶚校勘異文補遺訂訛」。他的這一看法否定了被紅學界一直視為曹雪芹作前八十回,高鶚續後四十回的定論。使這個傳統觀點受到嚴重挑戰。紅學家對李賢平新說,有人認為是一個新突破,新開拓;有的則認為還應做進一步的探討。這個情況表明,利用計算機等現代科學技術來研究《紅樓夢》這樣偉大的作品,確實別有一番新天地,拓展了視野,也產生了值得重視的成果。
四
時代在向前發展。在紅學研究的海洋中,不斷泛起新的波瀾。1988年11月,在湖北大學召開了首屆當代紅學研討會。在這個會上發佈了關於建立《紅樓夢》文獻數據庫系統的信息。設在湖北大學圖書館內現代化的《紅樓夢》文獻研究中心正在積極地籌建之中。這個中心的一項主要任務就是採用以計算機技術為代表的現代化手段對紅學的文獻信息資料進行科學管理。運用微型計算機建立《紅樓夢》文獻數據庫系統,實現紅學文獻情報檢索自動化。要達到這個目的,需要事先將圖書、資料、信息等做成數據記錄形成數據庫,把每篇文獻的名稱、作者、出處、時間等條目用漢字或西文通過鍵盤等設備輸入計算機裡去,並用一定的格式存在計算機的磁帶、磁盤或其它磁性記錄材料上。查找文獻時,通過終端鍵盤,把檢索要求打入計算機,計算機就像查字典那麼樣,把所記錄的文獻資料找出來,經過多次逐項比較,凡符合使用者要求的資料,就會在顯示屏上顯示出來,還可以啟動打印機將內容打印出來。這個《紅樓夢》文獻數據庫將盡力收集海內外所有紅學研究的多層次的文獻信息,逐步形成一個計算機化的專題情報檢索服務系統。
在計算機上建立這個專題文獻資料數據庫系統,目前在國內外尚未見到研究報道,所以《紅樓夢》文獻研究中心選擇了這一研究課題。目前,已在配有漢字處理系統的微機上建成了文獻數據庫,按照文獻的標題、作者、出處、時間、關鍵詞等項目,輸入近二千條文獻信息記錄,存入在計算機磁盤中,處理這些數據的計算機程序正在編寫之中。系統建成後,可進行輔助性的咨詢解答工作;針對研究人員的某些重點需要進行定題服務,定期提供信息,使用戶及時掌握與自己研究工作有關的最新情報;系統還可以定期地編製專題索引,提供給讀者,以減少研究人員為查找文獻信息而花費的大量寶貴時間;系統還可以提供指示獲取原始資料的情報源服務,形成擴展性的數據服務網絡,而達到全方位獲取資料的目的;系統還可以從圖書情報學這個角度,通過對文獻信息的計量分析提供國內外文獻資源的分佈等研究概況。總之,《紅樓夢》文獻數據庫建成後,可為海內外專家學者及有關研究者準確、迅速、方便地提供所需要的不同層次的文獻信息,實現文獻資源共享,從而促進紅學研究水平的提高和發展。
五
計算機與紅學研究相結合是社會科學與自然科學互相滲透、交叉應用的又一個新的嘗試,這也是當今世界科學研究的重大特徵之一。對上述這些信息的分析,可以看出:用計算機來研究《紅樓夢》這樣一部偉大藝術作品,為紅學研究開闢了寬廣的新途徑。儘管利用計算機得出的結論不是那麼盡善盡美,但是,作為一種新的研究方法,它在通向文學研究現代化的道路上所產生的影響是巨大的。研究《紅樓夢》作品本身所取得的有關成果已在國際紅學界產生了一定的影響;從研究《紅樓夢》文獻信息資料這個角度所建立起來的《紅樓夢》文獻數據庫,也將會受到國際紅學界的歡迎和重視。