辯前八十回與後四十回
《紅樓夢》是中國古代一部優秀的長篇小說,並以此為中心而形成「紅學」了這一門學問。現學術界多認為流傳於當世的程高本百二十回《紅樓夢》前八十回為曹雪芹所寫,後四十回為高鄂所續。歷史上大多數紅學研究者以索引、考證等方法研究《紅樓夢》,並提出很多獨具特色的見解。運用數理統計方法可作為研究紅樓夢的一種不錯的輔助手段。
一般而言,一個作家如沒有什麼重大的變故,都會保持自己的固有寫作風格。反映在文章中則表現出特定的句子長短,名詞、形容詞、語氣助詞等使用頻率的不同,某些使用較高頻率的特定的字、詞的不同。使用數理統計方法可定量地表現出這種差異。
現先以與《紅樓夢》創作年代大體相同的《儒林外史》為例來具體說明。《儒林外史》共計56回,我們不妨將其分為1—28回與29—56回這兩部分比較。其中「也」字與「的」字出現的頻率較高,而且它們與作者的寫作習慣有關,與具體的文章內容無關。故不妨以它們為基準進行統計。
現列表如下:
回數
中文和朝鮮單詞數M
「也」字個數my
「也」字頻率的倒數ty
「的」字個數md
「的」字頻率的倒數td
1
6861
35
193.0
92
74.6
2
5923
37
160.1
104
57.0
…
28
5772
23
251.0
101
57.1
29
5588
19
294.1
91
64.1
…
55
5152
53
97.2
157
32.8
56
3326
8
416.0
0
∞
註:以上數據均是本人用word2003中的「查找與替換」功能統計的,其中1—15回的材料來源於「中青網」,16—56回的材料來源於「書路網」(因「中青網」上無16—56回的《儒林外史》,而且書路網上的前15回材料與中青網基本一致)。又因數據較多,限於篇幅,不一一列出。為了計算的方便,以頻率的倒數作為標準,可理解為平均每隔多少個「中文和朝鮮單詞數」就出現一次「也」或「的」, ty =M/ my,td=M/ md
通過計算我們可以得到:
對於「也」字 1—28回 樣本平均值Ty=(Σty)/n=212.1
樣本標準差Sy=√[Σ(ty - Ty)/n]=45.7
對於29—56回,我們可以第56回多是文言文,而非白話文。且大幅羅列人名,是十分特殊的一回。故去掉第56回。則
對於「也」字 29—55回 樣本平均值 Ty′=218.3
樣本標準差Sy′=66.9
定性地看,我們可以看到1—28回與29—55回中的「也」字出現的頻率十分接近。現用t檢驗法定量地表示:
檢驗假設:H0: μ1=μ2 H1: μ1≠μ2
取顯著水平 α=0.05 拒絕域|t|=|Ty –Ty′|/[sw√(1/n1+1/n2)]≥tα/2(n1+n2-2)
其中tα/2(n1+n2-2)= t0.025(53)≒z0.025=1.960
sw=√{[(n1-1) Sy2+(n2-1 )Sy′2]/n1+n2-2}=57.1
∴ |Ty –Ty′|/[sw√(1/n1+1/n2)]=0.40<1.96= t0.025(53)
故接受H0,即認為「也」字在1—28回與在29—55回中出現的頻率無明顯差異。
類似地,對於「的」字1—28回其樣本平均值 Td=64.0
樣本標準差 Sd=13.6
29—55回 樣本平均值 Td′=64.0
樣本標準差 Sd′=13.6
用t檢驗法得 |t|=0.71<1.96
故接受H0,即認為「的」字在1—28回與在29—55回中出現的頻率無明顯差異。
所以我們可以認為《儒林外史》的1—28回與29—55回應出自同一作者之手。這也與我們已有的認識即《儒林外史》為吳敬梓一人所寫相吻合。
通過這個例子我們可以知道用數理統計方法作為一種手段。其結果是比較可信的。須注意的是應先進行3σ法則檢驗、剔除異常值。可多統計其它出現較高頻率的字,結果則更為可信。
同樣地,與上面類似,可列出有關《紅樓夢》的表格:
回數
中文和朝鮮單詞數M
「也」字個數my
「也」字頻率的倒數ty
「的」字個數md
「的」字頻率的倒數td
1
6621
38
174.2
32
206.9
2
5056
42
120.4
62
81.5
…
41
5486
50
109.7
123
44.6
…
81
5832
51
114.4
142
41.3
…
119
8102
70
115.7
212
38.2
120
6601
47
140.5
154
42.9
註:以上資料均來源於中青網,用word2003中的「查找與替換」功能統計的。
對於「也」字 1—40回 樣本平均值Ty=(Σty)/n=147.5
樣本標準差Sy=√[Σ(ty - Ty)/n]=52.2 根據3σ法則,則|ty-Ty|/Sy > 3時,則把ty看作異常值,即ty<9.1或 ty>304.1的數為異常值,則刪去第18回(第18回中ty=334.1)重新計算得Ty=142.7, Sy=43.1 再根據3σ法則,刪去第3回(第3回中ty=274.4)。再重新計算得Ty=139.2, Sy=37.8
同理 對於41—80回,根據3σ法則,刪去第53回。(第53回中ty=231.4) 得 Ty′=116.8 Sy′=26.9
對於81—120回,根據3σ法則,刪去第106回。(第106回中ty=190.0) 得 Ty//=117.4 Sy//=19.8
直觀地看,41—80回與81—120回中「也」字出現的頻率十分接近。但它們都與1—40回中「也」字出現的頻率有些差異。現用t檢驗法表示。
對於41—80回與81—120回 假設檢驗H0: μ1=μ2 H1: μ1≠μ2
|t|=|Ty′- Ty//|/[sw√(1/n1+1/n2)]=0.11 < 1.96
故接受H0,即認為「也」字在41—80回與在81—120回中出現的頻率無明顯差異。
同理,對於1—40回與41—80回|t|=2.99 > 1.96 故拒絕H0,即認為「也」字在1—40回與在41—80回中出現的頻率無明顯差異。
以上結果與我們被告知的《紅樓夢》前八十回為曹雪芹所寫,後四十回為高鄂所續相矛盾。那麼對於「的」字又如何呢
「的」字 1—40回 根據3σ法則,刪去第1回(第1回中td=206.9),第18回(第18回中td=117.0)則 Td=54.1 Sd=17.5
41—80回 Td′=48.0 Sd′=12.3
81—120回 刪去第91回(第91回中td=68.6)Td//=43.0 Sd//=6.3
對於用41—80回與81—120回,用t檢驗法得 |t|=2.44 > 1.96
對於用1—40回與41—80回,用t檢驗法得 |t|=2.03 > 1.96
這又是一個令人驚異的結果,這三部分好像出自不同作者之手。再對《紅樓夢》中的「他」字進行統計。
『他「字 1—40回 Tt=73.1 St=28.8
41—80回 Tt′=73.3 St′=18.6(捨去了53、68、69三回)
81—120回 Tt//=66.6 St//=18.9(捨去了105回)
對於用41—80回與81—120回,用t檢驗法得 |t|=1.56 < 1.96
對於用1—40回與41—80回,用t檢驗法得 |t|=0.04 < 1.96這一組就符合的比較好,沒有出現大於1.96的情況。但對於「也」與「的」字1—40回為何與其它章節相差較大呢?
我們現將《紅樓夢》的前40回再細分,即每20回為一部分。
對於「也」字 1—20回 Ty=158.6, Sy=46.9(刪去了第18回)
21—40回 Ty=118.6, Sy=21.8(刪去了第23回)
21—40回與41—80回81—120回中「也」字出現的頻率十分接近,|t|< 1.96 但1—20回與41—80回81—120回中「也」字出現的頻率差異較大,|t|>1.96
對於「的」字 1—20回 Td=62.1, Sd=24.6(刪去了第1回)
21—40回 Td=49.7, Sd=12.1
21—40回與41—80回和81—120回中「的」字出現的頻率比1—20回與41—80回和81—120回中「的」字出現的頻率差異較小。
再來比較《儒林外史》與《紅樓夢》。
對於「也」字,用《儒林外史》的1—28回與《紅樓夢》的41—80回比較。得|t|=10.61>1.96
對於「的」字,所用章節同上,得|t|=4.68>1.96
可以看到它們都較1.96大了許多。
在比較《紅樓夢》41—80回與81—120回時,|t|為2.44。與1.96偏差不大。而在比較《儒林外史》與《紅樓夢》中的「的」字時|t|為4.68,顯然比大1.96了許多。考慮到後40回由程偉元收購時就已經有些殘缺了,經過友人「細加厘剔,截長補短」,補充修改了一小部分,而且小說受人的主觀性影響較大 ,對於41—80回與81—120回中的「的」字|t|=2.44這個結果是可以接受的。並且41—80回與81—120回中的「也」字|t|=0.11 < 1.96,41—80回與81—120回中的「他」字|t|=1.56 < 1.96。故可以認為《紅樓夢》的41—120回來源於同一作者之手。
有些人可能會有這樣一個疑問:如果續書者極力模仿曹雪芹的寫作風格,那麼豈不是不能辨別後40回為曹雪芹所著的了?確實在清代就有許多人在續寫《紅樓夢》。以其中夢夢先生的《紅樓圓夢》為例。《紅樓圓夢》共計31回,所續內容為百二十回本《紅樓夢》之後發生的事情。同樣列出與前面類似的表格,可求得:
對於「也」字 Ty=278.9, Sy=103.8
對於「的」字 Td=142.5,Sd=45.8
將它們與《紅樓夢》的41—80回相比較,得到:
對於「也」字 |t|=9.48 >1.96
對於「的」字 |t|=9.43 >1.96
兩組數據都遠較1.96大,說明《紅樓圓夢》與《紅樓夢》之間的差異非常大,即它們來源於不同作者之手。這可以說明一點:一位作家即使極力模仿別人的風格,在統計上一般也能顯出他們的差異,哪怕他們寫的是同一體裁,內容相關。
實際上,清代的《紅樓夢》續書幾乎都為百二十回本的續書,而非八十回本的續書。這也從另一個方面揭示了在清代人們一般還是認可當時流行的百二十回「程高本」是曹雪芹一人所寫這種觀點的。若不然,如果他們認為後四十回為高鄂所續,恐怕他們一般都會寫八十回本的續書,而非百二十回本的續書了。清代的這些續書者距曹雪芹生活年代並不遠,當時社會上可能還保存了不少的資料、證據說明當時流行的百二十回「程高本」為一人所著。他們的生活內容和思想也比現代人更接近曹雪芹,應該說他們更有資格去評定《紅樓夢》的後四十回問題了。
我們再看一下《紅樓夢》的前20回與後100回的差距。造成這種情況的原因可能有以下幾個原因:(1)庚辰本第22回的脂硯齋評語道:「此回未成而芹逝矣,歎歎。」這就是說曹雪芹在修改到《紅樓夢》的第22回時去逝的。而修改小說一般是從前到後修改的。如曹雪芹是在痛失親子的情況下批閱前20回的話,那麼他的心理變化不可謂不大,甚至有可能使他的文風改變了一些。這使得他所修改的前22回與未在這種情況下修改的其它章節有些差異,這也與我們所統計的前20回與後100回有些差異相吻合。這種情況在歷史上也有諸多例子。比如北宋後期時詞人大多崇尚婉約,但靖康之難後許多詞人如張元斡等人詞風一躍而變得慷慨激昂。(2)《紅樓夢》的前20回可能經過他人較大的修改,而由於某些原因對20回之後的內容未做大量修改。或者是對《紅樓夢》的後100回經過較大的修改,而由於某些原因前20回未做大量修改。(3)由於只統計了「也」、「的」,故可能存在著統計量過少,存在一定的偶然性這種原因。而且在「他」字的統計中雖然前40回與後80回符合的很好,但前20回與後80回,21—40回與後80回都存在著一定的差異。(4)前20回未形成作者的固有風格,20回之後才固定下自己的風格。
有些紅學研究者認為賈寶玉不應在後40回參加科舉,因為他是反對科舉的,後40回寫賈寶玉參加科舉高中顯然違備了曹雪芹的的本意。讓我們看看《儒林外史》,吳敬梓在這本小說中對科舉大加諷刺鞭撻,可以說達到了前無古人,後也鮮有來者的境地,但小說的最後卻是以皇榜公佈,多人高中科舉結束的。可見作者對科舉還是有些期冀的。在《紅樓夢》中,當賈府衰敗之後,振興賈府的重任必然要落在賈寶玉身上,賈寶玉對賈府不可能無情,對父母不可能不孝,在封建社會,參加科舉被認為是通向光明前途的一條「康莊大道」,如果科舉高中,會讓家族極其榮耀。賈寶玉借科舉以報父母養育之恩也是無可厚非的。曹雪芹飽讀聖賢之書,雖然性格有些叛逆,但不可能不重視孝道。同樣的,他也不可能讓書中的主角背上一個不孝之名,不可能變成一個見賈府興旺發達之時就在「大觀園」裡享樂,見其敗落之際便將它拋棄的自私之輩。寶玉對科舉的不屑,既是天性使然,又是一個養尊處優的富家公子哥所發的牢騷。當大觀園不在時,他只能選擇現實。
程偉元在「程甲本」的序中說他先是通過「竭力收羅,自藏書家甚至故紙堆中無不留心,數年以來,僅積有廿餘卷」,後來又「偶於鼓擔上得十餘卷」,並與友人「細加厘剔,截長補短,抄成全部」。從上面的統計中,我們可以看到後40回與前面並無多大差距,如果程偉元想與友人篡改後40回的情節內容,那麼由於改動情節需大規模的改動文章,反映在數理統計上,則應有明顯的差異。而我們發現它們的差異很小,這可以說明程偉元與友人就只是小規模的「截長補短」而已。程偉元的話應該是比較可信的。《紅樓夢》的後40回理應就是曹雪芹的原著,而且只經過別人很少的改動,基本保留了原貌。
我們還可以發現一個有趣的規律。在上面每40回為一單元統計中,《紅樓夢》中被3σ法則剔除掉的異常值遠較《儒林外史》多。其中統計「也」字時異常值為第3、18、53、106回。其中統計「的」字時異常值為第1、18、91回。其中統計「他」字時異常值為第53、68、69、105回。合起來則有第1、3、18、53、68、69、91、105、106回。籠統地看,這些數值呈現週期為17或18的規律。我們可以把相近的的章回數求加權平均值,如第1、3回可得平均值為2,第68、69回可得平均值為68.5.這樣我們可求得大約是在第2、18、53、68.5、91、105.5回出現異常值。不妨認為它們呈線性關係。設異常回數U = K N + C(N為整數)。則列出下表:
N
0
1
3
4
5
6
U
2
18
53
68.5
91
105.5
利用最小二乘法可得K = 17.47 C=1.09
所以U = 17.47 N + 1.09
利用這個式子可求得如下:
N
0
1
2
3
4
5
6
U
1.09
18.56
36.03
53.50
70.97
88.44
105.91
這與實際的異常值很接近。故我們認為《紅樓夢》中異常值的出現規律是以17.47為週期的。而且在第36回左右也應出現異常值,這可能會通過其它字的統計檢驗出來。這種規律可能也會出現在其它小說中,只不過它們的K、C值不同而已。這似乎也說明了《紅樓夢》的後40回為曹雪芹一人所寫。