"序言:漢密爾頓(Alexander Hamilton),麥迪遜(James Madison),還是杰伊(John Jay)?
《聯(lián)邦黨人文集》 為美國走向民主打下基礎(chǔ),其中有十二篇文章的作者未明,歷史學(xué)家們?yōu)榇藸幷摿艘话傥迨嗄。盡管這些文章在美國史的語匯中是世人皆知的標(biāo)志性作品,但每一篇的作者究竟是誰卻一直是團(tuán)疑云。哪一位開國元勛撰寫了這些篇章?這個問題激起了無盡的爭論,后來甚至成了歷史學(xué)家聚會時客廳里一個廣為流行的猜謎游戲。美國的治國框架建立在這些振奮人心的論述之上,可到底是誰寫下了這些文章呢?
答案隱藏在文章的詞語中,但要找到這些詞語,學(xué)者們無須精讀文本,只要細(xì)細(xì)地?cái)?shù)一下數(shù)。他們所要看的只是數(shù)字。
疑云始于1787年末,當(dāng)時紐約的報(bào)紙刊登了一系列鼓吹新憲法的文章,用的筆名是普布利烏斯(Publius,源自古羅馬執(zhí)政官Publius Valerius Publicola)。用一個具有愛國含義的筆名來隱藏自己的身份似乎有點(diǎn)可笑。實(shí)際上,在當(dāng)時美國近四百萬居民中,只有三個人才有資格進(jìn)入這場關(guān)于作者身份爭議的角逐。
漢密爾頓,麥迪遜和杰伊撰寫了這些文章這在當(dāng)時是一個公開的秘密,但三個人都不想站出來承認(rèn)寫過哪些特定文章。他們都有自己的政治抱負(fù),后來分別升任財(cái)政部長、總統(tǒng)和最高法院首席大法官,所以他們有充足的理由隱藏自己的作者身份。但他們過分的謹(jǐn)慎留下了難以攻破的疑云,在之后的時日中,同時撩動著歷史教授和熱心的業(yè)余愛好者的神經(jīng)。
你也許會以為,當(dāng)時的學(xué)者和精明政客應(yīng)能確定作者是誰。畢竟只有三個潛在的候選人,每人都有自己的政治傾向,交流表述的風(fēng)格也各不相同。如果放在今天,這個問題可能相當(dāng)于《紐約時報(bào)》刊登了一篇匿名社論,執(zhí)筆者可能是奧巴馬、希拉里或桑德斯,也可能是小布什、麥凱恩或特朗普,我們或許可以分辨出作者來自哪個陣營(前三人是民主黨,后三人是共和黨),但肯定無法準(zhǔn)確落實(shí)到某個人身上。
時間來到1804年,答案似乎終于浮現(xiàn)。漢密爾頓給他的朋友本森(Egbert Benson)寫了一封信,信中列出每一篇文章的作者。當(dāng)時漢密爾頓正準(zhǔn)備與美國副總統(tǒng)伯爾(Aaron Burr)決斗 ,突然意識到了《聯(lián)邦黨人文集》的重要?dú)v史意義,也明白自己可能無法從決斗中生還。最終,他決定不讓這些答案隨他一同逝去。
疑云本應(yīng)就此告終,全國上下關(guān)注此事的人沒有理由懷疑漢密爾頓的第一手信息。但十三年后,麥迪遜在結(jié)束他的第二個總統(tǒng)任期后不久列出了他的著作清單,與漢密爾頓當(dāng)年所說有出入。其中,漢密爾頓認(rèn)領(lǐng)的十二篇,麥迪遜聲稱是他的作品。
此事點(diǎn)燃了群眾的新一波熱情,歷史學(xué)家們?yōu)榇擞譅幊沉艘粋多世紀(jì)。1892年,洛奇(Henry Cabot Lodge,后擔(dān)任參議員)為此問題著文,贊同漢密爾頓的說法,而著名歷史學(xué)家伯恩(E. G. Bourne)則認(rèn)為那十二篇文章的作者是麥迪遜。
大多數(shù)歷史學(xué)家試圖根據(jù)每篇文章的政治理念進(jìn)行梳理,確定作者麥迪遜真的會用那些措辭主張?jiān)O(shè)立中央銀行?漢密爾頓會如此直接地支持針對國會的限制?也許這一篇是杰伊寫的?
直到兩個世紀(jì)以后的1963年,問題才最終得以解決。兩位受人尊敬的教授哈佛大學(xué)的莫斯特勒(Frederick Mosteller)和芝加哥大學(xué)的華萊士(David Wallace)給出了明確的答案。然而,與之前試圖解決這個問題的許多教授不同,兩人并非歷史學(xué)家,不以早期美國學(xué)術(shù)研究工作聞名,甚至從未發(fā)表過一篇關(guān)于歷史人物的論文。莫斯特勒和華萊士都是統(tǒng)計(jì)學(xué)家。
莫斯特勒最為人矚目的一篇論文是關(guān)于美國職業(yè)棒球大聯(lián)盟總冠軍賽的,他在論文中提出:從統(tǒng)計(jì)學(xué)的角度來看,七場比賽是否能夠決出最好的棒球隊(duì)。在著手研究十二篇文章著作權(quán)的前幾年,華萊士也發(fā)表過一篇論文,題目是《T分布和卡方分布的正態(tài)近似界限》。聽上去很難以置信吧?有人想用概率方程解決歷史難題,1963年的歷史學(xué)教授大概會認(rèn)為這是一派胡言。
莫斯特勒和華萊士所用的方法與政治或意識形態(tài)無關(guān),他們只是首批利用詞頻和概率展開研究的統(tǒng)計(jì)學(xué)家。
他們解決問題的過程在某些方面較為復(fù)雜,比如采用了含有階乘的方程、指數(shù)、求和、對數(shù)以及T分布,但核心方法卻是驚人的簡單:
根據(jù)確定是漢密爾頓或麥迪遜所寫的文章,分別統(tǒng)計(jì)某些常用詞出現(xiàn)的頻率。
在需要進(jìn)行研究的文章里統(tǒng)計(jì)相同詞匯出現(xiàn)的頻率。
通過比較上述兩個頻率,確定爭議文章的作者。
事后回頭看,即便不使用那些玄妙的概率方程,兩位統(tǒng)計(jì)學(xué)家的研究結(jié)果似乎也是顯而易見的!堵(lián)邦黨人文集》里麥迪遜的文章中,超過一半文章使用了whilst這個詞,但從未用過while。相反,漢密爾頓大約三分之一的文章中使用了while,但從未用過whilst。
莫斯特勒和華萊士并不是只依靠一個詞的分析,從統(tǒng)計(jì)學(xué)上來講那樣做是不充分的。他們選擇了幾十個基本單詞,然后在有爭議的文章中觀察每個詞的使用頻率。許多詞沒有任何政治含義,兩位不同作者的使用率竟然出現(xiàn)明顯的不同。比如,麥迪遜用also這個詞的頻率是漢密爾頓的兩倍,而漢密爾頓使用according的頻率則比麥迪遜高很多。
莫斯特勒和華萊士采用的方法具有可證偽性 。研究結(jié)果表明,如果在已知作者身份的文章中使用相同的方法,他們可以準(zhǔn)確無誤地識別作者。而對于那些有爭議的文章,他們得出結(jié)論:麥迪遜是十二篇文章的實(shí)際作者 。
在總結(jié)研究結(jié)果時,也許擔(dān)心惹惱一代又一代苦惱不已的歷史學(xué)家,兩位數(shù)學(xué)家的立論和措辭十分謹(jǐn)慎,但展示的數(shù)字卻毫不含糊,兩人對自己的統(tǒng)計(jì)方法有十足的信心。所有已知作者身份的文章的測試分析都毫無瑕疵,作者未明的文章也與其一致。由此得出最終結(jié)論,漢密爾頓所言為虛,那十二篇文章的作者并不是他。
經(jīng)過無數(shù)統(tǒng)計(jì)和非統(tǒng)計(jì)的研究后,莫斯特勒和華萊士的分析結(jié)果(麥迪遜是作者)已經(jīng)成為目前統(tǒng)計(jì)學(xué)家和歷史學(xué)家們的共識。他們超前于所處的時代,他們的研究雖然涉及一些復(fù)雜公式,但本質(zhì)上還是依靠的統(tǒng)計(jì)統(tǒng)計(jì)。如果是今天,通過計(jì)算機(jī)統(tǒng)計(jì)單詞和頻率是件簡單的小事,但在1963年,情形卻并非如此。
當(dāng)時統(tǒng)計(jì)單詞是靠手工完成的。比如,要找出每一篇文章中upon出現(xiàn)的次數(shù),他們得一頁頁、一個個地找出來。為了感受和理解莫斯特勒和華萊士(至少是他們的研究助理)都經(jīng)歷了什么,我打印了一本完整的《聯(lián)邦黨人文集》,開始數(shù)upon這個詞出現(xiàn)的次數(shù)。三十分鐘后,我只進(jìn)展到全文的八分之一,在大約四十頁里有三十七個upon。沒過多久,我的眼皮狂跳,腦子發(fā)木Upon在哪里?這種痛苦就像在漫漫人海中尋找某張人臉。
活在1963年實(shí)在有些辛苦,最后我放棄了,轉(zhuǎn)而采用二十一世紀(jì)的技術(shù)進(jìn)行計(jì)數(shù):我打開谷歌,搜索聯(lián)邦黨人文集完整文本,點(diǎn)進(jìn)第一個搜索結(jié)果進(jìn)行下載,再用Microsoft Word打開文件。兩分鐘后,我選定部分內(nèi)容,再使用菜單里查找命令,隨后發(fā)現(xiàn)Upon出現(xiàn)了四十六次。借助電腦后,不僅在速度上快了二十八分鐘,而且結(jié)果遠(yuǎn)比疲憊的肉眼來得準(zhǔn)確。
再找一個詞匯結(jié)果也還是一樣,一個人瀏覽一遍《聯(lián)邦黨人文集》全文的時間在四小時左右,電腦所需時間幾乎可以忽略。不管是莎士比亞文集、《圣經(jīng)》、《白鯨》,還是英語文學(xué)集,對當(dāng)時的莫斯特勒和華萊士來說,進(jìn)行類似的分析是無法想象的難題,F(xiàn)在情況就完全不一樣了,在電腦上統(tǒng)計(jì)某個單詞在大部頭文本里出現(xiàn)的次數(shù),絕大多數(shù)十來歲的青少年皆可輕松完成。
莫斯特勒和華萊士公布研究結(jié)果的五十年后,電腦的文本輔助功能發(fā)展迅速。谷歌在其搜索結(jié)果中運(yùn)用文本分析,以此決定對哪些用戶投放哪些廣告。目前還有研究人員試圖用文本分析進(jìn)行判斷,是什么原因讓一條Twitter像病毒一樣傳播。媒體也經(jīng)常對同類型的內(nèi)容進(jìn)行措辭上的細(xì)微調(diào)整,以期實(shí)現(xiàn)頁面瀏覽量的最大化。但是到目前為止,這些科技公司對文本分析的應(yīng)用還比較單一,它還有更大的可能性。
莫斯特勒和華萊士使用的統(tǒng)計(jì)方法雖然比較簡單,但實(shí)驗(yàn)獲得的成功卻產(chǎn)生了深遠(yuǎn)的影響。作家們確實(shí)有各自的風(fēng)格,而且是可以進(jìn)行預(yù)測的。事實(shí)證明,留下個人風(fēng)格印記的不僅僅是十八世紀(jì)的政客,所有書籍的作者無論廣受歡迎遠(yuǎn)近聞名,還是晦澀難懂飽受批評都在數(shù)十年的寫作中不斷重復(fù)自己的遣詞造句,這便是他們留下的印記。
莫斯泰勒和華萊士提出的問題和作出的解答雖有一定局限性,但文本分析確實(shí)可以回答各種各樣的問題,那些讓一代代作家和讀者感到疑惑的問題:相比其他作家,海明威真的更少使用副詞嗎?書籍的閱讀難易程度對其受歡迎程度有什么樣的影響?男性和女性作家的寫作方式有何不同?作家提出的創(chuàng)作建議有用嗎?他們自己會遵循那些建議嗎?除了一些明顯不同的拼法問題,還有什么原則可以用來區(qū)分美國小說家和英國小說家?從納博科夫到E.L.詹姆斯(E. L. James) ,我們喜歡的作家喜歡用的詞是什么?
雖然學(xué)術(shù)界已經(jīng)開始研究成功作家的寫作模式,但仍有許多問題有待探索。對普通讀者、主修文學(xué)的大學(xué)生以及野心勃勃的作家來說,這些問題既有趣又有用。你可能不關(guān)心泊松分布 ,也不在乎解讀語言的程序,但你也許想知道自己最喜愛的作家是如何寫作的,以及這對你來說可能意味著什么。
用數(shù)據(jù)分析來研究寫作不僅妙趣橫生,還能提供豐富的信息,有時也會非常搞笑。此外,我們也能借此了解平時閱讀的作家,思考我們自己寫作時使用的詞句,這一切正是本書要深入探討的。在這本書里,每一章都專注于一個文學(xué)新問題的研究。
這些研究并不會達(dá)到令人痛苦的復(fù)雜地步。實(shí)際上,只要具有真正價值,研究無須也不應(yīng)那般復(fù)雜。關(guān)于經(jīng)典文學(xué)或現(xiàn)代暢銷書的許多有趣問題是可以通過統(tǒng)計(jì)的透視鏡來觀察的,但針對這些問題的統(tǒng)計(jì)分析尚未形成體系。本書將用一種嶄新的方法來攻克這些簡單而獨(dú)特的問題。這是一本關(guān)于文字的書,但卻是用數(shù)字寫成的。
"