你写的每个“的地得”，都可能成为呈堂证供

上世紀，美國出現了一位神秘的炸彈客。

從1978年到1996年被捕，17年裏，他寄出了16枚炸彈，造成了3人死亡，23人受傷。在這期間，FBI出動了500多名特工，花費了數百萬美元，也沒抓到這位“炸彈客”（Unabomber）。

看起來，這是一位行事謹慎的高智商犯罪者：随機選擇襲擊目标，并且幾乎沒有在現場留下任何可以追溯的證據，比如指紋、頭發或其他纖維，包括制作炸彈的材料，也無從追溯購買地址，比如用到的木頭看起來就像是路邊撿來的垃圾。

1987年炸彈客制造的一次爆炸後的炸彈碎片丨FBI

破案的線索，最終落到了“炸彈客”的語言風格。

1995年，FBI收到一封信。寄信人說，那些炸彈都是自己寄的，并且以“停止炸彈攻擊”爲條件，要求刊登他的一篇論文，題爲《論工業社會及其未來》（Industrial Society & Its Future）。寄信人聲稱，這篇論文可以解釋他的作案動機以及對社會弊病的看法。

當年的論文原件丨FBI

經過“要不要屈從于恐怖分子”的辯論，FBI決定将這篇論文公開發布，希望有人能認出作者。

這篇論文宣稱現代技術與工業化嚴重侵蝕了人類社會，因此需要有人站出來阻止技術進步，從而拯救全人類。這些極端言論引發了廣泛讨論，“炸彈客”因此被很多極端分子和無政府主義者視爲“英雄”；同時，也引起了民衆的注意。

很快，一位名叫大衛·卡辛斯基（David Kaczynski）的群衆通過律師聯系了警方，說發現這篇論文的觀點和寫作風格都很像自己的兄弟泰德·卡辛斯基（Ted Kaczynski），并提供了一些舊的信件和文章素材。

FBI專家對這些材料進行了語言學分析，發現，除了“科技有罪”的論點，還有很多寫作風格都和公開的炸彈客的論文相符，比如，格式、标點和獨特的拼寫（炸彈客的論文發布之前，FBI就注意到，論文裏的“analyse”一詞采用了英式拼寫）——但這些證據不足以讓他們簽署搜查令。

關鍵證據來自一封信，裏面有一句“you can’t have your cake and eat it, too”，在炸彈客的論文第185段，也使用了同樣的措辭。以此爲突破口，警方最終在美國蒙大拿州一處偏遠的小木屋中找到并逮捕了炸彈客本人，也就是泰德·卡辛斯基。

“you can’t have your cake and eat it, too” 丨參考文獻[5]

資料顯示，泰德·卡辛斯基的智商高達167，16歲就被哈佛大學數學系錄取，25歲就成爲加州大學伯克利分校曆史上最年輕的數學系助理教授——這樣一位瘋狂的高智商反社會炸彈客，最後敗露于自己的行文風格。

“炸彈客”泰德·卡辛斯基（Ted Kaczynski）丨FBI

“去目的地得打的”

在刑偵工作中，能夠追溯一個人身份的方法有很多，比如指紋、虹膜、DNA等，都是獨一份兒的身份标識。

其實，語言和寫作風格也能夠用來确認身份，比如，上文中的炸彈客就是被自己兄弟辨認出了寫作風格。調查這宗案件的FBI調查員曾說：“沒有兩個人會寫得一樣（No two people write alike）。”

一個人在書寫或者打字時，會形成一些特定的詞語用法，而這點小線索，就像文字上的指紋，可以讓我們分辨這篇文字到底出自誰手。這種将文章書寫特征作爲“指紋”來判斷作者的技術，叫做“作者識别”（Author Verification）。有一門叫做“刑偵語言學（Forensic Linguistics）”的學問，就是專門研究書寫或語言的表達方式，來分析案情中嫌疑人或被害者的身份信息。

2018年，《紐約時報》刊登了一篇匿名文章《我是特朗普政府中的一名抵抗者》，作者自稱是白宮的工作人員，對當時的美國政壇一頓批評。這可把時任總統特朗普氣得不輕，表示一定要揪出這個“内鬼”。這時，作者識别就有了用武之地。有人發現，在這封匿名信中出現了“北極星（lodestar）”，而當時的副總統彭斯就特别愛用這個詞。後者當然趕緊出來否認。

《紐約時報》發表的匿名文章丨《紐約時報》發表的匿名文章

作者識别有很多流派和技巧。比如，特定年代的用語可以判斷書寫者所處的年份（“你是GG還是MM”，“你媽喊你回家吃飯”，“神馬都是浮雲”這些當年爆火的流行語如今已經成了時代的眼淚）；一些特定詞彙的使用也可以體現作者的職業（比如，總是把閉環、抓手、賦能這些詞挂在嘴邊的，很大可能是互聯網從業人員）。

這些流派在分析時，大多以實詞作爲依據。實詞，比如名詞、動詞、形容詞之類，一般會用來表達具體的意思。但是，使用實詞分析會面臨一個問題：作者在撰寫不同的内容時，會用到不同體系的實詞。比如，一個生物學家兼職寫作言情小說。在工作時，他會用到大量的生物術語；而在夜班碼字時，可能會用到很多情情愛愛的詞彙。所以，用實詞來判斷作者時，容易被不同文體間的轉換幹擾。

作者在撰寫不同的内容時，會用到不同體系的實詞丨Giphy.com

比起實詞，副詞、介詞、連詞等虛詞通常就沒啥确定的含義，即使寫不同題材的文章，虛詞的使用頻率也大體不變。有人做過統計，在漢語文章中，“的”字的出現頻率大約是每10字出現0.45次，是所有人都最常用的漢字之一。同樣，“地”、“得”、“嗎”、“呢”之類虛詞的出現頻率，也幾乎不受文章内容的影響，更能反映作者的寫作習慣。

容易混用的“的地得”三兄弟

在中國，最知名的作者識别案例，當屬“《紅樓夢》後40回作者懸案”。《紅樓夢》全書120回，目前公認的說法是曹雪芹寫了前80回，高鹗續寫了後面的40回。1970年，紅學家趙岡，就用 “的”、“了”、“在”、“兒”、“著” 這五個字的出現頻率來研究紅樓夢的作者問題，得出了前80回和後40回确實出自不同人之手。

這項研究中用了5個字，其中3個都是虛詞。

用算法在文學圈證明“你是你”

與曹雪芹類似，國外也有那麽幾個大作家，需要後世學者來給其名下的作品掌掌眼，比如英國文豪莎士比亞。

威廉·莎士比亞丨John Taylor / Wikimedia Commons

很多文學研究者認爲莎士比亞的一些作品其實也是他人續寫的，其中就包括名作《亨利八世》。

《亨利八世》是莎翁晚期的作品。晚年的莎士比亞一直擔任King’s Men劇團的劇作家，他去世後，約翰·弗萊徹接替了這個職務。因此，有人“合理”懷疑弗萊徹續寫、甚至修改了《亨利八世》。

亨利八世和家人丨Unknown author / Wikimedia Commons

1850年，文學評論家詹姆斯·斯派丁（James Spedding）提出了一些證據：在《亨利八世》書稿中，有時會用ye代替you，或用em代替them，而這些都是弗萊徹的行文習慣。

當然，相關的說法一直存在争議。即便是二人合著，也沒法判斷到底這部作品中，莎翁和弗萊徹各自貢獻了多少。

然而，随着技術的進步，特别是機器學習算法的成熟，有人就想用新方法來解開《亨利八世》的謎題。

2019年，一位名叫彼得·普萊查（Petr Plecháč）的研究員說自己有了答案。這位來自捷克科學院的學者，使用機器學習算法來識别劇本的每一行文字，然後讓機器來判斷作者是誰。

爲了訓練算法，得出優化模型，彼得先是翻出與《亨利八世》同時期的其他莎翁著作，包括《冬天的故事》、《暴風雨》等。然後，他将這些著作變成一行行數據，喂給了算法，再讓程序能識别莎士比亞的單詞和語句模式。同樣，彼得也找來了不少弗萊徹所寫的劇本，讓算法進行學習。最後，這個經過訓練的算法就可以成爲一名裁判，來分辨《亨利八世》的内容到底出自誰人之手。

S代表莎士比亞，F代表弗萊徹，帶下标的數字表示給定段落的最後一行丨參考文獻[8]

人工智能的分析結果證實了斯派丁的猜測——弗萊徹确實參與了《亨利八世》的撰寫。而且，根據算法的分析，弗萊徹貢獻還不小，有一半左右的劇本都出自他筆下。甚至，算法還能精确地指出哪些段落是莎士比亞自己寫的，而哪些是弗萊徹所寫。比如，算法分析了第二幕第三場，前1261行是莎士比亞所寫，而1261~1299行的作者則是弗萊徹，随後又轉回莎士比亞。

當然，真相早已埋沒在曆史洪流之中，現代學者能做的，隻是基于概率來做出合理的推測。對于成名的作家來說，即使部分作品存在捉刀人，也不能撼動其文學地位。

不過，有些作家面臨的狀況就更窘迫些了，因爲有後人懷疑其所有作品都不是自己寫的——法國劇作家莫裏哀就遭到了這樣的全盤否定。

莫裏哀畫像丨Pierre Mignard / Wikimedia Commons

寫出過《吝啬鬼》、《僞君子》等名作的莫裏哀，在法國人民心中的地位和莎士比亞在英國人心中的地位差不多。

然而，幾百年後，有人開始懷疑莫裏哀并沒有寫過劇本，說他其實是個欺世盜名之徒，理由包括：首先，根據曆史記載，莫裏哀是當時的知名演員，一輩子幾乎都在旅行和巡演，哪有時間寫劇本？再者，人們從沒發現過莫裏哀親筆簽名的原稿。

還有評論家列出了幾位可能的“槍手”人選，其中呼聲最高的，是一位名叫皮埃爾·科尼耶（Pierre Corneille）的劇作者。有人甚至據此腦補了一出“代筆大戲”：受過良好教育的科尼耶，寫了這些劇本，然後簽上莫裏哀的名字，這樣可以利用莫裏哀的明星效應，讓劇本更受歡迎。

“代筆疑雲”中的這些當事人早已長眠地下，沒法出來對證。于是，探案工作又交到了機器手中。

“Why Molière most likely did write his plays” 丨參考文獻[9]

2019年，兩位法國學者在學術期刊《科學進展》 (Science Advances)上發表了一篇論文，題爲“Why Molière most likely did write his plays（爲什麽說莫裏哀很可能寫了他的劇本）”。

看論文标題，就知道這項研究一定十分嚴謹。

研究者收集了莫裏哀、科尼耶以及其他10位同時代作家的作品，将這些作品輸入計算機程序，并統計了每個作者對虛詞的使用頻率。爲了力求準确，他們還分析了詞彙、詞綴、語法等方方面面，最終提煉出了每個作者的行文特征。

經過海量的數據收集、複雜的統計學分析，配合優化的機器學習算法，這兩位法國學者心滿意足地敲下了論文的結論：

“These conclusions strongly substantiate the idea that Molière indeed wrote his own plays。”

（這些證據強烈表明：莫裏哀的劇本确實是莫裏哀寫的)。

參考文獻

[1]Jankowska, M., Milios, E., & Keselj, V. (2014, August). Author verification using common n-gram profiles of text documents. In Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers (pp. 387-397).

[2]https://www.fbi.gov/history/famous-cases/unabomber

[3]https://www.fbi.gov/news/stories/the-words-of-a-killer-the-unabomber-case-25-years-later-040221

[4]https://www.fbi.gov/news/podcasts/inside-the-fbi-the-unabomber-case-040821

[5]Kaczynski, B. T. . INDUSTRIAL SOCIETY AND ITS FUTURE (1995).

[6]孫曉明, & 馬少平. (2001). 基于寫作風格的作者識别. In 見: 中國中文信息學會二十周年學術會議論文集. 北京: 清華大學出版社.

[7]趙岡、陳鍾毅，《紅樓夢新探》，1970

[8]Plecháč, P. (2019). Relative contributions of Shakespeare and Fletcher in Henry VIII: An analysis based on most frequent words and most frequent rhythmic patterns. Digital Scholarship in the Humanities.

[9]Cafiero, F., & Camps, J. B. (2019). Why Molière most likely did write his plays. Science Advances, 5(11), eaax5489.

作者：圓的方塊

編輯：麥芽楊

一個AI

除了“的地得警察”，“的地得”寫不好……可能也會招來真·警察。

本文來自果殼，未經授權不得轉載.

如有需要請聯系sns@guokr.com

你寫的每個“的地得”，都可能成爲呈堂證供

联系我们

微信扫一扫关注我们

國逢盛事 宇通同行——連續7屆榮耀護航博鳌亞洲論壇

大佬聯手封印AI，号召暫停強人工智能研發（附公開信全文翻譯）

相關推薦

联系我们

微信扫一扫关注我们

國逢盛事宇通同行——連續7屆榮耀護航博鳌亞洲論壇