注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁新聞資訊文化

喬姆斯基 vs ChatGPT

喬姆斯基對語言學、計算機科學、認知科學和哲學有深刻貢獻,同時他也是在世的最有影響力的知識分子之一。有人說他位列有史以來引用數(shù)最高的十位思想者,這話即使不完全準確,應該也很接近。

喬姆斯基對語言學、計算機科學、認知科學和哲學有深刻貢獻,同時他也是在世的最有影響力的知識分子之一。有人說他位列有史以來引用數(shù)最高的十位思想者,這話即使不完全準確,應該也很接近。用Google Ngram查一下:他的名聲和維特根斯坦差不多,高于波普爾、托爾斯泰、圖靈和哥德爾,但遜于羅素,更不要說愛因斯坦、牛頓和希臘三賢。

ChatGPT 2022年底橫空出世。2023年3月8日,近九十五歲的喬姆斯基應《紐約時報》之邀發(fā)表文章:The False Promise of ChatGPT,如文題所示,喬姆斯基對ChatGPT不買賬。文中用了一個幾乎在他老人家所有著作中都出現(xiàn)過的例句:John is too stubborn to talk to。喬姆斯基認為機器會把這個句子理解為:John太固執(zhí)不愿意和人談話;而不會正確地理解其本意:John不可理喻。但網(wǎng)民們把這個例句丟給ChatGPT:ChatGPT準確地知道這個句子的深層含義。喬姆斯基被打了臉。喬姆斯基對他年輕時代的新興學科如計算機科學和認知科學的前沿成果了如指掌,但對大語言模型卻持忽視態(tài)度。斯坦福大學的計算語言學家克里斯·曼寧(Chris Manning)在推文中說:“看到一位年輕時深刻的創(chuàng)新者,現(xiàn)在卻保守地阻礙激動人心的新方法,真是令人悲傷?!边@大概也是崇拜過喬姆斯基的兩代人的普遍失望:喬老爺老了。當然,期盼年過九旬的喬姆斯基親手微調(diào)大語言模型,是不公平的。

喬姆斯基其人

喬姆斯基的父母和那時大多數(shù)猶太人一樣都是復國主義者,同時有強烈的不自私的社會主義色彩。作為左派猶太家庭的孩子,喬姆斯基十二歲就涉足政治,他的政治態(tài)度受他老師哈里斯的影響,不信布爾什維克,也反猶太復國主義。喬姆斯基剛結婚時曾考慮到遷居以色列,反諷的是,他出名后因為反猶立場,被以色列拒絕簽證。他1960年代因參與反越戰(zhàn)活動,曾被美國政府關押。他的同牢房獄友是諾曼·梅勒,梅勒說他是個書呆子,在監(jiān)獄里還在擔心沒法給學生上課怎么辦。他1970年冒險訪問越南和老撾。為了保護喬姆斯基,麻省理工學院一度雇了兩個專職保鏢——相較于雞賊的鄰居哈佛,麻省理工更富理想和勇氣。喬姆斯基的最新政論書《美國夢安魂曲》表現(xiàn)出他的博學,我們甚至有信心他可以成為一個絕妙的美國憲法律師。他的政治立場也并非一成不變,但有一個基本原則:永遠站在弱勢一邊,借用那個“墻和雞蛋”的比喻,喬姆斯基永遠是那個雞蛋,具體地說,就是反美反猶。在評論拉美政治時,喬姆斯基居然堅定支持篤信天主教的神父們?;粮裼绊懥θ缛罩刑鞎r,喬姆斯基曾是他的激烈批評者。基辛格在大洋的另一邊一直是香餑餑,但現(xiàn)在的大多數(shù)美國年輕人甚至不知道此人的存在?;粮裼悬c像西洋參,所有美國華人回國探親前都會在中國商店買點回國送人,但西洋參真不西洋。

喬姆斯基1970年攝于麻省理工


簡單地說,“柏拉圖之問”和“奧威爾之問”是驅動喬姆斯基一生的兩條主線。“柏拉圖之問”即后人所謂“刺激貧乏論”(poverty of stimulus):在可借鑒的事物極端貧乏的情況下,人類是如何獲取如此豐富的知識的;而“奧威爾之問”恰相反:在可借鑒事物如此之多的情況下,人類所知為何如此之少。奧威爾是第一人稱敘事,他曾說:“每個生命從內(nèi)部看都是一串失敗?!保ˋny life, when viewed from the inside, is simply a series of defeats.)第一人稱敘事者少有樂觀派。喬姆斯基做學問時,貼近柏拉圖,而從事政治活動時,遵循奧威爾。在他麻省理工學院辦公室里,曾經(jīng)掛著一幅巨大的羅素照片,大有羅素之后舍我其誰的架勢。語言學之于喬姆斯基,就像邏輯學之于羅素。他們都關心政治和社會進步,承認平等的同時也強調(diào)自由。在喬姆斯基心中,奧威爾大概會排在羅素之前。喬姆斯基不是一般意義的左派,他是無政府主義者。

喬姆斯基雖自稱是理性主義者,但內(nèi)心卻鄙視現(xiàn)代歐陸哲學。他和法國人??碌膶φ?,被歐陸學界引申,但喬姆斯基自己則稱兩人不是嚴肅的對話,只是看看不借助翻譯是否能聽懂彼此的母語。喬姆斯基直言德里達、拉康和??碌确▏目浦R分子是“騙子”“文盲”“邪教”。他對反智極端憤恨。

如果看喬姆斯基過去二十年的著作和訪談,翻來覆去都是講同樣的幾件事,核心立場并無大變。他的所有采訪都被編輯成書。他講話雖然少有激情,但語言嚴謹清晰且通俗,這是他能海量出版的原因,只要把演講和采訪的錄音轉為文字就可以了,幾乎不用修改。《語言科學》(The Science of Language)一書是加拿大語言哲學家詹姆斯·麥吉爾弗雷(James McGilvray)對喬姆斯基的采訪記錄,這是喬姆斯基思想最通俗易懂的介紹。喬姆斯基認為笛卡爾和休謨之后,哲學家已經(jīng)普遍落后于時代,只有少數(shù)幾個哲學家是例外:康德、弗里格、羅素和美國哲學家中唯一被他佩服的皮爾士?!墩Z言與心智》(Languages and Mind)是根據(jù)喬姆斯基1967年在加州大學伯克利分校的三次貝克曼講座的內(nèi)容整理而成,到2006年出第三版時增加了生物語言學的內(nèi)容,篇幅增加了近一倍。更新版的《我們是誰》(What Kind of Creatures Are We)很可讀,最后一章顯示出他對科學史的廣泛涉獵。如果把這幾本書當作喬姆斯基本人的著述,別人寫的必讀書肯定包括英國語言學家萊昂斯(John Lyons)的《喬姆斯基》,這書附有術語表,解釋喬姆斯基特定的術語。另一位英國語言學家尼爾·史密斯(Neil Smith)寫的喬姆斯基學述更加全面,除了語言學,還公平地評論了他的政治,書名就叫Ideas and Ideals, 很明顯,Ideas指學問,Ideals指政治。

1953年喬姆斯基和新婚妻子卡羅爾去歐洲度假,在從蒙特利爾到鹿特丹的跨洋破船上,喬姆斯基嚴重暈船,于是躺平,開始重新審視他老師哈里斯的結構語言學。他想出了廣義文法(Universal Grammar,UG)。喬姆斯基從與他同年的數(shù)學家、邏輯學家馬丁·戴維斯處了解到戴維斯的老師、邏輯學家波斯特(Post)的工作。喬姆斯基早期最有影響的文章《語言描述的三個模型》(Three Models for the Description of Language,1956)中引用了數(shù)學家羅森布魯姆(Paul C. Rosenbloom)的教科書《數(shù)理邏輯要素》(The Elements of Mathematical Logic),其中正式地講述了產(chǎn)生式系統(tǒng)。這篇文章后來衍生出喬姆斯基分層,對語言學和計算機科學都有深刻影響:喬姆斯基-0型文法(遞歸可枚舉語言)等價于圖靈機,1型文法(上下文相關語言)等價于線性有界非確定圖靈機,2型文法(上下文無關語言)等價于非確定下壓自動機,3型文法就是碼農(nóng)們熟悉的正則表達式,等價于有限自動機?!岸陶Z結構文法”(phrase structure grammar),在喬姆斯基早期著作中不嚴格地用來泛指Post系統(tǒng),但后來則特指1型和2型文法。對編程語言有巨大影響的Algol-60語言是用BNF(巴克斯-諾爾范式)描述的,而BNF就是上下文無關文法。喬姆斯基認為短語結構文法不足以描述自然語言。除了四層分法,還有五層分法,即在常規(guī)的0型和1型之間,加個遞歸語言(recursive language),遞歸與遞歸可枚舉的區(qū)別在于對應的圖靈機是不是可停機。再講下去需要點數(shù)學和計算理論的知識,就此打住。語言學家馮志偉先生的《現(xiàn)代語言學流派》可作為進一步的入門參考。

喬姆斯基最重要的著作《語言學理論的邏輯結構》完成于1955年,他的博士論文取自這書。他把打字稿交給麻省理工學院出版社,想作為專著出版,但審稿的語言學家們并不認可,回復是這樣一個初出茅廬的年輕人提出的非常規(guī)思路應該先寫成論文交給學術刊物,待學術界認可后再出書。但喬姆斯基關于此題材的第一篇論文恰被拒稿。審稿者根本就沒看,直接將原件寄回?!叭齻€模型”一文最終還是在美國電氣電子工程師學會IEEE的前身IRE組織的信息論會議上宣讀,后來正式發(fā)表于IRE的《信息論學報》。喬姆斯基在這次會上結識了參會的數(shù)學家所羅門諾夫,他在會上也宣讀了一篇文章,并由此開辟了算法信息論。兩人互相啟發(fā),所羅門諾夫早期文章常引用喬姆斯基的生成文法。如果他也像喬老爺這么長壽,就能夠活著欣慰地看到:是算法信息論為ChatGPT奠定了理論基礎,這個故事值得另一篇長文,暫且不表。

《語言學理論的邏輯結構》


喬姆斯基的伯樂是比他年長幾歲的同校青年教授,一位是認知心理學的創(chuàng)立者之一喬治·米勒(George Miller)和猶太裔語言學家莫里斯·哈利(Morris Halle)。米勒是最早看過《語言學理論的邏輯結構》的人。哈利看了喬姆斯基給本科生上課的講稿,推薦給Mouton出版社作為現(xiàn)代語言學叢書的一個小冊子先出版了,這就是《句法結構》。這本科普書好評如潮,奠定了喬姆斯基在語言學界的地位,而更學術的《語言學理論的邏輯結構》則要到二十年后才正式出版。他的語言學經(jīng)歷了幾個階段的變化:1950年代轉換生成文法,1960年代標準理論,1970年代管轄與約束(government和binding),1980年代最簡方案。平克曾經(jīng)用“文革”語言戲稱喬老爺語言學思想的變化為“繼續(xù)革命”,但他的核心思想——“思維是由語言生成的”(這里簡稱“思維即語言”或“語言即思維”),從來沒有變過。

思維即語言?

喬姆斯基的理論在語言學界被認為是開天辟地的,所謂“喬姆斯基革命”。但從計算機科學和邏輯學的角度看,它是自然的。喬姆斯基承認廣義文法(UG)受到波斯特的啟發(fā)??上Рㄋ固丶葲]有被邏輯學家(如哥德爾)欣賞,也沒有被數(shù)學家包容。相較于計算機科學,語言學是遲鈍的:計算機科學幾乎與相應的數(shù)理邏輯同步,當哥德爾和海伯倫 1934年定義了廣義遞歸函數(shù),圖靈1936年就發(fā)明了圖靈機;而波斯特的工作要到1956年才被喬姆斯基引入語言學。喬姆斯基之前,語言學是文科,喬老爺力圖把語言學變成自然科學。喬姆斯基稱第一次認知革命發(fā)生在十七世紀,主角是笛卡爾;而第二次認知革命發(fā)生在1950年代的麻省理工。喬姆斯基甚至把“思維即語言”回溯到基督教楊森派主要人物阿爾諾(Arnauld)寫的《王港語法》,阿爾諾和同時代的笛卡爾和帕斯卡相熟,并深受他們影響。也有語言學史家認為喬姆斯基誤讀了《王港語法》。

與英美經(jīng)驗主義傳統(tǒng)不同,喬姆斯基自稱是理性主義者,他的語言學理論也被他冠以笛卡爾語言學的帽子。在語言是區(qū)分智人和其他物種的決定性因素上,認知科學家和進化心理學家都同意喬姆斯基。但在語言的來源上,喬姆斯基和大家有明顯分歧。波普爾和平克等認為語言是進化的產(chǎn)物,所謂漸進派;而喬姆斯基則認為語言是突現(xiàn)的,他自稱“跳躍”(saltation)派。

喬姆斯基不斷地引用洪堡的說法“語言是有限手段的無限運用”。他提出的一個極為簡單的機制:“合并”(merge),其實是一種原始的遞歸機制,考慮到通用遞歸函數(shù)等價于圖靈機,我們不驚奇“合并”機制可以解釋所有的語法現(xiàn)象。對喬姆斯基來說,只要能找到“合并”的生物學解釋,他的計劃就可以變成科學理論了——他目前都以更加謙遜的“計劃”(program)而不是“理論”來指稱自己的研究。如果“合并”的生物學解釋成立,那么這不過是丘奇-圖靈論題的一個生物學支持證據(jù)而已。如果承認語言等于思維,實際上承認了圖靈機可以思維。

語言學家說“思維即語言”,有點像物理學家(例如網(wǎng)紅邁克斯·泰格馬克)說“數(shù)學等于物理”。常人看,思維肯定大于語言,而數(shù)學也大于物理。圖靈測試是語言能力的測試,無關其他模態(tài)。十幾年前深度學習能火起來,是因為神經(jīng)網(wǎng)絡解決了語音和視覺問題,但那時人們只是興奮。GPT卻令人驚喜甚至震撼。無論是語音還是視覺,我們都認為這是增強人的能力。但直到2022年ChatGPT在語言能力的突破才使人意識到人性可能被冒犯。語言要比聽覺和視覺更接近人性。

喬姆斯基認為語言的交流功能是思想功能的外化,思想在先,交流在后。他還認為人類可能在十萬到五萬年前因為基因突變,導致了遞歸枚舉能力。這種突變可能在人類更早的歷史上發(fā)生過多次,只不過這次有了顯著的群體效果。感覺-運動系統(tǒng)(sensory-motor)是語言外化的結果。喬姆斯基的妻子卡羅爾是麻省理工學院的生物語言學家,她研究過兩歲前得過腦膜炎的兒童,他們喪失了視覺和聽覺,但還保留有觸覺。他們能通過觸覺補償語言能力,從而能思維。這證明了語言是比其他感知模態(tài)更加基礎的官能。

GPT的G就是喬姆斯基生成文法中所謂“生成”。喬姆斯基最出名的例句大概是:Colorless green ideas sleep furiously. 這個生成的句子被傳統(tǒng)經(jīng)驗主義者批判為“虛無”,但很多詩人贊賞這個句子,稱其富有禪意。按照當下流行的GPT術語,就是“幻覺”(hallucination),或者創(chuàng)造力。

喬姆斯基雖不愿承認還原論,但他的方法論本質上還是還原論的:他企圖找到語言的生物學基礎。他稱贊圖靈把生物學問題還原到物理學問題——圖靈1952年做過形態(tài)學(Chemical Basis of Morphogenesis)。牛頓也很困惑萬有引力不能歸約到機械力學,即任何運動必須有某種物理的推動。喬姆斯基不認可經(jīng)驗主義和行為主義,他有時也稱之為馬赫主義。他認為深度學習就是當代的行為主義。洛克說心靈是白板,萊布尼茨說心靈不是白板,而是有紋理的大理石板。雖然圖靈測試被看作是行為主義的,但一個基本假設是數(shù)據(jù)是喂給圖靈機的,而圖靈機不是白板。經(jīng)驗主義者也不得不承認思維源于某種有組織的物質(organized matter)。如果承認丘奇-圖靈論題,那么所謂“有組織的物質”和理性主義者所謂“紋理”都可被看作是圖靈機或者與之等價的“語言官能”。經(jīng)驗主義者會把學習看作記憶,而承認丘奇-圖靈論題的人會把學習看作壓縮。通用人工智能(AGI)不過是不熟悉計算理論的人提出的口號,如果我們認可語言即思維,那么,AGI的標準就是語言,無關乎其他模態(tài),這就又回到圖靈測試。

思維不等于語言?

塔南鮑姆(Joshua Tenenbaum)是麻省理工學院大腦與認知科學系的學術新星。他父親曾是1980年代硅谷人工智能重鎮(zhèn)Schlumberger實驗室的掌門人,后來連環(huán)創(chuàng)業(yè),我和老塔同事時,小塔還沒上高中,現(xiàn)在居然成了大佬。ChatGPT出來后,小塔跟風,企圖標新立異這樣一種觀點:大語言模型解決了語言問題,但還是不能思維。他和幾位同道學生在arXiv上掛了篇文章Dissociating Language and Thought in Large Language Models: A Cognitive Perspective,標題一目了然:分離語言與思維。他們把語言能力分為形式能力(formal competence)和功能能力(functional competence),結論大致是大語言模型解決了形式能力,而沒有解決功能能力,所以思維不等于語言。小塔所謂“功能能力”就是用言語同世界打交道,換算成大模型的術語就是“多模態(tài)”。其實,他們對語言能力的劃分,都是喬姆斯基玩剩下的,喬老爺早就有內(nèi)部語言(I-語言)與外部語言(E-語言)之分,內(nèi)部語言是天生的能力(competence),外部語言用于行為(performance),這本就是兩件不同的事情。小塔的“功能能力”對應于喬老爺?shù)耐獠空Z言。內(nèi)部語言受制于生物、數(shù)學和物理的約束。喬姆斯基應該認可丘奇-圖靈論題的某個版本。任何相信丘奇-圖靈論題的人不會是純粹的理性主義者,也不會是純粹的經(jīng)驗主義者。喬姆斯基-0型文法等價于圖靈機,所謂“語言官能”(language faculty)等價于某種自動機。這間接地支持思維即語言的論斷。

塔南鮑姆


內(nèi)部語言關乎“真”,尺度是內(nèi)在一致性;而外部語言關乎“意義”,尺度是外在對應性。意義得自交流,維特根斯坦所謂“意義即使用”,或者約翰·奧斯汀所謂“以言行事”(do things with words),“言語行為”都是指外部語言。外部語言對應于工程師們感興趣的 embodied intelligence(中文別扭地翻譯為“具身智能”)或“多模態(tài)”(視覺、聽覺、觸覺等)。意義是功能層在與外界交互時進行強化學習的過程。喬老爺認為外部語言是交流而不是思維。小塔并沒有提出什么新東西。即使馬斯克這樣聰明的工程師也認為自動駕駛之類的具身智能是狹隘的(narrow form),要遠比人們想象的簡單,這很明顯要比喜歡討好大眾的小塔更加有洞見。

承認思維即語言,對工程實踐也會有影響。設計多模態(tài)大模型時,承認派會把語言模型作為基座,其他模態(tài)坐在基座之上,不同模態(tài)之間的溝通也通過基座進行。但否認派可能企圖直接在任意模態(tài)之間建立映射,這明顯不經(jīng)濟。

設想在火星上做自動駕駛,如果所有的停車標志(STOP)都是綠色的,難道我們需要拿所有的數(shù)據(jù)重新訓練一遍火星自動駕駛大模型嗎?如果駕駛員是人,一條簡單的指令:“注意!停車標志是綠色的”,就足以讓人適應新的駕駛場景。難道在大語言模型上不可以用一條簡單的提示或者“咒語”(prompt):“把所有停車標志的顏色替換成綠色”嗎?事實上,1970年代普渡大學的傅京孫就曾經(jīng)用語言學的手段研究視覺,當時不被廣泛認可??上⒛暝缡?。如果在“思維即語言”的立場重新審視視覺,傅京孫可算得高瞻遠矚。

大語言模型的可解釋性

2000年,麻省理工學院的人文社科學院成立五十年的慶祝大會上,喬姆斯基、普特南和平克三人參加一個論壇,題為“關于人性,我們知道什么?”(What Do We Know About Human Nature?)這場論壇被組織者稱為“三大男高音”齊聚。從休謨起,人性的核心是思維。平克把認知革命歸功于喬姆斯基。喬老爺和普特南曾經(jīng)在賓夕法尼亞大學同學,立場偶有不同,但彼此尊重。 2011年5月,麻省理工學院為配合一百五十周年校慶,召開名為“大腦、心、機器”的研討會(Brain, Mind and Machine Symposium),本校的幾位大佬喬姆斯基、明斯基、溫斯頓等悉數(shù)出席,并由平克主持。喬姆斯基批評當時重新開始流行的神經(jīng)網(wǎng)絡是黑盒子:沒有提供解釋和知識。麻省理工學院主辦的《技術評論》雜志為這個研討會發(fā)了專文,標題故意挑事兒:“不會思維的機器”(Unthinking Machines)。時任谷歌研發(fā)總監(jiān)的諾維格(Peter Norvig)很快回應喬姆斯基,他批評語言學的規(guī)則在自然語言處理上,根本就沒用。現(xiàn)在看,諾維格的工程實踐還真給了他一些先知先覺。有人用“兩種文化”來總結喬姆斯基和諾維格的隔空掐架。

喬姆斯基


語言問題曾被理所應當?shù)卣J為是邏輯的,現(xiàn)在卻被用神經(jīng)網(wǎng)絡得到滿意地解決,這本身就是令人驚奇的。工程師們甚至認為語言的中間任務(詞分析、句法分析、語義分析)已經(jīng)不需要認真對待了,因為ChatGPT代表的大模型對語言學問題給出了端到端的解決辦法。語言學家就是研究各種中間步驟的,中間步驟就是解釋。其實在1990年代統(tǒng)計方法被引入之后,自然語言處理(NLP)就越來越不需要語言學了,曾有玩笑:NLP團隊每開除一個語言學家,系統(tǒng)的性能就提升一個臺階。估計令喬姆斯基沮喪的是:大語言模型把自己的工作徹底搞丟了。諾維格的合作者、伯克利教授斯圖亞特·羅素(Stuart Russell)的態(tài)度則一直溫和得多。他懷疑ChatGPT的良好表現(xiàn)是不是碰巧碰上的。他說:“如今的自然語言處理不再研究語言,我認為這是非常不幸的?!边@和喬姆斯基的態(tài)度差不多,斯圖亞特·羅素仍然把希望寄托于知識和推理。他們都認為ChatGPT是工程而不是關乎語言的科學。人類專屬的技能不多了,難道我們要等到機器證明了黎曼猜想才能被徹底折服嗎?

喬姆斯基與笛卡爾的不同之處在于,喬姆斯基并不是試圖在心身之間劃一條明確界限的二元論者。這么說,和晚年蒯因的“整體主義”也沒啥太大區(qū)別,都接近皮爾士的實用主義。相同的是,他們都認為語言是人的獨有能力,但喬姆斯基用語言作為人和動物的劃界,而笛卡爾用語言作為人和機器的劃界。笛卡爾認為人類語言是任何自動機也不能實現(xiàn)的,他大概不會認可丘奇-圖靈論題。

喬姆斯基曾說他自己的方法是“伽利略式”的,也就是從小數(shù)據(jù)里找尋基本定律,而不是用大數(shù)據(jù)構建黑盒子。但如果人人都有低成本的黑盒子,誰還要麻煩基本定律呢?雖然喬姆斯基在技術上對ChatGPT可能有所誤判,但他“思維即語言”的立場卻是大語言模型引發(fā)的這場革命的哲學基礎之一。

熱門文章排行

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號