“谷歌新聞”不能作為算法的成果展示柜,但這個(gè)項(xiàng)目的中等成績(jī)并沒(méi)有使谷歌對(duì)公司的創(chuàng)立使命產(chǎn)生懷疑?!八惴ā痹赪eb網(wǎng)頁(yè)搜索方面是如此之強(qiáng),即使它在執(zhí)行其他任務(wù)時(shí)相對(duì)失敗,也都被谷歌之外的絕大多數(shù)觀察家們忽略了。谷歌就是這樣享受著各種實(shí)驗(yàn)所帶來(lái)的樂(lè)趣,而當(dāng)一些實(shí)驗(yàn)結(jié)果不如人意時(shí),也不必因擔(dān)心形象受損而煩惱。
在將“算法”推向新領(lǐng)域的另一個(gè)項(xiàng)目中,結(jié)果比預(yù)想的要好,這就是計(jì)算機(jī)在歷史上所處理的最困難、最難協(xié)調(diào)的問(wèn)題――語(yǔ)言翻譯。為了進(jìn)入這個(gè)領(lǐng)域,谷歌在2003年初組建了一個(gè)課題小組,讓他們?cè)谒^自動(dòng)翻譯或機(jī)器翻譯的領(lǐng)域奮力開(kāi)拓。他們的努力結(jié)出了豐碩的果實(shí)。他們開(kāi)發(fā)的“算法”能夠完成――至少有時(shí)能夠完成――符合語(yǔ)句習(xí)慣的流利的翻譯,這一點(diǎn)令人驚嘆不已。同時(shí),它還有效地利用了較為令人失望的谷歌新聞項(xiàng)目中所搜集的新聞報(bào)道資料。
機(jī)器翻譯是計(jì)算機(jī)先驅(qū)們?cè)?0世紀(jì)中葉首先設(shè)想出來(lái)的計(jì)算機(jī)應(yīng)用領(lǐng)域之一。1953年,哈佛大學(xué)計(jì)算機(jī)實(shí)驗(yàn)室的霍華德?艾肯(Howard Aiken)用響亮的聲音宣布,他希望不久就可以開(kāi)始將俄語(yǔ)逐字地譯為英語(yǔ)。他以為,將意義從一種語(yǔ)言精確地轉(zhuǎn)為另一種語(yǔ)言會(huì)是很容易的,隨著計(jì)算機(jī)功能的增強(qiáng),文字上的修飾也會(huì)成為一個(gè)不難解決的問(wèn)題。翌年,IBM的科學(xué)家和喬治敦大學(xué)的語(yǔ)言學(xué)家推出了一臺(tái)能夠進(jìn)行俄英翻譯的機(jī)器,并且開(kāi)啟了機(jī)器翻譯領(lǐng)域中的一個(gè)傳統(tǒng):對(duì)翻譯質(zhì)量的過(guò)高期待和轉(zhuǎn)換結(jié)果控制的力不從心。在一個(gè)只有250個(gè)單詞詞匯表的基礎(chǔ)上編寫(xiě)的軟件,竟然負(fù)載了處理政治、法律、數(shù)學(xué)、化學(xué)、冶金學(xué)、交通和軍事等專業(yè)內(nèi)容的期待。但是,新聞界卻被要求相信這一切。
6年之后,IBM公司的Mark I型計(jì)算機(jī)正在進(jìn)行原文翻譯,這次又是從俄文到英文――反映出冷戰(zhàn)中期語(yǔ)言翻譯上的當(dāng)務(wù)之急――據(jù)說(shuō)達(dá)到了每分鐘800個(gè)單詞的速度,當(dāng)時(shí)的人工翻譯速度是一個(gè)工作日只有2600個(gè)單詞??勺g出來(lái)的文章卻不是只需稍加修飾那么簡(jiǎn)單――一個(gè)關(guān)于U-2飛行員弗朗西斯·加利·鮑威爾(Francis Gary Powers)的段落的開(kāi)頭是這樣的:“它30年/費(fèi)。據(jù)它/它的所稱,它是較老的空軍中尉美國(guó)?!钡侨藗?nèi)匀粚?duì)此持樂(lè)觀態(tài)度,而作為“字對(duì)字”比對(duì)之補(bǔ)充的“句法規(guī)則”似乎被完全忽略了。國(guó)家標(biāo)準(zhǔn)局成立了一個(gè)“機(jī)器翻譯小組”來(lái)研究如何增加對(duì)語(yǔ)義和句子結(jié)構(gòu)的理解,以解決所謂“水下山羊”問(wèn)題(指的是由機(jī)器翻譯的俄語(yǔ)工程學(xué)論文經(jīng)常將hydraulic ram[液壓油缸]譯成了“水下山羊”這一現(xiàn)象)。
應(yīng)用語(yǔ)言學(xué)研究改進(jìn)了機(jī)器翻譯的質(zhì)量。1968年,專業(yè)翻譯公司Systran在巴黎創(chuàng)辦,它將成為為其他公司提供機(jī)器翻譯服務(wù)的先行者。這家公司由語(yǔ)言學(xué)家來(lái)解釋復(fù)雜的語(yǔ)法。一門(mén)語(yǔ)言,又一門(mén)語(yǔ)言,公司不斷增加能夠?qū)崿F(xiàn)雙語(yǔ)互譯的語(yǔ)言的數(shù)量,到2005年,已經(jīng)實(shí)現(xiàn)了40對(duì)語(yǔ)言之間的互譯。當(dāng)谷歌打算提供用原文以外的其他語(yǔ)言顯示的Web頁(yè)面供用戶瀏覽時(shí),它便求助于Systran公司為其后臺(tái)的機(jī)器翻譯提供技術(shù)支持,使谷歌的網(wǎng)頁(yè)可以根據(jù)用戶的具體要求進(jìn)行動(dòng)態(tài)顯示。當(dāng)然,各語(yǔ)種之間的翻譯水平并不平衡,在最好的情況下,它也只能轉(zhuǎn)達(dá)源文件中的梗概。符合語(yǔ)言習(xí)慣的段落仍舊難以表述。但這個(gè)缺陷似乎是機(jī)器翻譯與生俱來(lái)的:任何算法也不能代替人工翻譯。