機器翻譯的基於統計
壹般的基於語料庫(Corpus-Based)的機譯系統就是基於統計的機器翻譯,因為這壹領域異軍突起,統計就是統計平行語料,由此衍生出許多不同的統計模型。
不同於基於規則的機譯系統由詞典和語法規則庫構成翻譯知識庫,基於語料庫的機譯系統是以語料的應用為核心,由經過劃分並具有標註的語料庫構成知識庫。基於語料庫的方法可以分為基於統計(Statistics-based)的方法和基於實例(Example-based)的方法。 基於統計的機器翻譯 基於統計的機器翻譯方法把機器翻譯看成是壹個信息傳輸的過程,用壹種信道模型對機器翻譯進行解釋。這種思想認為,源語言句子到目標語言句子的翻譯是壹個概率問題,任何壹個目標語言句子都有可能是任何壹個源語言句子的譯文,只是概率不同,機器翻譯的任務就是找到概率最大的句子。具體方法是將翻譯看做對原文通過模型轉換為譯文的解碼過程。因此統計機器翻譯又可以分為以下幾個問題:模型問題、訓練問題、解碼問題。所謂模型問題,就是為機器翻譯建立概率模型,也就是要定義源語言句子到目標語言句子的翻譯概率的計算方法。而訓練問題,是要利用語料庫來得到這個模型的所有參數。所謂解碼問題,則是在已知模型和參數的基礎上,對於任何壹個輸入的源語言句子,去查找概率最大的譯文。
實際上, 用統計學方法解決機器翻譯問題的想法並非是 20 世紀 90 年代的全新思想,1949 年W. Weaver 在那個機器翻譯備忘錄就已經提出使用這種方法,只是由於喬姆斯基(N.Chomsky) 等人對計的批判,這種方法很快就被放棄了。批判的理由主要是壹點:語言是無限的,基於經驗主義的統計描述無法滿足語言的實際要求。
另外,限於當時的計算機速度,統計的價值也無從談起。計算機不論從速度還是從容量方面都有了大幅度的提高,昔日大型計算機才能完成的工作,今日小型工作站或個人計算機就可以完成了。此外,統計方法在語音識別、文字識別、詞典編纂等領域的成功應用也表明這壹方法在語言自動處理領域還是很有成效的。
統計機器翻譯方法的數學模型是由國際商業機器公司 (IBM) 的研究人員提出的。在著名的文章《機器翻譯的數學理論》中提出了由五種詞到詞的統計模型,稱為 IBM 模型 1 到 IBM 模型 5。這五種模型均源自信源-信道模型,采用最大似然法估計參數。由於當時(1993年)計算條件的限制,無法實現基於大規模數據訓練。其後,由Stephan Vogel提出了基於隱馬爾科夫模型的統計模型也受到重視,該模型被用來替代IBM Model 2。在這時的研究中,統計模型只考慮了詞與詞之間的線性關系,沒有考慮句子的結構。這在兩種語言的語序相差較大時效果可能不會太好。如果在考慮語言模型和翻譯模型時將句法結構或語義結構考慮進來,應該會得到更好的結果。
在此文發表後6年,壹批研究人員在約翰·霍普金斯大學的機器翻譯夏令營上實現了GIZA軟件包。Franz Joseph Och 在隨後對該軟件進行了優化,加快訓練速度。特別是IBM Model 3 到 5的訓練。同時他提出了更加復雜的Model 6。Och發布的軟件包被命名為GIZA++,直到現在,GIZA++還是絕大部分統計機器翻譯系統的基石。針對大規模語料的訓練,已有GIZA++的若幹並行化版本存在。
基於詞的統計機器翻譯的性能卻由於建模單元過小而受到限制。因此,許多研究者開始轉向基於短語的翻譯方法。Franz-Josef Och提出的基於最大熵模型的區分性訓練方法使統計機器翻譯的性能極大提高,在此後數年,該方法的性能遠遠領先於其他方法。壹年後Och又修改最大熵方法的優化準則,直接針對客觀評價標準進行優化,從而誕生了今天廣泛采用的最小錯誤訓練方法(Minimum Error Rate Training)。
另壹件促進統計機器翻譯進壹步發展的重要發明是自動客觀評價方法的出現,為翻譯結果提供了自動評價的途徑,從而避免了繁瑣與昂貴的人工評價。最為重要的評價是BLEU評價指標。絕大部分研究者仍然使用BLEU作為評價其研究結果的首要的標準。
Moses 是維護較好的開源機器翻譯軟件,由愛丁堡大學研究人員組織開發。其發布使得以往繁瑣復雜的處理簡單化。
Google 的在線翻譯已為人熟知,其背後的技術即為基於統計的機器翻譯方法,基本運行原理是通過搜索大量的雙語網頁內容,將其作為語料庫,然後由計算機自動選取最為常見的詞與詞的對應關系,最後給出翻譯結果。不可否認,Google 采用的技術是先進的,但它還是經常鬧出各種“翻譯笑話” 。其原因在於:基於統計的方法需要大規模雙語語料,翻譯模型、語言模型參數的準確性直接依賴於語料的多少,而翻譯質量的高低主要取決於概率模型的好壞和語料庫的覆蓋能力。基於統計的方法雖然不需要依賴大量知識,直接靠統計結果進行歧義消解處理和譯文選擇,避開了語言理解的諸多難題,但語料的選擇和處理工程量巨大。因此通用領域的機器翻譯系統很少以統計方法為主。 基於實例的機器翻譯 與統計方法相同,基於實例的機器翻譯方法也是壹種基於語料庫的方法,其基本思想由日本著名的機器翻譯專家長尾真提出,他研究了外語初學者的基本模式,發現初學外語的人總是先記住最基本的英語句子和對應的日語句子,而後做替換練習。參照這個學習過程,他提出了基於實例的機器翻譯思想,即不經過深層分析,僅僅通過已有的經驗知識,通過類比原理進行翻譯。其翻譯過程是首先將源語言正確分解為句子,再分解為短語碎片,接著通過類比的方法把這些短語碎片譯成目標語言短語,最後把這些短語合並成長句。對於實例方法的系統而言,其主要知識源就是雙語對照的實例庫,不需要什麽字典、語法規則庫之類的東西,核心的問題就是通過最大限度的統計,得出雙語對照實例庫。
基於實例的機器翻譯對於相同或相似文本的翻譯有非常顯著的效果,隨著例句庫規模的增加,其作用也越來越顯著。對於實例庫中的已有文本,可以直接獲得高質量的翻譯結果。對與實例庫中存在的實例十分相似的文本,可以通過類比推理,並對翻譯結果進行少量的修改,構造出近似的翻譯結果。
這種方法在初推之時,得到了很多人的推崇。但壹段時期後,問題出現了。由於該方法需要壹個很大的語料庫作為支撐,語言的實際需求量非常龐大。但受限於語料庫規模,基於實例的機器翻譯很難達到較高的匹配率,往往只有限定在比較窄的或者專業的領域時,翻譯效果才能達到使用要求。因而到目前為止,還很少有機器翻譯系統采用純粹的基於實例的方法,壹般都是把基於實例的機器翻譯方法作為多翻譯引擎中的壹個,以提高翻譯的正確率。