搜尋大廠Google力求要讓Web更加國際化的野心最近因美國政府所做的一份機器翻譯軟體測試而更上一層,擊敗了對手包括學界與IBM的軟體。
在阿拉伯文翻譯至英文,以及中文翻譯至英文的測試上,Google獲得美國國家科學技術學院(National Institute of Science and Technology)的最高分。每一道測試包含翻譯100篇涵蓋從法新社(AFP)至新華社的新聞文章,日期從2004年12/1日2005年1/24日。測試結果已在本月稍早公布。
過去,電腦化翻譯的品質一直為人所詬病,但隨著運算性能的增加,加上資料樣本數更大,科學家已經有辦法改善機器的翻譯精確度。
例如,新創公司Language Weaver就寫出一種可翻譯半島電台(Al Jazeera)廣播的軟體。包括卡內基美隆大學(CMU)的語言科技研究所在內的多所大學都有此一領域的專門研究(但上述兩家今年都沒參加此次測試)。
Google的機器翻譯雖不完美,但卻足以領先對手甚多。以滿分1分來計算,Google的阿拉伯文翻譯得分0.5137,中文則得分0.3531。排名第二的是南加大資訊科學學院,得分前者為0.4657,中文則為0.3073。IBM排名第三,前者.4646,中文則為.2571。
其他參與者還包括英國愛丁堡大學(University of Edinburgh)、以及中國哈爾賓工業大學。NIST表示多數參加測式的軟體都是來自研發實驗室。
Google勝出的優勢可能是來自於該公司網羅了龐大的資料來源。一般而言,電腦翻譯軟體會隨著資料匯入的多寡而有表現上的差異。透過本身的搜尋業務,Google蒐集了上億的翻譯網頁。
Google跟Yahoo一樣,都將新客戶來源瞄準開發中國家。Google在自家網站中包含一些機器翻譯工具,並同時擁有多種國際版本。
CNET新聞專區:Michael Kanellos
23/8/2005