Natrium Nepal Asia legend:The lion, the sorceress, the evil spirit wardrobe“already lack” the evil spirit abstains the trilogy “rich in poetic and artistic flavor, also has not let”the Harley baud“the series novel have the infinite pleasure the under current to be turbulent.
上面这段让人丈二和尚摸不着头脑的英文,是埃尔塔维斯塔(Altavista) 公司非常流行的网上翻译工具巴比鱼 (Babelfish)呈献给我们的汉译英“杰作”。它竟然是根据中国台湾《中国邮报》网站上的双语版翻译过来的, 而在英语中,这段话应该被流畅地表 达成:
“The Chronicles of Narnia” doesn’t come near the poetic vision of“The Lord of the Rings” trilogy, and it doesn’t have the dark undercurrents that makes the“Harry Potter”series endlessly fascinating.
这句话的意思是,影片“纳尼亚 传奇”既缺乏“指环王”三部曲的诗境, 又无“哈利·波特”系列剧永远令人 着迷的悬念铺陈。
上面那段翻译说明,正如众所周知 的那样,机器翻译( 或称MT) 仍 然是人工智能这一没落领域中较有挑战 性的分支之一。一个恰当的名称或几个 精巧的短语结构就足以使翻译软件阵脚 大乱。不过,在过去的几年中, 一种新 的研究方法却使机器翻译再现生机,这 就是蛮力计算法(brute-force computing method)——它测算一种语言中的单词或 短语与另外一种语言中的单词或短语相 互匹配的概率。照这种软件开发者的说 法,该方法至少能使机器翻译质量与人 工翻译质量的差距进一步缩小。
机器翻译比机器下棋更难
今天,功能日益强大的硬件和软 算法已经使计算机超越了国际象棋大 师。[ 请回想一下,1997 年美国IBM 公司的超级计算机“深蓝”战胜了 国际象棋特级大师卡里·卡斯帕罗夫 (Karry Kasparov)]。但总体说来,与人 类的翻译能力相比,50 多年来机器翻 译能力却几乎没有长进,某些评论家 甚至会认为这样的评价也过于慷慨。
1954 年,IBM 公司和美国乔治城 大学展示了60 多个由机器完成的俄译 英句子。1954 年1 月8 日,关于IBM 公司的新闻稿道出了人们的兴奋:“今 天电子‘大脑’首次将俄语译成英语。” 国防机构和计算机科学家期望机器翻 译在五年之内成为寻常事,但这一愿 望却从未实现。
1966 年, 美国政府资助的语 言自动处理咨询委员会(Automatic Language Processing Advisory Committee) 报告称,人工翻译速度更快,准确性 更高,而费用仅为机器翻译的一半。 该委员会的研究结论是:“无法马上 预测实用机器翻译的前景。”
在随后的几十年中,研究资金匮 乏,机器翻译取得的进展微乎其微。 20 世纪60 年代末期,美国空军为一 家研制出机器翻译系统的小公司提供 资助,其初衷是应对将俄文文献翻译 成英文的巨大需求。该系统称之为 Systran——本文第一段就是它的互联 网版本“奉献”给我们的。
像IBM 公司最初的“大脑”系统 一样, 国际商用机器Systran 以源语言 和目标语言规则为基础,它靠的是支 配句法、语义学等的六条基本规则。 例如,俄语中的“o”有可能被IBM 公司的701 型计算机翻译为“about” ( 关于),也可能被翻译成“of”(…的)。 如果“o”跟在“nauka”( 科学) 一词 的后面, 它就会寻找合适的规则把“o” 翻译成“of”,换言之就是翻译成“… 的科学”,而不是“关于…的科学”。
位于巴黎的Systran 公司是世界上 最大的机器翻译公司,客户甚至包括 Google、雅虎(Yahoo) 和时代华纳(Time Warner) 旗下的美国在线(AOL),2004年它的年度收入也只有区区1300 万美 元,而全球各类翻译的总市场规模估 计约为100 亿美元。“我们的公司如 此之小,可我们又是最大的。”Systran 公司董事长兼总经理季米特里斯· 沙 巴塔卡基斯(Dimitris Sabatakakis) 说。
不需要语言规则了吗
对基于语言规则的翻译系统来 说,某些特定语言的语言学家和语言 专家必须不辞劳苦地编撰大型词典和 与语法、句法、语义学有关的规则, 以获得目标语言文本。对于由数十万 词汇构成的词库,商务翻译系统包含 的语法规则就高达数万条。
IBM 公司,自20 世纪80 年代末 期开始研制将法语译成英语的翻译系 统,这个系统被称为Candide,它既 不需要语法知识,也不需要句法知识。 它避开语言规则,采用大量的已翻译 文本,对两种语言的单词进行匹配( 现 在更多的系统则是对整个短语进行匹 配), 最后, 根据贝斯定理(Bays’s theorem) 导出匹配概率,以评判一个 英文单词是否来自法语的正确翻译。
另外一种单纯依赖大量文本的分 析方法,则是对被翻译成英文的那个 词与其周围单词在语法上是否搭配进 行评估。目标语言中搭配概率最大的 单词或短语,被用来为今后的文本进 行“译码”——这样就能将多个单词 联系起来,构成整篇文章。如果统计 方法表明,“pouderie”一词通常等同 于“blowing snow”( 吹雪),那么原则 上它就是译码所需要的。
IBM 公司最后放弃了努力。在 20 世纪90 年代末期,机器翻译一页 文字要花一整天的时间。但是,随后 事情开始有了转机。互联网使大部头 双语文本的数量迅速上涨。互联网也 创造了人工永远无法满足的翻译需求 量。
1999 年, 美国国家科学基金会 (the National Science Foundation) 在美 国约翰霍普金斯大学举办了一个研讨 班,研究讨论构建能够被迅速推广 到科学界的软件工具箱,这是一个 引起人们关注并引发新活动的举动。 2002 年,该研讨班的组织者之一—— 美国南加州大学的凯文. 奈特(Kevin Knight) 和同校的丹尼尔. 马库(Daniel Marcu),创办了语言编织公司(Language Weaver), 这是唯一一家采用统计方法 的机器翻译公司。它声称现在每分钟 至少能够完成5000 字的英语与阿拉 伯语、英语与波斯语、英语与法语和 英语与汉语的双向翻译工作。
Google 成为赢家
另一位既是研讨班毕业生又是 南加州大学毕业生的弗朗兹· 奥克 (Franz Och), 受雇于Google 公司。去 年夏天,由奥克设计,尚处于实验阶 段的Google 系统, 在美国国家标准 与技术研究院组织的100 篇新闻专线 文稿翻译( 将阿拉伯语或汉语译成英 语) 比赛中,击败全部竞争对手( 包 括IBM 公司),在所有类别上大获全 胜。奥克提到,为机器翻译软件提供 相当于100 万部图书的文本是提高翻 译质量的关键。他把Google 公司目前 采用的汉译英机器翻译系统(Systran), 与由他和同事精心编写的基于统计分 析的实验系统作了对比:
2007年2月28日星期三
机器翻译咸鱼翻身
发帖者 南山一点墨 时间: 星期三, 二月 28, 2007
标签: 看点
订阅:
博文评论 (Atom)
0 评论:
发表评论