[百科知识] 机 器 翻 译 (Machine Translation) 李 维 又称自动翻译,是按照规定的算法(algorithm)由电子计算机进行语 言翻译。它是计算语言学(computational linguistics) 的主要研究领域之一。 机器翻译通常由机器词典和语言规则库支持,其对象为自然语言。机器翻译是一 种自然语言处理(natural language processing)应用 软件。与此相对应,还有一种系统软件,专门用于把用计算机语言编写的程序自动翻 译成可执行的机器代码,这在计算机科学中叫编译器(compiler)或解释器 (interpreter)。编译理论和技术已经相当成熟,它与自然语言的机器 翻译有相通之处。 与计算机语言相比,自然语言有两个明显的特点: 首先,自然语言普遍存在同形(homographs)和多义(polyse my)现象。在词汇层,一词多义,词类同形等现象随处可见,而且越是常用的词其 意义和用法越多。在句法层,结构同形也相当普遍,同一种结构也可能表达多种含义 和关系。因此,区分同形和多义成为机器翻译的首要任务。 其次,自然语言是规则性和习惯性的矛盾统一体。自然语言中,几乎没有一条语 法规则没有例外。然而,如果把语言规则组织成从具体到抽象的层级体系(hier archy),区别个性规则和共性规则的层次,建立个性和共性的联系方式,就为 解决这一矛盾创造了条件。因此,在设计机器翻译系统的算法时,如何把握和处理个 性与共性的关系,在很大程度上决定了系统的前途。 机器翻译通常包括五个环节(如下图所示):(1) 源语(source la nguage)输入;(2)源语分析,包括形态(morphology)分析, 句法(syntax)分析,语义(semantics)分析,直至语用(pra gmatics)分析和知识推理;(3)源语到目标语(target lang uage)的转换(不同的系统可能在不同的分析层次施行转换);(4)目标语生 成;(5)目标语输出。             源语到目标语的转换              (情形一)   源语输入 -------------------> 目标语输出     \                        /      \         I代系统         /   源  形态分析 --------------> 形态生场  目        \                  /   语     \     II代系统      /     标         句法分析 --------> 句法生成   分       \            /       语            \  III代系统  /   析        语义分析 --> 语义生成        生              \      /               \    /           成              语用分析,知识推理                  |                  |                 元语言 (情形二) 对于书面语,输入和输出是纯技术性环节。语音机器翻译则还必须赋予计算机以 “听”和“说”的能力,这是语音识别(speech recognition) 和语音合成(speech synthesis)所研究的课题。 源语分析的结果用某种中间形式(intermediate represe ntation)表示。转换包括词汇转换(lexical transfer) 和结构转换(structural transfer),它反映源语和目标语的 对比差异。生成是分析的逆过程。可见,只有转换才必须同时涉及两种语言,源语分 析和目标语生成可以相互独立。这种设计思想称作转换法(transfer ap proach),是当前机器翻译系统的主流。当然,也可以把转换放到分析或生成 中,用所谓直接法(direct approach)进行自动翻译。 直接法和转换法各有其优缺点。运用直接法的系统结构紧凑,翻译过程比较直观 。规则的编制易于参照现成的双语词典、对比语法以及前人长期积累的翻译经验。其 主要缺点是,由于分析和生成不能独立,使得分析和生成都难以深入。另外,对于多 种语言之间的自动翻译系统,由于不能共享独立的分析和生成模块,直接法是不经济 的。转换法也有缺点:尽管可以分析得比较深入,但多了一个环节,多了许多接口信 息,处理不好反而影响译文质量。另外,在不同语系的语言之间,要想得到较高质量 的翻译,其转换模块(主要是词汇转换)势必很大,大到与分析和生成模块不相称的 地步,这差不多等于回到了直接法。看来,对两个差别比较大的语言进行自动翻译, 直接法还是有效的。 究竟分析到哪一步实施转换,是由系统的设计目标,加工对象和研究深度等条件 决定的。从上图可以看出,分析越深入,转换便越少,最终达到没有转换。分析一下 两极的情形是很有意思的,即:只有转换的翻译(情形一);没有转换的翻译(情形 二)。 只有转换的翻译是一一对应的翻译,不需要分析和生成。翻译只是机械的数据库 查询和匹配过程,谈不上任何理解。需要指出的是,对于语言中固定的成语和习惯表 达法(idiomatic expressions),这种翻译方法不仅是有效 的,往往也是必需的。 机器翻译的另一极是建立在充分理解基础上,毋须转换的自动翻译。这是从实质 上对人的翻译过程的模拟。这时候,源语分析才是真正的自然语言理解(natur al language understanding),机器翻译才真正属于人 工智能(artificial intelligence)。然而,这里遇到两 个难题:一是知识处理问题;二是所谓元语言(metalanguage)问题。 考察人的翻译活动,可以发现,人是靠丰富的知识在理解的基础上从事翻译的。 这些知识既包括语言知识(linguistic knowledge),也包括 世界知识(world knowledge:常识、专业知识等)。如何组织这些 包罗万象的百科全书一样的知识,以便适应机器处理和应用的需要,是人工智能所面 临的根本性课题。 另一方面,人类可以用语言交流思想,语言可以相互翻译,必定有某种共同的东 西作为基础,否则一切交流和翻译都是不可思议的。概念,或者更准确地说,概念因 子(即构成各种概念的元素)应该是全人类一致的。概念与概念间所具有的逻辑关系 和结构也是全人类共同的。如果人们可以把这种共同的东西研究清楚,把它定义成元 语言,源语分析以元语言作为其终极表达,目标语生成也以元语言作为出发点,就不 需要任何转换了。这时候,源语模块和目标语模块便完全独立,每一种语言只需要一 套针对元语言的分析和生成系统,就可以借助于元语言自动翻译成任何其他语言。研 究元语言是认知科学中的一个难题,有待于语言学家,逻辑学家,心理学家,数学家 和哲学家的共同努力。有意义的是,研究机器翻译的学者们设计过种种近似元语言的 方案,作为多种语言之间自动翻译的媒介语(interlingua),取得了一 定的成果和经验。 总之,虽然机器翻译的最终出路在于人工智能的理论和技术的突破,但在条件不 成熟的时候过份强调机器翻译的人工智能性质,一味追求基于知识和理解的自动翻译 (knowledge-based or understanding-bas ed machine translation),对于应用型机器翻译系统的研 制,往往没有益处。 除了上述的两极,人们根据转换所处的层次,把机器翻译系统大致分为三代(见 上图): 第I代是词对词的线性翻译,其核心是一部双语词典,加上简单的形态加工(削 尾和加尾)。I代系统不能重新安排词序,不能识别结构同形,更谈不上多义词区分 。 第II代系统强调句法分析,因此能够求解出句子的表层结构(surface structure)及元素间的句法关系。分析结果通常表现为带有节点信息的句 法结构树(syntactic tree),从而可以根据源语和目标语的对比差 异进行句法结构的转换和词序调整,这就从线性翻译飞跃到有结构层次的平面翻译。 然而,在没有语义的参与下,虽然可以识别句法结构的同形,但却不能从中作出合适 的选择;多义词区分问题也基本上无法解决。 第III代系统以语义分析为主,着重揭示语句的深层结构(deep str ucture)及元素间的逻辑关系,可以解决大部分结构同形和多义词区分问题。 目前,多数机器翻译系统处于II代,或II代和III代之间。纯粹以语义分 析为核心的III代系统只做过小规模的实验(如:Wilks,等),但也取得了 令人瞩目的学术成就。从工程和实用考虑,大型商品化机器翻译系统的研制,采用句 法分析辅之以语义分析的方法,是比较切合目前的研究水平和实际需要的。 从方法上看,语言规则和算法分开是自动翻译技术上的一大进步,算法从而成为 系统的控制器和规则的解释器。早期的机器翻译系统并没有专门的语言规则库,而是 把规则编在程序中,这带来三个严重的缺陷:第一,规则的每一点修改都要牵涉程序 的变动;第二,难以提高机器翻译算法的抽象度,从而影响了语言处理的深度和效率 ;第三,不利于语言学家和计算机专家的分工合作。 值得强调的是,规则与算法分开以后,只是从形式上为规则的增删修改提供了方 便,真正的方便取决于规则的结构体系,具体地说,就是规则与规则的相互独立程度 。如果规则彼此依赖,牵一发而动全身,就谈不上修改规则的自由。这样的网状规则 系统在规则数达到一定限量以后,就无法改进了:往往改了这条,影响那条,越改越 糟,最终可能导致系统的报废。因此,在规则和算法独立以后,有必要强调规则与规 则独立。 除了传统的基于规则的机器翻译系统(rule-based system) 以外,新的方法包括利用大型语料库或根据样本进行翻译(corpus-base d or example-based system)。运用概率统计方法(p robability-based or statistics-based system)也越来越受到研究人员的重视。计算机软件和硬件的飞速发展,使得 融合上述多种方式的优点,研制较高质量的机器翻译系统,已经成为可能。 随着信息社会的到来,人工翻译的低效率已远远不能满足社会的需求,迫切需要 计算机帮助人们翻译。目前,世界上已有一批机器翻译系统投放市场或投入运用,更 多的系统正在积极研制中。而英汉机器翻译也已有高科技产品问市。机器翻译经过四 十多年的发展,对语言的认识逐步深入,发展了许多行之有效的语言处理技术。其前 景是令人乐观的。 -------------------- 本文是作者几年前应约为科技辞书写的辞条,现加以修改更新,力求深入浅出, 既反映本学科的最新发展水平,又能让一般大学程度的读者容易理解。作者从事机器 翻译研究和开发14年,目前正在撰写博士论文,课题是“基于整合的英汉双向机器 翻译系统的研制”(Unification-based Bidirectional Machine Translation between English and Chinese)。 李 维 1997年寄自加拿大 Simon Fraser University