AI翻译界杀手诞生！阿里国际翻译大模型吊打谷歌和GPT-4_tiknovel-最新最全的nft,web3,AI技术资讯技术社区

AI翻译界杀手诞生！阿里国际翻译大模型吊打谷歌和GPT-4

2024-10-16 18:35:26 浏览：93 作者：管理员

AI翻译界杀手诞生！阿里国际翻译大模型吊打谷歌和GPT-4

【新智元导读】AI翻译，全球大厂都卷疯了！但「绿就是白」「光腿神」这类翻译却让人啼笑皆非。就在刚刚，阿里国际发布首个商用翻译大模型，电商出海神器真来了！

果式文案一出，少不了网友的热议。

苹果iOS 18官方7月更新的系统宣传语中，「真的很你」硬生生文案，被许多人吐槽太过抽象。

原本英文的广告语是「Yours. Truly.」。

但到了中文这里，则有种「明明每个字都认识，可连在一起却怎么也读不懂了」的感觉。

如果从翻译的角度来看，原因主要在于语言之间存在的文化鸿沟。

与专业术语不同的是，蕴含丰富文化寓意的词语，字面翻译对于有文化背景的人来说，难以理解。

论文地址：https://arxiv.org/html/2305.14328v2

如今，随着LLM的多语言能力越来越强，也让此前鲜有进展的AI翻译赛道，突然卷了起来。

早已布局的科技大厂，以及刚刚下场的各路LLM初创，纷纷推出了自家的AI翻译产品。

DeepL表示，自家LLM的译文需要更少的编辑。要达到同样的质量，谷歌需要两倍的编辑量，而GPT-4则需要三倍

不可否认，AI翻译仍然是一个复杂领域。

基于深度学习的机器翻译，虽然对于训练过的文本语料可以游刃有余，但对于和训练文本差异过大的文本，翻译能力就会大幅下降。

除了训练数据的局限性之外，AI的上下文理解有限、也让不同语种的语言结构差异和文化语境差异等原因，也会导致AI经常给出偏差很远的答案。

就没有一款轻易上手、放心可用的高效AI翻译工具吗？

我们经过一番实测发现，在一众模型产品中，阿里国际最新的大模型产品——Marco-MT，在广义的翻译领域表现就相当亮眼，通过结合上下语义、场景、对象等，提供更加精准的翻译，结合阿里的数据优势，在电商领域尤为出色。

国产大模型，解决「光腿神」难题

众所周知，电商行业中术语繁多，不同领域有众多盲点，即使请专职的翻译，也很难短时间内给出最准确的说法。

举个例子，在国内卖爆了的光腿神器，怎么解释给歪果仁呢？

有人说，用现成的翻译产品不就行了？

某产品给出的结果是——「Bare legs god」，好家伙，「光腿神」可还行。

类似的翻译一个比一个抽象，要让老外惊掉下巴。

而有了Marco，我们就不会再常常遇到这种抽象的场景了。

Marco翻译大模型可支持三种方式的翻译：基于语境的产品翻译、图像翻译、实时聊天翻译。

在处理电商专有词、流行词和口语词等翻译任务时，这个模型不仅能更好地保留原意，还能立马输出简洁、准确的表达，而且非常符合「歪果仁」的语言习惯。

比如「光腿神器」的翻译，以往的两个翻译产品分别是「A magical tool for bare legs」（一个神奇的光腿工具）和「Bare legs god」（光腿神）。

而用了Marco翻译大模型，「The bare leg artifact」的译法简洁精妙，老外看了都说好！

同样，「绿色显白」这类非常口语化的流行词，Marco-MT给出的翻译也是非常地道——Green is flattering for the complexion!

绿色是显白哦！真的很仙的裙子，洋气不过时的，比较大气的感觉，还挺显瘦的，比较适合我的风格，穿出去回头率有的哦。

相比之下，翻译1号在表述上并不是很符合当地人的习惯，尤其是「make your skin look whiter」这段。

内容大意：绿色让你的皮肤看起来更白！这是一条非常仙的裙子，时尚且永不过时，相当优雅，而且显瘦。它很适合我的风格，穿上它我一定会吸引很多注意力

翻译2号则更加拉跨，内容和语法完全不对。

「绿就是白」，「时尚但不时尚」，充满了矛盾的哲学……

内容大意：绿色是白色哦！真的非常仙的裙子，时尚但不时尚，更有大气的感觉，而且也很显瘦，更适合我的风格，穿出去回头率很高哦

接下来，我们加大难度。

「真的是可盐可甜，穿着显瘦，拍照简直不要好看呀，太上镜了！」，怎么说？

Marco率先作答：sweet and cute——甜美可爱。

翻译1号和2号则异口同声：salt/salty and sweet！（好的，有被齁到）

再来一题：

泰美辣！扎起来的时候看不出来是假发，而且发质看起来超好的，发量看起来也很多！对于短发发量少星人太友好了呜呜好喜欢！

Marco依然发挥稳定，正确地翻译出了「泰美辣」的意思——「so beautiful」。

另外两位选手的表现，倒是也在意料之中——

1号并不能get到这是什么意思，直接输出了拼音「Tai Meila」；2号拆开翻译成了Tammy（人名）和Spice（香料）。

再比如「画风突变」，西班牙语版翻译出来是这样的——

不了解西语的朋友可能看不出端倪，「cambio repentino en el estilo de pintura」这句话，翻译回来的意思是——「绘画风格的突然变化」。

可以说是驴唇不对马嘴了。

针对这些训练预料相对较少的语种，Marco-MT给出的答案——「Cambio de estilo」，不仅意思更加贴合原文，表达也更加native。

英文种草「信达雅」

性能如此强大的翻译模型，为什么出自阿里国际？

显然，这与公司在该领域的多年积累密不可分：

数十亿规模的高质量电商预料数据，让团队在跨境电商领域一下子就建起了起极为显著的数据优势

服务于全球市场的电商平台，让团队对不同国家和地区的文化、语言以及商业法规有了深入的了解

因此一经发布，Marco翻译大模型就在BLEU、COMET，以及人工评测指标上上，一举超越市场上的头部翻译产品。

基于Flores公开榜单数据的评测结果

将其它语言译为英语的测试中，它的所有结果均已超越行业标杆企业的产品，比如谷歌、ChatGPT、DeepL。

而将英语译成其他语言方面，也有一半语言的测试结果超过了谷歌、ChatGPT。

这么好用的大模型，用起来会不会很贵？恰恰相反！

Marco的性价比可谓拉满，100万个字符仅需12美元。

针对不同的翻译，前两者价格一致，图像翻译还更划算些。

Marco翻译大模型主要支持15种语言间的互译。

除了常见的中英，还覆盖了韩语、日语、西班牙语、法语等全球使用量最多的语种，以及乌尔都、孟加拉、尼泊尔、希伯来等小语种。

可以说，跨境电商常用语种，Marco基本实现了全覆盖。

应用场景

能够在多语种之间流畅转换，Marco也就打通了跨境电商中的两个核心场景。

内容本地化

商家上传的商品信息，包括标题、详情、属性、商品图片短语等，都能被精准翻译成目标市场语言。

根据海量电子商务数据训练后的AI，在产品标题生成上是手到擒来

另外，模型在搜索关键词和对话翻译上也表现不俗，还支持高并发调用，并且能理解电商相关知识，满足各种风格偏好。

不管买家用的什么语言，都可以靠AI丝滑地把对话翻译过去

个人文档翻译

对于个人文档翻译，Marco也能根据上下文提供高质量翻译。

译文不仅有良好的可读性，还支持不同风格，满足个人用户的多样化需求。

总之，Marco作为AI原子能力，可以轻松接入到电商商品管理、客服及搜索导购等系统中。

商家和买家都能获得自动翻译服务，沟通效率倍增，全面提升消费者触达效果。

可以说，Marco的出现，能让阿里国际的速卖通、Lazada、Trendyol等电商平台，以及外部电商类客户，比如为多平台运营商家提供服务的独立SaaS商（ISV），和对翻译效果有更高要求的跨境商家，都能提供更丝滑的服务。

背后技术

在训练Marco的过程中，阿里国际团队用了多项创新性技术。

基于通义千问系列大模型，他们进行了多语言增强训练，搭建出多语言大模型基座——Marco翻译大模型。

预训练过程中，Marco采用了多语言数据筛选技术。

比如，特别增强语种识别、多维度数据质量评估，由此，就获得了高质量、大规模多语言数据。

与此同时，通过利用多语言MoE、参数扩展方法，从而保证主导语言（如中英）性能不下降的情况下，提升了其他语种的性能。

微调阶段，基于多语言大模型基座，再利用SFT对模型翻译能力全面激活。

对此，研究人员提出了一种自动构建高质量偏好数据的方法，通过强化学习缓解LLM的幻觉问题，还提升了电商场景特有词翻译效果。

Marco翻译大模型还有两处独特的创新。

大模型驱动

首先，模型能够主动进行语义理解与内容重构，而不是简单的文字转换，从而避免了各种哭笑不

Prev Chapter：ChatGPT竟会“看人下菜”！ OpenAI53页研究曝惊人结果：“你的名字”能操控AI回答

Next Chapter：Mistral发布了两个小模型，Ministral 3B 和 Ministral 8B

评论区

共 0 条评论

这篇文章还没有收到评论，赶紧来抢沙发吧~

【随机内容】

Against the Gods Chapter 334 – Little Che, You Must Think of Me…
2024-11-21
Beastmaster of the Ages Chapter 382 - A Storm Of Blood
2024-11-19
合规难、挣钱难，全球化成香港Web3唯一方向？
2024-07-22
Martial Peak Chapter 1763 - Illusionary Void Butterfly
2024-11-09

返回顶部