近期,微信翻译功能在社交平台上掀起了一波热议。
事情的经过是这样的,当翻译现包含“caixukun”人名拼音的句子时,微信翻译会展现出一些意想不到的中文词汇。这一现象引发了网友们的极大兴趣,他们纷纷开始探索微信翻译的其他有趣之处。这个话题因此迅速攀升至热搜榜单。
针对此问题,腾讯微信团队迅速作出回应,解释这并非暖心的彩蛋,而是翻译引擎在面对未经训练的非正式英文词汇时产生的误译。那么,真的是如微信翻译团队所言,所有翻译错误都是算法的锅吗?
咨询了自然语言处理领域的专家后得知,虽然算法本身存在问题,但更大的原因可能在于训练语料的不完善。目前,机器翻译领域主要采用的NMT架构在语言模型上存在一定缺陷,使用的语料使得模型学习到了高频出现的词汇。而微信团队在处理过程中似乎没有对特殊情况进行特殊处理,导致模型在面对陌生词汇时只能遵循最大概率原则进行翻译。
语料库的问题也不容忽视。业界的机器翻译很大程度上依赖于语料的数量和质量。只要平行语料足够多、质量足够好,一般的系统也能训练出优秀的翻译结果。据传,微信翻译是由不到10人的工程师团队从零开始研发的,训练语料来源的多样性和质量可能也是导致这次翻译问题的原因之一。如果训练语料主要来自电影字幕、多语言会议等相对廉价的材料,那么最终的翻译内容可能会比较“活泼”和“口语化”。
对于谷歌等翻译领域的先驱也曾出现过类似的翻译乌龙事件。例如,当用户将翻译设置为从毛利语翻译成英语后输入一长串的“dog”时,会得到一些神秘的结果。这可能与谷歌采用的“机器翻译”技术有关。这种技术用一种语言的文本大量训练来与另一种语言进行对应翻译,但在输入无意义内容时会出现“幻觉性”的输出结果。
那么,机器翻译究竟存在哪些不确定性呢?NMT模型的训练和解码过程相当耗时;对同一个词的翻译风格可能不一致;翻译结果还可能存在超出词汇表的问题;网络机制的黑箱性质使得其可解释性很差;训练所使用的参数大多是根据经验选择的。
在探讨完这些问题后,我们也不妨发现微信翻译中的一些有趣之处。比如,有网友发现发送特定的词汇如“ohh”,微信翻译会展现出浪漫的译文“留在我身边”。这样的隐藏彩蛋也为微信翻译增添了一丝乐趣。