百度翻译的四个功能排序,是否有其独到的意义?-百度翻译准确度高吗

2023-04-15 00:34:11

 

谢邀。

我没想到

@笑道人
会旗帜鲜明地……道长是不是如
@刘震林

在评论里所言,谷歌给了你“正直献金”?

而且,这个问题未免也太应景了。这里提一点不同意见(哇,公然反对执掌天下三千道观、八万弟子的道长,我好忐忑)。无论旅游翻译、菜单翻译、会话翻译、实用口语的四个场景,还是英语模式下的涂抹翻译、实物翻译、取词翻译和整屏翻译,其实都是奔着“翻译实用化”的方向去的。目前来说,口译和机译的研发过程中,“翻译实用化”依然是一个大目标,就算是App上增添的新功能,也是考虑到优先把结果和使用体验尽量相吻合。

因此功能冗余在现阶段基本是很难避免的,总有用户在功能上做出选择,例如说用户在A功能上受益,但B功能他可能就用不习惯;或者用户在A功能上无法形成正确翻译,必须借助B功能补全。所以无论哪种情况,都会形成使用偏好。但是用户是否真的用得到多种功能进行尝试呢?

我觉得用得到。因为大家最终的目的,都要享受到“翻译实用化”带来的便利。因此在面对这个目标,肯定有很多条路。

就好比在双语互译的功能集合当中,既要有文字输入,也要有语音输入,而且还必须交叉,也就是说,输入字句,不仅仅要出现文字翻译结果,还要出现音频输出结果。其实在这个层面上,给人感觉和道长说的结论“涂抹翻译和整屏翻译,功能性上也略显重复”类似。我觉得这样的重复必须有。

鉴于我是汉语言专业出身,只能从汉语言方面来强调现阶段App翻译功能重复的必须性。

首先需要注意的是:“翻译实用化”的概念很大。

链接:漢語口語自動翻譯走向實用化 -,-北方網

中国科学院自动化研究所模式识别国家重点实验室徐波研究员说,从1999年12月起,实验室和松下电器产业株式会社

等开始共同开发这一技术。目前推出的这套口语自动翻译机,支持1000多个基本语句和10 000多个词汇,可以实现简单的旅游会话。这项技术可作为旅游语音翻译助理和简易的语言学习助理,能应用于移动终端和新一代移动电话。

翻译实用化从技术上说,一直是人机语言识别和互译方面的的重点课题。另外,这个链接的内容当中提到一个相当重要的细节,那就是“汉语发音多、地域发音差异大”。这不仅仅是中/外语互译产生的实际困难,还是地方语言和标准普通话之间互译、互听的难题。

我在学习汉语言文学专业的时候(当时还没有App这种概念),相关专业课老师强调过,对于地方语言和汉语互译,“发音校准”是最难的,以我的地方母语粤语为例,广东不同地方对于粤语的发音差别很大,以粤语为母语的人,仅仅靠自身听力理解,都很难具体辨识不同地方的话语的意思。

就算在通用性的翻译上,汉语翻译成粤语同样受到地域发音的严重制约。这其中最主要的还是音调制约、平卷舌发音习惯制约,个人语言习惯、轻重音分布、尾音辨识等多种细节的制约还没有被算在其中。在这样的情况下,听写(笔译)都有可能出现辨识错误,只能靠看字翻译已确定对应的词义无误。

现在的技术相比当时有很大的进步,这个毋庸置疑。对于汉语语音的识别,可以做到多音调、平卷舌大量兼容,对于粤语语音的识别也有进步,但在音调上存在的先天差异,对于机器拾音、辨音和校准的过程还是有很大的挑战。

因为人的声调和口音不可能完全一样,这就是个体差异对语音识别的难度所在,因此就算语音库大到能够容纳所有语言,也无法准确识别所有人的口音。

国庆前,我两个大学同学“兜里有俩钱”,要败肾六,相约去特别行政区旅游,但是他们不懂“该死的粤语”(这是个梗,高仓健的电影,猜粗来的我有礼品送)。我帮他们找了几款翻译类App,发现粤语类互译目前效果相对来说最好的是百度翻译。因为它能做到即时互译。但是——

是不是真的能够实现“翻译实用化”的应用目标,需要实用过程进行判断。所以我通过自己的地方母语粤语进行了使用,并侧重于中文和粤语互译。这里简单给出一个结论:当前功能如果有足够的语音库进行支撑,那么“翻译实用化”是具备可行性的。问题不在于是否具备可行性,可行性谁都可以腆着脸说具备,但“趋向于实用的可行性,需要技术层面的支撑并且要体现相关的应用效果,”也就是说,用户的实用效果才是硬标准。

于是百度翻译在双语互译的功能当中,贴心而重复地做到了“文字输入”翻译成“文字”+“语音”,语音输入翻译成“语音”和“文字”(就连我也觉得,这其实算是“人性化过度”的表现)。

【请知友自重,这不是一篇评测报告,只是我个人使用的总结——本人没有精力给任何一家厂商打广告。如果有哪位热心知友肯帮我向百度推销,酬金我一定分你一半。有10元我分5元,有1元我分5毛,绝不赊欠。另外也请百度自重,如果你们要拿我这个答案去推广,请给我50万元人民币的酬金,上不封顶,不用谢。】

两个同学一个是广西老乡,日常普通话的水准大概等同于下面的链接(当然要好于链接水平):

广西人讲普通话

另一个是山东的,日常普通话的水平大概等同于下面的链接(当然要好于链接水平):

听过山东普通话吗?笑死你没商量。

请无关人士不要对号入座,我没有收钱黑任何人的义务,也从来没有地域歧视。

两个人的共同问题都是咬字和音调,这样的口音如果按照日常说话的速度说普通话再翻译成粤语,其实非常成问题。但是慢慢说还是能翻译清楚的。我以自己的和粤语标准进行了两种语言的互译测试,结果如下图。

关于地点和交通互译,3~4字每秒的普通话翻译,百度翻译基本准确,也就是说,主要交通地点的语音识别和翻译是准确的。

关于副词翻译,“怎么”没有直接从普通话翻译成粤语,而是翻译成“点”(粤语的怎么),这一点是获得了我的认同。而且语音输出并没有错。

关于动词翻译,“到”和“去”并没有被搞混。粤语翻译的结果当中,一句话的每个字都是被软件独立识别,从播放效果就能听出来,是每个字独立组句,所以音调生硬,但是没有口音,算是准确的。

粤语翻译成汉语就有问题,笔记本的“本”,粤语中我发音读成“补”,而且不是习惯性的说“手提电脑”,因此识别起来出现了偏差。这个时候,文字和语音的翻译输出结果毫无疑问是出错的,但有一点——被翻译的句子是没有问题的。所以粤语人士最终可以通过查看被翻译的句子,明白普通话人士到底在说些什么。

地点互译上粤语翻译成汉语的误差也比较大。“鸟巢”因为按照语言习惯不同,粤语在声母起头时有可能发“l”音,也有可能发“n”音,因此出现了多种识别错误。但是换个地名,说“水立方”就没问题。

还有一个就是重(复)音字在粤语当中的识别问题。“松”和“从”的发音是相同的,“国”和“哥”的音不同,但十分相近,因此“从国家体育馆,怎么去首都机场”就没识别好。这不仅仅是语音辨识的问题(语音辨识不仅仅声母要准确,韵母的辨识有时候更加重要),还有上下文智能联想的问题。遇上“鸟巢”和“国家体育馆”的翻译,基本上只能靠听,给出再多的文字识别都是没用的。

但是,这样的翻译结果能够接受吗?大多数人是可以的,毕竟这样的翻译结果离最终的目的含义很接近了,我觉得在表意上已经可以告别连蒙带猜

,旅游当中的需求型沟通是基本可以解决的。

但是,还是回到之前的那个观点,这个解决问题的方式,的确是建立在功能重复的基础上。

以目前的翻译效果来判断,“翻译实用化”不仅仅百度能达到,科大讯飞也可以达到,可行性不是问题。但要实现真正的实用化,需要在语音处理技术上有更强大的技术优势,包括声调判断、语音的捕捉、上下文联想、个人说话习惯等等细节的处理,才能真正去精简功能,实现真正的听说互译。

这个不是单纯语言库多么巨大、算法多么先进能实现的,目前可以说国内没有一家厂商具备绝对领先的优势。

最后,道长请把谷歌联系人的方式给我一个吧(好吧这是说笑的)。


以上就是关于《百度翻译的四个功能排序,是否有其独到的意义?-百度翻译准确度高吗》的全部内容,本文网址:https://www.7ca.cn/baike/16921.shtml,如对您有帮助可以分享给好友,谢谢。
标签:
声明

排行榜