从智能语音识别到实时翻译 搜狗人工智能开启新翻译新时代
在语音实时翻译这件事上,搜狗率先实现了历史性突破,质量几乎达到专业同声传译水平。11月17日,在乌镇举办的第三届世界互联网大会上,搜狗CEO发表题为《人工智能的未来之路》的演讲时,其中文讲话内容在实时语音识别的基础上,同步翻译为英文并上屏显示,引起了全场嘉宾的轰动。
语音识别+机器翻译迭代的背后
语音识别在过去一直是科幻小说的常见场景,尽管在大多数领域,科幻作家的想象力远远超过现实。语音识别则是少有的例外,其独特性不仅仅是因为其迅速取得斐然成果,更因为其背后有更多值得挖据的领域,其中就包含令人生畏的实时翻译。
从智能语音识别到实时翻译 搜狗人工智能开启新纪元
从概念上来看,语音识别是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。在这一领域,搜狗其实已经有了5年的积累,早在2011年便开始深耕语音识别的搜狗,凭借其得天独厚的条件:大量的数据资源、庞大的用户量,以及领先的算法,目前搜狗语音识别准确率已超过97%,识别速度达到了400字每分钟。技术进步下良好的用户体验,也带来了用户使用量的提升,搜狗第三季度财报显示,搜狗输入法的语音输入日频次比一年前增长一倍多,单日语音请求已突破1.9亿次。
而机器翻译则是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。事实上,搜狗输入法在6.8正式版中就推出了在线翻译的功能,解决了日常输入中输入英文的问题。
在今年夏天的奇点大会上,王小川首次演示了搜狗的实时语音识别技术,将演讲内容同步识别为文字,在屏幕中显示出来,并在8月3日正式对外发布搜狗知音引擎,三个月之后世界互联网大会上,搜狗知音引擎再推新功能,在识别演讲内容的同时进行实时翻译。
不过,大多数人都不知道这些突破从本质上说都是同一突破。它们均通过一种名为深度神经网络的人工智能(AI)技术来实现。
深度神经网络最值得注意的地方是,没有人编制出计算机来执行上述的任何技术功能。事实上,没有人能够做到这一点。相反则是,编程人员给计算机引入学习算法,给它提供海量的数据(如大量的语音样本),进而对其进行训练,让它自行理解如何去识别物体、单词或者句子。简单来说,这种计算机有自学能力,相当于用软件自己编写软件。
神经网络并非新概念。该概念可追溯到1950年代,而许多重要的算法突破是出现在上世纪末。不同于当时,如今的人工智能研究者终于可以同时利用强大的计算性能和海量的数据(遍布于互联网的图像、视频、音频和文本文件),这两点对于神经网络的良好运作必不可少,目前,搜狗输入法PC 端用户规模在中国排名第一,无线领域排名所有应用的第三位,其中第一、第二分别为腾讯的微信和 QQ;同时搜狗搜索目前在 PC 端排名第三,移动端已经上升到第二。在强大的计算性能和海量数据方面,搜狗有着不可多得的优势。正如业内人士所评价,“这是搜狗深度学习的寒武纪生命大爆发。”
“机器同传”的突破与创举
由两名到三名译员轮换进行不打断讲话者讲话的情况下的同步翻译,与会嘉宾同时佩戴同传耳机,已成了大型研讨会和国际会议的标配。但是,人在进行同声传译时,受限于记忆力、听说速度有限等因素,存在丢失细节翻译、翻译的结果无法立刻转成文字等缺点,此外由于时间限制和领域特殊性,翻译质量也会大打折扣,同时同声传译人员的费用也非常高,因此如何使用机器进行自动语音实时翻译也是科学研究期望攻克的难题。
从智能语音识别到实时翻译 搜狗人工智能开启新纪元
在这次世界互联网大会上,也为嘉宾配备了同声传译和同传耳机,但是当王小川说到“搜索的未来就是人工智能时代的皇冠”时,屏幕上实时显示出了语音识别的中文以及“In the future, search will be the Crown of the AI Era”……在王小川的演讲中,机器还能随着语句的逐渐完整,根据语义自动修改调整之前识别的内容,斯坦福大学杰瑞·卡普兰教授等外宾们纷纷摘下了同传耳机,开始感受这不同寻常的“机器同传”。
这是全球首次基于神经网络的实时机器翻译技术在大型活动上的展示,从现场演示效果来看,搜狗语音识别准确率已超过97%,机器翻译准确率达90%,已接近人类同传翻译结果。
从智能语音识别到实时翻译 搜狗人工智能开启新纪元
为什么会是搜狗首先实现了这一重大突破?据悉,搜狗机器翻译融合了业界领先的端到端神经机器翻译技术以及基于实例的翻译技术,使用的端到端神经网络翻译模型通过编码端获取源端句子的分布式表示,利用注意力模型聚焦源端,使用循环神经网络生成翻译结果,翻译的结果比传统机器翻译更加流畅,效果更好。在近期人工评测中,搜狗机器翻译在演讲、旅游、闲聊、日常口语等领域,采用五分制人工评分能达到4.4分,走向实用化。
搜狗在人工智能上较深的技术积累,根源上与其作为一个搜索公司对技术的多方面应用不无关系。无论是大数据的运用,还是对深度学习(深度神经网路)的应用,都超出其他类型的公司。正如Google已经将自己的未来定义成了一家人工智能和机器学习公司,在未来,技术走多远,搜狗的业务就能走多远。
此外,传承文化、促进交流,打破语言对人们沟通交流所造成的障碍或壁垒也是搜狗一直以来的使命。从数据来看,目前全球有50%的互联网内容是英语,但只有20%的人掌握英语技能。即使是目前的智能翻译系统只包含8种语言,也覆盖了全球33%的人口。
可以说,搜狗长期深耕技术和产品所积累的海量数据以及在人工智能技术上的沉淀都为语音实时翻译技术的成功奠定了坚实的基础。搜狗语音实时翻译技术基于大数据和深度学习,涵盖了搜狗自主研发的语音识别、机器翻译两项重要技术,搜狗语音实时翻译代表着这两大技术在实时性和实用性上迈出了较大的一步,并且高效的结合了起来。
据介绍,在实时性上面,中文结果实时显示,搜狗的准确率和响应速度稳居行业首位,实时反映英文的结果理想的将延迟控制在了2秒以内。在流利度方面,搜狗语音翻译采用基于语义的断句模型来断句,断句更加合理,翻译结果更加完整和流畅。在表现力上面,搜狗语音实时翻译技术同步显示听写的中文结果和翻译的英文结果,既可以通过屏幕显示展示给观众,也可以通过手机软件发送给观众。报告结束可立刻生成双语对照演讲文稿,方便后续整理和报道。
对于实时翻译的未来,搜狗还有很多工作要做,但是搜狗语音实时翻译代表着一个重大里程碑。继续前行,搜狗会进一步优化语音实时翻译的性能和效果,带来更加惊艳的机器同传产品。甚至,从语音识别走向生成再到思维决策,在技术改变生活的道路上,搜狗还会创造新的更多的奇迹。
语音识别+机器翻译迭代的背后
语音识别在过去一直是科幻小说的常见场景,尽管在大多数领域,科幻作家的想象力远远超过现实。语音识别则是少有的例外,其独特性不仅仅是因为其迅速取得斐然成果,更因为其背后有更多值得挖据的领域,其中就包含令人生畏的实时翻译。
从智能语音识别到实时翻译 搜狗人工智能开启新纪元
从概念上来看,语音识别是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。在这一领域,搜狗其实已经有了5年的积累,早在2011年便开始深耕语音识别的搜狗,凭借其得天独厚的条件:大量的数据资源、庞大的用户量,以及领先的算法,目前搜狗语音识别准确率已超过97%,识别速度达到了400字每分钟。技术进步下良好的用户体验,也带来了用户使用量的提升,搜狗第三季度财报显示,搜狗输入法的语音输入日频次比一年前增长一倍多,单日语音请求已突破1.9亿次。
而机器翻译则是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。事实上,搜狗输入法在6.8正式版中就推出了在线翻译的功能,解决了日常输入中输入英文的问题。
在今年夏天的奇点大会上,王小川首次演示了搜狗的实时语音识别技术,将演讲内容同步识别为文字,在屏幕中显示出来,并在8月3日正式对外发布搜狗知音引擎,三个月之后世界互联网大会上,搜狗知音引擎再推新功能,在识别演讲内容的同时进行实时翻译。
不过,大多数人都不知道这些突破从本质上说都是同一突破。它们均通过一种名为深度神经网络的人工智能(AI)技术来实现。
深度神经网络最值得注意的地方是,没有人编制出计算机来执行上述的任何技术功能。事实上,没有人能够做到这一点。相反则是,编程人员给计算机引入学习算法,给它提供海量的数据(如大量的语音样本),进而对其进行训练,让它自行理解如何去识别物体、单词或者句子。简单来说,这种计算机有自学能力,相当于用软件自己编写软件。
神经网络并非新概念。该概念可追溯到1950年代,而许多重要的算法突破是出现在上世纪末。不同于当时,如今的人工智能研究者终于可以同时利用强大的计算性能和海量的数据(遍布于互联网的图像、视频、音频和文本文件),这两点对于神经网络的良好运作必不可少,目前,搜狗输入法PC 端用户规模在中国排名第一,无线领域排名所有应用的第三位,其中第一、第二分别为腾讯的微信和 QQ;同时搜狗搜索目前在 PC 端排名第三,移动端已经上升到第二。在强大的计算性能和海量数据方面,搜狗有着不可多得的优势。正如业内人士所评价,“这是搜狗深度学习的寒武纪生命大爆发。”
“机器同传”的突破与创举
由两名到三名译员轮换进行不打断讲话者讲话的情况下的同步翻译,与会嘉宾同时佩戴同传耳机,已成了大型研讨会和国际会议的标配。但是,人在进行同声传译时,受限于记忆力、听说速度有限等因素,存在丢失细节翻译、翻译的结果无法立刻转成文字等缺点,此外由于时间限制和领域特殊性,翻译质量也会大打折扣,同时同声传译人员的费用也非常高,因此如何使用机器进行自动语音实时翻译也是科学研究期望攻克的难题。
从智能语音识别到实时翻译 搜狗人工智能开启新纪元
在这次世界互联网大会上,也为嘉宾配备了同声传译和同传耳机,但是当王小川说到“搜索的未来就是人工智能时代的皇冠”时,屏幕上实时显示出了语音识别的中文以及“In the future, search will be the Crown of the AI Era”……在王小川的演讲中,机器还能随着语句的逐渐完整,根据语义自动修改调整之前识别的内容,斯坦福大学杰瑞·卡普兰教授等外宾们纷纷摘下了同传耳机,开始感受这不同寻常的“机器同传”。
这是全球首次基于神经网络的实时机器翻译技术在大型活动上的展示,从现场演示效果来看,搜狗语音识别准确率已超过97%,机器翻译准确率达90%,已接近人类同传翻译结果。
从智能语音识别到实时翻译 搜狗人工智能开启新纪元
为什么会是搜狗首先实现了这一重大突破?据悉,搜狗机器翻译融合了业界领先的端到端神经机器翻译技术以及基于实例的翻译技术,使用的端到端神经网络翻译模型通过编码端获取源端句子的分布式表示,利用注意力模型聚焦源端,使用循环神经网络生成翻译结果,翻译的结果比传统机器翻译更加流畅,效果更好。在近期人工评测中,搜狗机器翻译在演讲、旅游、闲聊、日常口语等领域,采用五分制人工评分能达到4.4分,走向实用化。
搜狗在人工智能上较深的技术积累,根源上与其作为一个搜索公司对技术的多方面应用不无关系。无论是大数据的运用,还是对深度学习(深度神经网路)的应用,都超出其他类型的公司。正如Google已经将自己的未来定义成了一家人工智能和机器学习公司,在未来,技术走多远,搜狗的业务就能走多远。
此外,传承文化、促进交流,打破语言对人们沟通交流所造成的障碍或壁垒也是搜狗一直以来的使命。从数据来看,目前全球有50%的互联网内容是英语,但只有20%的人掌握英语技能。即使是目前的智能翻译系统只包含8种语言,也覆盖了全球33%的人口。
可以说,搜狗长期深耕技术和产品所积累的海量数据以及在人工智能技术上的沉淀都为语音实时翻译技术的成功奠定了坚实的基础。搜狗语音实时翻译技术基于大数据和深度学习,涵盖了搜狗自主研发的语音识别、机器翻译两项重要技术,搜狗语音实时翻译代表着这两大技术在实时性和实用性上迈出了较大的一步,并且高效的结合了起来。
据介绍,在实时性上面,中文结果实时显示,搜狗的准确率和响应速度稳居行业首位,实时反映英文的结果理想的将延迟控制在了2秒以内。在流利度方面,搜狗语音翻译采用基于语义的断句模型来断句,断句更加合理,翻译结果更加完整和流畅。在表现力上面,搜狗语音实时翻译技术同步显示听写的中文结果和翻译的英文结果,既可以通过屏幕显示展示给观众,也可以通过手机软件发送给观众。报告结束可立刻生成双语对照演讲文稿,方便后续整理和报道。
对于实时翻译的未来,搜狗还有很多工作要做,但是搜狗语音实时翻译代表着一个重大里程碑。继续前行,搜狗会进一步优化语音实时翻译的性能和效果,带来更加惊艳的机器同传产品。甚至,从语音识别走向生成再到思维决策,在技术改变生活的道路上,搜狗还会创造新的更多的奇迹。