ailike 发表于 2020-1-2 10:48:06

论文集 | 从经典架构开始理解语音识别(ASR)

语音识别,通常称为自动语音识别(缩写为ASR),是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的语音处理技术,作为信息技术中一种人机接口的关键技术,具有重要的研究意义和广泛的应用价值。

自深度神经网络(DNN)应用于声型建模后,大大降低了语音识别错误率,语音识别进入DNN-HMM时代,而端到端技术的突破,将语音识别的所有模块统一成神经网络模型,使语音识别朝着更简单、更高效、更准确的方向发展。继2017年6月Google表示语音识别的准确率达到95%后,李彦宏又在百度世界大会上宣布了百度语音识别准确率达到97%的消息。新的语音识别模型可以在24小时内对于数百亿级的大数据进行实时分析、高性能计算。

伴随着技术的快速发展,可落地的语音识别应用也越来越多,语音技术改变了家庭、汽车、酒店等越来越多的场景,用户与设备间基于语音交互的全新关系开始搭建——几乎所有的互联网巨头都对语音势在必得。

https://pic4.zhimg.com/v2-a0dd62f3e1ff16c85ef9688de8e2e1db_b.png
语音识别落地场景与应用


然而,语音识别涉及声学、语音语言学、信号处理、概率论、机器学习、算法设计等各方面专业知识,具有更为典型的跨学科特点,并且搭建系统的模块众多,入门门槛极高,同时,系统性学习最新语音识别技术的书籍资料较为缺乏,动手实践的教程更为少见,给相关技术人员入门和转型带来了困难。

为此,深蓝学院NLP教研室整理了语音『经典ASR论文50篇』,论文集包括基于HMM的语音识别方法和端对端的方法两大部分,帮助大家从经典模型结构入手,了解语音识别技术。

联系深蓝学院-子书(微信:shenlan-zishu),备注“知乎-ASR”,即可领取。

https://pic1.zhimg.com/v2-13c73143abe338d0af3d831eae2d9054_b.png
ASR论文合集




suoli 发表于 2020-1-7 11:47:06

学习了。谢谢分享
页: [1]
查看完整版本: 论文集 | 从经典架构开始理解语音识别(ASR)