浅谈语音识别 - Grandsys 北京宏盛高新

speech to text 1

语音识别英文称为Speech to text，其为计算机比对声学特征 (以中文为例，如：爆破音、摩擦音、爆擦音、鼻音。)，进而将说话者的发音内容转化为文字的技术。语音识别早在1980年代就由美国麻省理工学院的实验室发起研究，但苦于辨识率不高，一直没办法应用在商业用途。直到2012年，科学家用深度神经网络(Deep neural network, DNN)的计算方式，取代传统高斯分配计算，语音识别的辨识率才大幅提升至可以商转应用的程度，并在近几年受到国际间大型企业的关注与重视。

语音识别是由多重维度构成的，其中最重要也最容易理解的就是声学模型及语言模型，我们可以把声学模型想象成是系统在判断发音，把语言模型想象成是系统在判断文法。而系统判断出的每个结果，皆会伴随一个信心水平，举例来说，当我发出「ㄗㄒㄩㄣˊ」这两个音时，系统会比对「ㄗㄒㄩㄣˊ」可能是那些字，系统若觉得像「信息」的机率是60%，而像「咨询」的机率是90%，那系统就会回传给我「咨询」这两个文字。了解语音识别系统背后的运行方式是很重要的，尤其多数人刚接触语音识别时，都容易将语音识别系统与翻译画上等号，但其实语音识别如同刚刚所说，是在做特征的比对。

语音识别系统有没有办法从错误的辨识结果中自动学习，也是大多数人会问的问题，「知错能改，善莫大焉」固然是一件非常棒的事，可惜如同刚刚所提到，语音识别系统在返回文字给我们阅读时，一定是返回信心水平最高的那个项目，所以语音识别系统根本不知错，它总是认为自己是对的！「自动知错能改」这件事，对现阶段的语音识别系统只能说是不管用的，若想要语音识别系统下次不要再犯同样的错误，我们只能教会它。

至于要教会语音识别系统又是一个难题了，第一，中文是全世界最难辨识的语言，因为中文大约有四百个常用的发音，可是这四百个发音对应的却是大约五千个常用字，举个例子，当我发出「ㄅㄨˋ」这个音，对应的可是有「部」、「布」、「步」、「布」、「簿」、「钸」、「埠」这么多字，再加上每个地区都有自己的方言、独特的口音，要语音识别系统做出正确的文字比对，是需要花费很大的功夫的。

目前在台湾，用于商业用途的语音识别在调教辨识引擎时，便是先跟需要语音识别这样需求的单位要一百至两百个录音小时的音档，接着由人工的方式一通一通的听取这些音档，并在每个音段上标记正确的文字，再反馈给语音识别系统做学习，而由人工听取并登打文字的过程，我们称之为标音，这个工作需要非常仔细且富有效率地听打，虽然辛苦，却有着重要的价值。

看完语音识别的由来及背后的运作方式，是否对语音识别更加有兴趣了呢？笔者之后会持续与各位分享商业上的语音识别应用，以帮助大家了解语音识别能对企业带来多大的效益。

作者:售前顾问 Freya