摘要:语音识别是人工智能和机器学习应用的一个重要方向,并发展成为一个具有广阔前景的新兴高技术产业。近年来,语音识别技术突飞猛进,大量产品被开发并应用到实际。但在实际应用中也出现了很多问题,需要科研人员进一步的研究来解决。本文概述了语音识别技术,并对其现状作了阐述,同时对未来的研究方向做了简单的概括。
关键词:语音识别 人工智能 机器学习
1.语音识别概述
语言是人类思想最重要的载体,是人们交流最有效、最方便、最自然的方式。语音识别技术就是让机器接收,识别和理解语音信号,并将其转换成相应数字信号的技术[1]。语音识别是涉及很多学科的一门交叉学科,涉及到声学、语音语言学、数理统计、信息理论、机器学习以及人工智能等学科。语音识别系统可以把操作人员的大量重复劳动交给机器来处理,节约了人力,提高了效益。例如:专家咨询系统、信息服务系统、自然语音识别系统、寻呼服务、故障服务、智能对话查询系统、语音订票系统等。在某些恶劣环境和对人身有伤害的特殊环境下,例如地下、深水、辐射或高温等地方,就可以通过语音识别系统指令,让机器完成各种工作。
现在几乎所有成功应用到实际中的语音识别方法都采用概率统计的方法或信息论的方法。其中最主要的,大量被使用的方法有动态时间规整技术、隐马尔可夫模型、人工神经网络、支持向量机等方法,这些方法的出现极大地推动了语音识别从实验室走向实际应用。
2. 语音识别的现状
近三十年来,语音识别技术发展迅速,逐渐从实验室走向市场,形成产品。在信息处理、通信与电子系统、自动控制等领域相继出现了不同用途的语音识别系统,已经逐渐显露出其强大的技术优势和生命力。现在实际中应用比较广泛的语音识别软件有:Nuance、IBM公司的Viavoice、Android系统下的Voice Actions、苹果手机上的Siri以及国内科大讯飞的语音识别产品等。我们国家对语音识别研究一直比较重视,中科院自动化所、清华大学、科大讯飞等很多科研院所和企业都投入了大量的人员和资金进行语音识别的研究开发。
前面所介绍的产品,它们的共同点是在文本转语音功能方面表现比较出色,但在语音转文本功能方面就有些差强人意。例如Voice Actions提供了令人惊奇的语音识别引擎,它的识别率非常之高。但是与微软和IBM等公司的语音识别引擎一样,它对我们说的话有严格的要求,必须按照固定的格式和语法结构,不然无法识别。苹果手机上的Siri是迄今为止最优秀的语音识别系统之一,我们可以不用注意语法结构,即使思维模式有些混乱,系统也会结合上下文去理解,它还会利用人工智能来分析,并且能在多数情况下理解我们的意思。
语音识别发展到现在,在中小词汇量非特定人语音识别系统和特定人语音识别系统中的识别精度已经接近100%,这些技术已经能够满足一般应用的需求。同时随着大规模集成电路技术的进步,我们已经完全可以把语音识别系统集成到芯片中,如一些电话机、手机、电话交换机等产品就带有这样的芯片,具备了语音拨号,语音应答等功能。甚至有的语言查询系统可以让人们通过电话网络查询到订房信息、车票、股票信息等。调查统计显示,大部分人都能够满意这种信息查询服务的性能。
3.机器学习的发展前景
现在,越来越多的语音识别技术被带入到人们的工作生活中,影响着每一个人。在某些领域如信息处理、教育与商务、工业控制等方面,语音识别已经显露出巨大的优势。可以预测,它的应用将越来越广泛,更多先进的语音识别产品将陆续出现在市场上,继续影响每个人的生活。
语音识别技术的一个重要应用就是在电话语音识别上,电话语音识别系统将能够代替人工的繁重操作,如自动转接、语音号码查询以及旅游信息查询等。酒店应用了语音查询系统后,将可以不间断地为客户提供二十四小时的客房预定服务。在证券市场上如果安装电话语音识别系统的话,客户就可以用语音方便地查询相关股票,及时地了解最新价格及波动情况,从而进行高效的股票操作,节约了人力成本的同时,方便了用户。
在邮局的邮件分拣中,语音识别技术所起的作用也越来越明显,发展诱人。分拣员单纯依靠记忆力分拣,同时还需要大量的时间,而依靠语音识别可以弥补这方面的不足,同时节约人员成本,提高邮件处理的效率和效益。
随着硬件技术和软件技术的快速发展,语音识别为我们提供了一种崭新的远景。很明显,语音识别正在改变着我们这个世界,因为一旦机器被赋予人类语音之后,任何会说话的人都将能和机器自然的交流。或许很多行业并未清晰地意识到语音技术所带来的改革力量,但是,就现在的发展形式及技术进展来看,人类生活的每一领域必将因它而变得异常精彩。
4.语音识别的未来研究方向
现在语音识别在许多行业产生了大量的应用,但是要实现真正的人机自然交流还需要很多的工作要做。它还要在下述几个方面取得突破性进展:
(1) 识别系统的强健性方面,有待进一步增强。现在,环境噪音和杂音对语音识别的效果影响最大。在嘈杂环境中必须有特殊的抗噪技术处理才能正常的使用语音识别,否则识别率很低,效果很差。目前针对中文的语音识别方面还存在着明显的不足,语言模型方面需要进一步完善。由于声学模型和语言模型在语音识别技术中起到基础性作用,所以必须在这方面有所突破,否则其它的都不可能实现。现在所使用的语言模型都是概率模型,文法模型没能得到运用,只有这一方面取得突破,计算机才能真正理解人类语言,这是一个难度非常大的工作。另外,随着硬件技术的不断发展,搜索算法、特征提取和自适应算法等这些核心算法将会得到不断改进。我们相信,半导体和软件技术的共同进步必将给语音识别技术打下坚实的基础。
(2) 多语言混合识别方面和无限词汇识别方面需改善。现在使用的语音模型和声学模型有很多的局限性,如果突然从英语转为法语、俄语或者汉语,计算机就不会处理了,得到的东西完全不是我们想要的结果;如果人们偶尔使用了某些不太常见的专业术语,如"信息熵"等,计算机可能也会得到奇怪的结果。这不仅仅是因为模型具有局限性,同时也有硬件跟不上的原因。将来伴随这两方面技术的进步,声学模型和语音模型可能会理解各语言之间自然的切换。另外,因为声学模型的逐步改善,以及以语义学为基础的语言模型的改进,或许将能够帮助人们尽量少或完全不受词汇的影响,从而可实现无限词汇识别。
(3) 在自适应方面需要更大的改进,达到不受口音、方言和特定人影响的要求。现实中的语音类型是各种各样的,从声音特征来说可以分为男音、女音和童音,另外,很多人的发音同标准发音有很大的差距,这就需要进行口音和方言的处理。即使同一个人,如果处在不同的环境中,或者在不一样的语境中,意思也可能不同。这些同样需要改进语音模型,让语音识别能适应大多数人的声音特征。
(4) 语音识别系统在从实验室转化为商品的过程中,同样需要解决很多具体问题。比如,系统的识别速度、识别效率以及连续语音识别中剔除无意义语气词等问题。
总之,语音是人们工作生活中最自然的交流媒介,所以语音识别技术在人机交互中成为非常重要的方式。伴随计算机技术和语音识别技术的进步,语音识别系统的智能性和实用性将得到大幅提高。这将表明语音识别技术具有非常广泛的应用领域和非常广阔的市场前景。
参考文献:
[1] 刘幺和,宋庭新. 语音识别与控制应用技术[M]. 北京:科学出版社,2008.
[2] 胡光锐,《语音处理与识别》上海科学技术文献出版社,1994
转载请注明出处学文网 » 语音识别的现状与前景探讨