语音识别的现状与前景探讨

摘要:语音识别是人工智能和机器学习应用的一个重要方向,并发展成为一个具有广阔前景的新兴高技术产业。近年来,语音识别技术突飞猛进,大量产品被开发并应用到实际。但在实际应用中也出现了很多问题,需要科研人员进一步的研究来解决。本文概述了语音识别技术,并对其现状作了阐述,同时对未来的研究方向做了简单的概括。

关键词:语音识别 人工智能 机器学习

1.语音识别概述

语言是人类思想最重要的载体,是人们交流最有效、最方便、最自然的方式。语音识别技术就是让机器接收,识别和理解语音信号,并将其转换成相应数字信号的技术[1]。语音识别是涉及很多学科的一门交叉学科,涉及到声学、语音语言学、数理统计、信息理论、机器学习以及人工智能等学科。语音识别系统可以把操作人员的大量重复劳动交给机器来处理,节约了人力,提高了效益。例如:专家咨询系统、信息服务系统、自然语音识别系统、寻呼服务、故障服务、智能对话查询系统、语音订票系统等。在某些恶劣环境和对人身有伤害的特殊环境下,例如地下、深水、辐射或高温等地方,就可以通过语音识别系统指令,让机器完成各种工作。

现在几乎所有成功应用到实际中的语音识别方法都采用概率统计的方法或信息论的方法。其中最主要的,大量被使用的方法有动态时间规整技术、隐马尔可夫模型、人工神经网络、支持向量机等方法,这些方法的出现极大地推动了语音识别从实验室走向实际应用。

2. 语音识别的现状

近三十年来,语音识别技术发展迅速,逐渐从实验室走向市场,形成产品。在信息处理、通信与电子系统、自动控制等领域相继出现了不同用途的语音识别系统,已经逐渐显露出其强大的技术优势和生命力。现在实际中应用比较广泛的语音识别软件有:Nuance、IBM公司的Viavoice、Android系统下的Voice Actions、苹果手机上的Siri以及国内科大讯飞的语音识别产品等。我们国家对语音识别研究一直比较重视,中科院自动化所、清华大学、科大讯飞等很多科研院所和企业都投入了大量的人员和资金进行语音识别的研究开发。

前面所介绍的产品,它们的共同点是在文本转语音功能方面表现比较出色,但在语音转文本功能方面就有些差强人意。例如Voice Actions提供了令人惊奇的语音识别引擎,它的识别率非常之高。但是与微软和IBM等公司的语音识别引擎一样,它对我们说的话有严格的要求,必须按照固定的格式和语法结构,不然无法识别。苹果手机上的Siri是迄今为止最优秀的语音识别系统之一,我们可以不用注意语法结构,即使思维模式有些混乱,系统也会结合上下文去理解,它还会利用人工智能来分析,并且能在多数情况下理解我们的意思。

语音识别发展到现在,在中小词汇量非特定人语音识别系统和特定人语音识别系统中的识别精度已经接近100%,这些技术已经能够满足一般应用的需求。同时随着大规模集成电路技术的进步,我们已经完全可以把语音识别系统集成到芯片中,如一些电话机、手机、电话交换机等产品就带有这样的芯片,具备了语音拨号,语音应答等功能。甚至有的语言查询系统可以让人们通过电话网络查询到订房信息、车票、股票信息等。调查统计显示,大部分人都能够满意这种信息查询服务的性能。

3.机器学习的发展前景

现在,越来越多的语音识别技术被带入到人们的工作生活中,影响着每一个人。在某些领域如信息处理、教育与商务、工业控制等方面,语音识别已经显露出巨大的优势。可以预测,它的应用将越来越广泛,更多先进的语音识别产品将陆续出现在市场上,继续影响每个人的生活。

语音识别技术的一个重要应用就是在电话语音识别上,电话语音识别系统将能够代替人工的繁重操作,如自动转接、语音号码查询以及旅游信息查询等。酒店应用了语音查询系统后,将可以不间断地为客户提供二十四小时的客房预定服务。在证券市场上如果安装电话语音识别系统的话,客户就可以用语音方便地查询相关股票,及时地了解最新价格及波动情况,从而进行高效的股票操作,节约了人力成本的同时,方便了用户。

在邮局的邮件分拣中,语音识别技术所起的作用也越来越明显,发展诱人。分拣员单纯依靠记忆力分拣,同时还需要大量的时间,而依靠语音识别可以弥补这方面的不足,同时节约人员成本,提高邮件处理的效率和效益。

随着硬件技术和软件技术的快速发展,语音识别为我们提供了一种崭新的远景。很明显,语音识别正在改变着我们这个世界,因为一旦机器被赋予人类语音之后,任何会说话的人都将能和机器自然的交流。或许很多行业并未清晰地意识到语音技术所带来的改革力量,但是,就现在的发展形式及技术进展来看,人类生活的每一领域必将因它而变得异常精彩。

4.语音识别的未来研究方向

现在语音识别在许多行业产生了大量的应用,但是要实现真正的人机自然交流还需要很多的工作要做。它还要在下述几个方面取得突破性进展:

(1) 识别系统的强健性方面,有待进一步增强。现在,环境噪音和杂音对语音识别的效果影响最大。在嘈杂环境中必须有特殊的抗噪技术处理才能正常的使用语音识别,否则识别率很低,效果很差。目前针对中文的语音识别方面还存在着明显的不足,语言模型方面需要进一步完善。由于声学模型和语言模型在语音识别技术中起到基础性作用,所以必须在这方面有所突破,否则其它的都不可能实现。现在所使用的语言模型都是概率模型,文法模型没能得到运用,只有这一方面取得突破,计算机才能真正理解人类语言,这是一个难度非常大的工作。另外,随着硬件技术的不断发展,搜索算法、特征提取和自适应算法等这些核心算法将会得到不断改进。我们相信,半导体和软件技术的共同进步必将给语音识别技术打下坚实的基础。

(2) 多语言混合识别方面和无限词汇识别方面需改善。现在使用的语音模型和声学模型有很多的局限性,如果突然从英语转为法语、俄语或者汉语,计算机就不会处理了,得到的东西完全不是我们想要的结果;如果人们偶尔使用了某些不太常见的专业术语,如"信息熵"等,计算机可能也会得到奇怪的结果。这不仅仅是因为模型具有局限性,同时也有硬件跟不上的原因。将来伴随这两方面技术的进步,声学模型和语音模型可能会理解各语言之间自然的切换。另外,因为声学模型的逐步改善,以及以语义学为基础的语言模型的改进,或许将能够帮助人们尽量少或完全不受词汇的影响,从而可实现无限词汇识别。

(3) 在自适应方面需要更大的改进,达到不受口音、方言和特定人影响的要求。现实中的语音类型是各种各样的,从声音特征来说可以分为男音、女音和童音,另外,很多人的发音同标准发音有很大的差距,这就需要进行口音和方言的处理。即使同一个人,如果处在不同的环境中,或者在不一样的语境中,意思也可能不同。这些同样需要改进语音模型,让语音识别能适应大多数人的声音特征。

(4) 语音识别系统在从实验室转化为商品的过程中,同样需要解决很多具体问题。比如,系统的识别速度、识别效率以及连续语音识别中剔除无意义语气词等问题。

总之,语音是人们工作生活中最自然的交流媒介,所以语音识别技术在人机交互中成为非常重要的方式。伴随计算机技术和语音识别技术的进步,语音识别系统的智能性和实用性将得到大幅提高。这将表明语音识别技术具有非常广泛的应用领域和非常广阔的市场前景。

参考文献:

[1] 刘幺和,宋庭新. 语音识别与控制应用技术[M]. 北京:科学出版社,2008.

[2] 胡光锐,《语音处理与识别》上海科学技术文献出版社,1994

转载请注明出处学文网 » 语音识别的现状与前景探讨

学习

斑点叉尾

阅读(25)

本文为您介绍斑点叉尾,内容包括斑点叉尾鮰营养价值,斑点叉尾鱼。斑点叉尾是从国外引进的饲养范围最广,面积最大的一个鱼类优质品种。斑点叉尾怕光,早上一般太阳没有出来之前,就开始喂食。一般是早上5点到6点左右,下午是6点到7点进行投喂。投

学习

木瓜蛋白酶在牛肉原料加工中的应用

阅读(25)

牛肉的重要食用品质之一就是嫩度,它是评判牛肉质量的常用标准。实践中我们可以看到,牛肉自身的影响因素有:肌肉组织、肌原纤维蛋白结构状态、结缔组织含量和性质以及持水力、脂肪组织等。本文将通过均匀试验设计法在木瓜蛋白酶嫩化牛肉中的

学习

探析我国制造业的柔性制造策略

阅读(15)

当前我国制造业处于转型和升级的关键时期,提高我国制造业在全球价值链中的位置,不仅要增加我国制造业的科技含量,提高产品附加值,而且要在变革我国制造业系统方面给予足够的重视。柔性制造是适应全球竞争与变化的商业环境的重要制造技术与理

学习

Blue Note来了北京,可听众呢?

阅读(56)

>>美国著名爵士歌手JaneMonheit在BlueNote北京店现场表演>>BlueNote来了北京,可听众呢?BLUENobleblueBLUEMAGICBLUELOVEBlueHarmonyBlueSkyoverBlueSeaBlue乐队:助阵“大爱音乐节”中国,我们来了BLUE灵魂的底色TheBlueYonderRedChina,blue

学习

“推理女王”的戏剧世界

阅读(24)

阿加莎・克里斯蒂,世界推理文学史上一位里程碑式的人物。她那看似波澜不惊的一生,铸就了后人难以企及的成就。自1920年的第一部作品《斯泰尔斯的神秘案件》出版,直到1976年以85岁高龄终老,阿加莎・克里斯蒂一生共创作了66部长篇小说、21部中

学习

晚明名士潘之恒的女性审美观

阅读(27)

关键词:潘之恒;女性审美;风尘佳人女性是晚明名士潘之恒的主要写作对象。他对女性的审美从道德、才艺和外貌三个方面展开。通过他的女性审美观能够看出明代节烈风气的盛行、晚明文人集体征色活动的时尚性以及青楼曲艺的繁荣。同时这一审美观

学习

浙江省舟山市产业结构分析

阅读(421)

产业结构直接影响城市的经济发展,产业结构优化对城市发展具有重要意义。舟山作为海岛城市,产业结构有其地方特色。本文主要分析了舟山的产业结构演化过程及产业结构特点,对主要产业进行了讨论,并对未来的发展提出了一些对策建议。关键词:产业

学习

财务分析报告论文范文

阅读(27)

财务分析报告论文范文第1篇论文关键词:财务分析报告;编撰;建议财务分析是以企业财务报告及其他相关资料为依据,采用一系列专门的分析技术和方法,对企业过去和现在有关筹资活动、投资活动、经营活动、分配活动的盈利能力、营运能力、偿债能力

学习

全世界最好的音响工程师

阅读(21)

没有多少人可以自称世界第一(就连重量级拳王也得分领头衔),而罗素·约翰逊(RussellJohnson)却是世界公认最棒的音乐厅音响工程师,他不仅改变了封闭空间的音乐效果,也改变了现场演出的整个聆听体验。“音乐必须被空气包围,就好像音乐在飘飞一样。

学习

兰州大学学报.医学版.

阅读(22)

本文为您介绍兰州大学学报.医学版.,内容包括兰州大学学报医学版是核心期刊吗,兰州大学学报医学版主页。六亚甲基二乙酰胺对粘液表皮样癌细胞增殖的影响巨大肝海绵状血管瘤合并巨块型肝细胞性肝癌一例麻黄碱和伪麻黄碱中枢作用的比较聚醚

学习

我国马铃薯淀粉产业现状

阅读(22)

一、马铃薯淀粉产业概况中国是世界马铃薯生产大国,根据联合国粮农组织统计,目前全世界马铃薯种植面积2000万公顷(合3亿亩),总产量3.5亿吨。其中中国的种植面积达488万公顷(合7321万亩),占世界的25%,亚洲的60%,总产量达7086万吨,占世界的20%~D亚洲

学习

永春百年佛手融禅韵

阅读(17)

诗人余光中说“桃源山水秀,永春佛手香”。永春佛手茶,产于著名乌龙茶主产基地――福建省永春县,系乌龙茶中的名贵品种之一。因其叶大如掌、形似香橼柑,始种于佛寺,故称“佛手”。永春佛手茶,又名香橼种,别名雪梨,系乌龙茶中风味独特的名贵品种之

学习

iTech 度技术

阅读(22)

增强现实技术(AugmentedReality,简称AR)主要理由:咨询公司ManattDigitalMedia在2015年的报告中预测,到2020年,虚拟现实(VR)和增强现实(AR)的市场份额将达到1500亿美元,而增强现实将占据更大的份额,为1200亿美元,其中包括了硬件、商务、数据语音服务以

学习

机电设备的常见故障与维修方法

阅读(18)

本文为您介绍机电设备的常见故障与维修方法,内容包括机电设备的常见故障,机电设备常见故障维修与保养材料。摘要机电设备在我们的日常生活、生产中被越来越广泛的应用,其中包括电气设备以及电气与机械相结合的机电设备,在日常工作过程中,往

学习

民国名家瓷器投资前景看好

阅读(21)

收藏瓷器已30年有余的廖茂林,称其为瓷器收藏界的泰斗毫不夸张。其名下的四川茂林博物馆中古陶瓷目前已成系列,藏馆文物中有世界级孤品30多件、馆藏文物艺术品4万多件。其中,馆藏文物中从红山文化、母系社会的妇人俑,良渚文化的三足鼎,西周有

学习

关于“水手技能竞赛培训”的教学探讨

阅读(35)

【摘要】通过对各大型航运企业集团组织水手技能竞赛的特点及项目的分析,探讨水手技能竞赛选手选拔的方法,理论教学的重点,水手工艺训练时的重点,水手工艺训练培训过程中各个阶段的不同特点及不同教学重点。【关键词】水手技能竞赛;理论

学习

丹东生态环境现状及保护

阅读(42)

依山、临江、傍海,长期以来,辽宁省丹东市凭借得天独厚的生态环境资源,成为我国最美最大的边境城市。然而,在过去的一段时间里,不合理的开发利用导致丹东的山水资源遭到严重破坏,水质严重污染、山林被毁、土地沙化等。为了丹东的环境以及日后的

学习

新闻报道客观性与倾向性的再探讨

阅读(20)

【内容提要】对新闻报道客观性与倾向性的论述已经不少。但最近以来,无论是学界还是业界,有人对新闻报道中客观性的绝对化和模糊化看法多了起来,争议也越来越大。有的还以新闻专业主义的片言只语作为权威依据,来说明新闻只能存在客观性而不得

学习

细河流域水资源现状与发展建议

阅读(19)

[摘要]为了准确地判断和评价细河流域的水资源承载能力,本文对细河流域的水资源现状进行了调查和分析,得到了以下结论:细河流域地下水源水质类别为Ⅳ类,主要超标项目为硝酸盐氮。细河流域水资源开发程度较不均衡,地表水利用程度较低、部分地区

学习

集团二级公司设立模式探讨

阅读(25)

企业发展壮大,面临集团二级公司设立模式选择的问题,选择合适的模式将影响企业的运作方式、效率和效益。文章通过比较集团二级公司子公司与分公司两种模式的概念、区别,探讨两种模式的不同影响,并进一步探讨两种模式的会计核算与税收处理的差

学习

“推门听课评价法”的现状及完善措施

阅读(20)

在很多学校,我们经常可以看到这样一种现象:教师走进教室准备上课,却发现后面坐着学校领导;或者教师刚走进教室,就有学校领导或校外专家推门进入课堂听课。这事实上是我们常说的随堂听课,也称为“推门听课”。近年来,我国许多中小学都倡导随堂听

学习

我国碳税现状研究

阅读(131)

近年来,温室气体排放逐年增多,全球气候变暖日益严重,二氧化碳的过量排放是造成这种现状的主要原因,发展低碳经济已成为当今各国的主流。西方很多国家在上世纪就开始征收碳税,并取得相应的成果。我国作为负责任的大国,也在积极开展减少二氧化碳