语音识别技术综述

摘 要:语音识别是以语音为研究对象,让机器通过识别和理解过程把语音信号转变为相应的文本或命令,使人机能自然地进行语音交流的技术。语音识别涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言,其最终目标是实现人与机器进行自然语言通信。随着时代的不断进步,语音识别技术已经发展成一门综合人类智能各项研究的***学科,现在正逐步成为信息技术中人机接口的关键技术。

关键词:语音识别 应用领域 热点 难点

中***分类号:TN912 文献标识码:A 文章编号:1007-3973 (2010) 03-062-02

1应用领域

如今,一些语音识别的应用已经应用到实际生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系统等。语音识别的应用领域非常广泛,几乎涉及到日常生活的方方面面。如语音拨号系统、、家庭服务、订票系统、声控智能玩具、医疗服务、银行服务、听写机、计算机控制、工业控制、语音通信系统等。预计在不远的将来,语音识别技术将在工业、家电、通信、、医疗、家庭服务等各个领域深刻改变人类现有的日常生活方式。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

2发展历史

语音识别的研究工作开始于50年代,Bell实验室实现了第一个可识别十个英文数字的语音识别系统―Audry系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。60年代,提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,极大地促进了语音识别的发展。70年代,动态时间归正技术(DTW)解决了语音特征不等长匹配问题,对特定人孤立词语音识别十分有效,在语音识别领域取得了突破。在此期间还提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

80年代语音识别研究进一步深入,HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,并以此确定了统计方法和模型在语音识别和语言处理中的主流地位。使得借助人工智能中的启发式搜索和语音模型自身的特点,高效、快捷的算法使得建立实时的连续语音识别系统成为可能。

90年代,人们开始进一步研究语音识别与自然语言处理的结合,逐步发展到基于自然口语识别和理解的人机对话系统。人工神经元网络(ANN)也开始应用于语音识别,它和HMM模型建立的语音识别系统性能相当,在很多系统中还被结合在一起使用以提高识别率及系统的鲁棒性。小波分析也开始用于特征提取,但目前性能不理想,其研究还在进一步深入中。

现在语音识别系统已经开始从实验室走向实用,出现了比较成熟的已推向市场的产品。许多发达国家如美国、日本、韩国以及IBM、Apple、Microsoft、AT&T等著名公司都为语音识别系统的实用化开发研究投以巨资。

3研究的热点与难点

目前语音识别领域的研究热点包括:稳健语音识别(识别的鲁棒性)、语音输入设备研究 、声学HMM模型的细化、说话人自适应技术、大词汇量关键词识别、高效的识别(搜索)算法研究 、可信度评测算法研究、ANN的应用、语言模型及深层次的自然语言理解。

目前研究的难点主要表现在:(1)语音识别系统的适应性差。主要体现在对环境依赖性强。(2)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,必须寻找新的信号分析处理方法。(3)如何把语言学、生理学、心理学方面知识量化、建模并有效用于语音识别,目前也是一个难点。(4)由于我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚,这必将阻碍语音识别的进一步发展。

4语音识别系统

一个典型的语音识别系统如***所示:

输入的语言信号首先要进行反混叠滤波、采样、A/D转换等过程进行数字化,之后要进行预处理,包括预加重、加窗和分帧、端点检测等。我们称之为对语音信号进行预处理。

语音信号的特征参数主要有:短时能量En,反映语音振幅或能量随着时间缓慢变化的规律;短时平均过零率Zn,对于离散信号来讲,简单的说就是样本改变符号的次数,可以粗略分辨清音和浊音;短时自相关函数;经过FFT或LPC运算得到的功率谱,再经过对数运算和傅里叶反变换以后得到的倒谱参数;根据人耳听觉特性变换的美尔(MEL);线性预测系数等。通常识别参数可选择上面的某一种或几种的组合。

语音识别是语音识别系统最核心的部分。包括语音的声学模型(训练学习)与模式匹配(识别算法)以及相应的语言模型与语言处理2大部分。声学模型用于参数匹配,通常在模型训练阶段按照一定的准则,由用语音特征参数表征的大量已知模式中通过学习算法来获取代表该模式本质特征的模型参数而产生。在识别(模式匹配)时将输入的语音特征同声学模型(模式)根据一定准则进行匹配与比较,使未知模式与模型库中的某一个模型获得最佳匹配以得到最佳的识别结果。语言模型一般指在匹配搜索时用于字词和路径约束的语言规则,它包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理则可以进行语法、语义分析。

声学模型是语音识别系统中最关键的一部分。目前最常用也最有效的几种声学识别模型包括动态时间归整模型(DTW)、隐马尔可夫模型(HMM)和人工神经网络模型(ANN)等。

DTW是较早的一种模式匹配和模型训练技术,它把整个单词作为识别单元,在训练阶段将词汇表中每个词的特征矢量序列作为模板存入模板库,在识别阶段将待识别语音的特征矢量序列依次与库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。DTW应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在小词汇量、孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已逐渐被HMM和ANN模型替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。HMM很好的模拟了人得语言过程,目前应用十分广泛。HMM模型的模型参数包括HMM拓扑结构(状态数目N、状态之间的转移方向等)、每个状态可以观察到的符号数M(符号集合O)、状态转移概率A及描述观察符号统计特性的一组随机函数,包括观察符号的概率分布B和初始状态概率分布 ,因此一个HMM模型可以由{N,M,A,B, }来确定,对词汇表中的每一个词都要建立相应的HMM模型。

模型参数得到后可以用Viterbi算法来确定与观察序列对应的最佳的状态序列。建好模型后,在识别阶段就是要计算每个模型产生观察符号序列的输出概率,输出概率最大的模型所表示的词就是我们的识别结果。这个过程计算量很大,有人提出了前向-后向算法,大大减少了计算量,已经被广泛采用,关于它们的各种改进方法也被大量提出。

ANN在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,是由结点互连组成的计算网络,模拟了人类大脑神经元活动的基本原理,具有自学习能力、记忆、联想、推理、概括能力和快速并行实现的特点,同时还具备自组织、自适应的功能。这些能力是HMM模型不具备的,可用于处理一些环境信息十分复杂,背景知识不清楚,推理规则不明确的问题,允许样品有较大的缺损、畸变,因此对于噪声环境下非特定人的语音识别问题来说是一种很好的解决方案。目前大部分应用神经网络的语音识别系统都采用了BP网并取得了较好的识别效果。

将ANN与HMM结合分别利用各自优点进行识别将是今后的一条研究途径。二者结合的混合语音识别方法的研究开始于上世纪90年代,目前已有一些方法将ANN辅助HMM进行计算和学习概率参数。

语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。N-Gram模型基于这样一种假设:第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料库中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

5总结

尽管语音识别技术已经取得了长足的进步,而语音识别系统也层出不穷,不断的改变人类现有的生活方式,但其比较成功的应用也只是在某些特定的领域,谈不上大规模广泛的应用。只有建立从声学、语音学到语言学的知识为基础、以信息论、模式识别数理统计和人工智能为主要实现手段的语音处理机制,把整个语音识别过程从系统工程的高度进行分析构建,才有可能获得能与人类相比的高性能的、完整的计算机语音识别系统。

参考文献:

[1]易克初,田斌.付强.语音信号处理[M].国防工业出版社,2000.

[2]胡航.语音信号处理[M].哈尔滨工业大学出版社,2000.

[3]赵力.语音信号处理[M].机械工业出版社,2003.

[4]张卫清.语音识别算法的研究[D].南京理工大学(硕士生论 文),2004.

[5]何湘智.语音识别研究与发展[J].计算机与现代化,2002(3).

转载请注明出处学文网 » 语音识别技术综述

学习

建构主义课程理论

阅读(20)

本文为您介绍建构主义课程理论,内容包括建构主义理论记忆口诀,建构主义理论主要观点。建构主义的课程与教学论是从认知主义发展而来的,皮亚杰、维果茨基、布鲁纳等人的思想对建构主义的形成具有重要的推动作用。建构主义有多种流派,对教育

学习

浅析安全协议中对拒绝服务攻击的防范

阅读(20)

本文为您介绍浅析安全协议中对拒绝服务攻击的防范,内容包括非服务攻击是针对什么协议,拒绝服务攻击造成的主要安全问题。摘要:文章主要分析了攻击的种类及安全协议中普遍存在的DoS(denialofservice)隐患,通过对当前防范DoS攻击的方法进

学习

物资采购供应商管理

阅读(21)

本文为您介绍物资采购供应商管理,内容包括集采平台供应商采购流程,物资采购流程及管理。[摘要]本文从物资供应商管理的意义论述了其开发和筛选所遵守的“Q.C.D.S”原则和筛选程序,提出了物资供应商管理的六个措施,文章结尾再次强调供应商

学习

中国经济面临的五大危机

阅读(39)

本文为您介绍中国经济面临的五大危机,内容包括经济大危机爆发后中国的应对,人类面临的五大危机是。最近几年中国面临着经济的结构性变化,以及知识方式、社会文明方式的变化,企业能否跟得上这些变化,将决定它们未来能否有大的发展。当前,中国

学习

奥运史上的“黑镜头”(一)

阅读(20)

本文为您介绍奥运史上的“黑镜头”(一),内容包括100个奥运难忘瞬间,2008年奥运会资料50字。奥林匹克精神是现代社会文明的一大奇迹。它所宣扬的友爱、平等、尊重、理解、宽容,无私和奉献等,超越了体育本身的范围。然而,美玉微瑕,人性中并不

学习

陈坤访谈:《花花型警》武力出击

阅读(29)

几分钟的戏,谁能看出来拍了9个晚上?那场戏是整部电影快要全部拍完的那几天拍的,那时我和余文乐已经是很好的朋友了,互相之间实在不忍心下手,但是又必须动手。导演像阳光大众电影:《花花型警》是你第一次和香港导演合作?陈坤:电视剧如果不算的

学习

刘学景家族:鸡肉大王的铜业大亨梦

阅读(19)

本文为您介绍刘学景家族:鸡肉大王的铜业大亨梦,内容包括铜业大亨刘学景,祥光铜业刘学景外债多少。近期,全球主要铜矿相继罢工停产,先是必和必拓旗下智利Escondida矿场工人因劳资纠纷引发的罢工事件,吹皱了铜市一池春水。随后美国自由港麦克

学习

OEC管理理念在班级管理中的应用初探

阅读(23)

OEC管理,其中“O”代表Overall(全方位),“E”代表Everyone(每人)、Everything(每件事)、Everyday(每天),“C”代表Control(控制)、Clear(清理)。OEC管理模式也可表示为“日事日毕,日清日高”。在五年制高职校学生管理中引入海尔OEC管理模式,如果我们也能

学习

10 部直面抑郁经历的名人回忆录

阅读(15)

秋天,万物开始萧肃,生机勃勃的世界即将步入冬眠。这个季节往往使人触景生情而引发秋季抑郁症,也称“悲秋”。抑郁导致死亡的现实生活案例比比皆是,上个月好莱坞著名喜剧明星,《肥妈先生》的扮演者罗宾・威廉姆斯就因重度抑郁症自杀离开了人世

学习

喷射式制冷系统在发动机余热利用中的应用

阅读(19)

本文为您介绍喷射式制冷系统在发动机余热利用中的应用,内容包括低温余热喷射式制冷机组生产厂家,余热蒸汽喷射式制冷机。提出了一种利用发动机排气余热作为热源驱动的喷射式制冷系统,选取R134a作为制冷工质,建立系统的热力模型。计算结果

学习

天价瓷碗迷案

阅读(22)

本文为您介绍天价瓷碗迷案,内容包括天价瓷碗完整版,天价瓷碗鉴定。新闻链接央视《寻宝》专家毛晓沪卖赝品成被告从鉴宝名家手里花387万元买的一只宋代汝窑碗竟然是赝品?近日,北京一家公司的负责人刘先生鉴宝名家、央视《寻宝》节目鉴宝嘉

学习

排球教学中几种关键技术的教学浅析

阅读(36)

本文为您介绍排球教学中几种关键技术的教学浅析,内容包括排球教学中如何突破重点难点,排球技术教学步骤基本模式。排球教学从教材入手,在充分分析教材内容的基础上,结合学生实际,细化教学内容,建立排球教学内容步骤和过程,是一种专项分析教学

学习

谈王莽钱币的价值

阅读(21)

本文为您介绍谈王莽钱币的价值,内容包括王莽钱币评价,王莽钱币一刀500价值多少。王莽的币制改革逆历史潮流而行,遭到后人的唾弃,但是就他所发行的钱币本身来看,还是极具价值的:王莽钱币的钱文妩媚多姿,悬针篆尤为一绝;铸造技术亦极为精湛,有“

学习

计算机毕业论文范文

阅读(14)

本文为您介绍计算机毕业论文范文,内容包括计算机科学与技术毕业论文范文,计算机网络技术毕业论文怎么写。计算机毕业论文范文第1篇我们这篇文章分部分进行讲解:一、本科学生毕业论文的目的和内容二、管理信息系统开发的主要步骤三、计算

学习

布里渊散射激光雷达探测技术研究

阅读(21)

本文为您介绍布里渊散射激光雷达探测技术研究,内容包括激光雷达散射截面,什么是布里渊散射激光雷达。【摘要】基于布里渊散射的激光雷达探测技术是一种新型的探测技术,已经在大气国防、环境监测、气象保障、等领域受到越来越多的关注。在

学习

光纤的通信传输技术

阅读(20)

本文为您介绍光纤的通信传输技术,内容包括光纤最大可以传输多少兆,光纤为什么可以传输数据。【摘要】叙述了光纤的通信传输技术的特点,分析了光纤通信传输技术中光纤接入技术和光纤技术中波分复用技术,进而分析了光纤通信传输技术的发展前

学习

裸眼3D技术无极限

阅读(21)

本文为您介绍裸眼3D技术无极限,内容包括裸眼3d专业术语,裸眼3d深度感悟。上世纪90年代以来,随着液晶显示技术的成熟,以液晶、等离子为代表的新一代显示设备得到了快速发展,3D显示技术的研究方向也逐步向基于液晶平板显示器的裸眼3D显示技术

学习

机械制造自动化技术分析

阅读(22)

本文为您介绍机械制造自动化技术分析,内容包括机械制造自动化技术特点分析,机械制造及其自动化的形势分析。经济生产各个领域都需要机械设备,尤其是车床设备等生产型的设备,在生产过程对机械设备的要求很高,以往人工操控的方式已经被淘汰,机

学习

浅谈给水处理技术的发展

阅读(23)

本文为您介绍浅谈给水处理技术的发展,内容包括给水处理现状及发展趋势论文,给水深度处理技术原理与工程案例。[摘要]水与人们生活生产密切相关,而且水是保障人民生活发展工业生产不可缺少的物质基础。近年来,人口增长、水资源的分布不均、

学习

城市燃气管道检测技术与检测方法

阅读(23)

本文为您介绍城市燃气管道检测技术与检测方法,内容包括燃气管道需要做什么检测,燃气管道防腐检测。近年来,我国城市燃气得到了快速发展。在燃气输送的过程中,管道输送由于具有更有效、更安全、对环境的影响更小的特点,成为了燃气输送的主要

学习

浅谈落叶松人工造林和人工抚育的技术

阅读(20)

本文为您介绍浅谈落叶松人工造林和人工抚育的技术,内容包括落叶松造林地多久可以采伐,落叶松造林。本文对全面搞好落叶松人工造林和人工抚育提出了合理化建议与对策。关键词:落叶松;人工造林;抚育;技术Abstract:inthispaper,thecomprehensiv

学习

国防科学技术论文

阅读(21)

本文为您介绍国防科学技术论文,内容包括国防技术基础文献综述模板,最新国防科技部门论文。1航天员科研训练中心GF报告管理现状航天员科研训练中心(原名航天医学工程研究所,以下简称中心)在1996年就开始集中管理GF报告,逐步形成了自己的工