国家青年千h计划获得者、上市“东方学者”特聘教授,上v交大—思必驰智能语x术联合实验室负责Z凯(清华大学1994U自动化p)
在近期D行的亚洲消费?sh)子展上Q汽车厂商成为重头戏Q不智能概念R首次亮相。但是,概念车虽然有新意Q其量和普及却q有很长的一D\。业内专家表C,让“智能概念”能够实现“民用”,走入车主生活Q还是要靠智能R载硬Ӟ才会让汽车真正“智能”v来?span lang="EN-US">
车蝲语音机器人需要“更强大脑?span lang="EN-US">
不久前,一D关于“山东纠正哥”进行R载电(sh)话拨L视频疯传|络。夹杂方a的山东男子试囄语音拨打?sh)话LQR载系l的识别q程W话癑ևQ纠正多ơ都无果Qh与机器纷Uh奈。在q则W话视频的背后,更多地是反映Z当今语音技术的关键短板所在:非配合情况下Qh和机器根本无法用语音畅交流?span lang="EN-US">
车蝲g的“智能”,在驾驶过E中首推交互。驾驶过E中׃D、电(sh)话、信息、R载娱乐和各类车内控制Q司机需要与车蝲gq行不停的“沟通”。以往Q通常需要司机的视线d路面Q用手操作手机或车蝲g实现沟通。h们已l广泛认识到Q这U方式的_֊分散已经成ؓ重要的安全隐(zhn)。因此,采用语音操控成ؓ了“智能汽车”的必由之\。国外的Ҏ(gu)、谷歌?span lang="EN-US">NuanceQ国内的癑ֺ、科大讯飞等公司都纷U开发过车蝲语音pȝ?span lang="EN-US">
但目前的车蝲语音pȝ大都只用了语音识别技术,通过抗噪法一定程度上减轻车蝲噪声Ҏ(gu)器L识的影响。但从hZ互角度,更多地还是停留在“一问一{”的单命令控刉D,只是一个不太灵敏的“x”加上机械式的流E图判断Q在出现多个l果的情况下Q仍需辅助屏幕触控Q这使得现在的R载系l都不具有真正的“h机智能”?span lang="EN-US">
首先是语音识别在非配合的情况下Q由于方a、环境噪声等的媄响准率不高。即使达C90%以上的准率Q上q的“山东纠正哥”在拨打11位手机电(sh)话的时候,q是?span lang="EN-US">1位错误。而一旦有识别错误Q机器就无法准确理解用户意图Q电(sh)话号码错1位也无法拨出Q还是要手动操作。更严重的是Q没有大脑的语音交互pȝQ只能不停地按照自己的逻辑让用户重复或提供特定信息Q对“打断”、“纠正”这cL层次的需求束手无{,使得本应解决问题的智能交互变成了不断d更多累赘的“麻烦制造者”。更不要说由于没有交互系l的架构设计、缺乏智能的信息控制与调度而造成的语韛_gq和反应滞后的现象了。真正的“R载语x器h”需要“更强大脑”?span lang="EN-US">
从“能听会说”到“会听能做?span lang="EN-US">
“语音交互系l不能再‘有x脑’了。”国安q千划获得者、上市“东方学者”特聘教授,上v交大—思必驰智能语x术联合实验室负责Z凯表C,上v交通大学智能语x术实验室最新研发的认知型h机口语对话系l,已l不再是传统的语韌别,而是一?“h性化语音机器人”。h们可以顺畅自由地使用语音Q随旉C能够理解自然语言的智能交互机器hq行对话交流Q完成Q务?span lang="EN-US">
俞凯介绍_上v交通大学智能语x术实验室从hZ互系l的角度q行语音技术的研究Q在实现一pd高性能抗噪语音识别的基上,研发了具有适应和思考能力的认知型h机口语对话系l。ƈ与苏州思必C息科技有限公司合作Q升U推Z针对车蝲的一体化人机交互解决Ҏ(gu)Q得语音交互系l不?“有x脑”。在q期刚刚发布的全球首ƾR载智能抬头显C(Head Up DisplayQ?span lang="EN-US">HUDQ系l——“R萝卜”(carrobotQ中Q就使用了这L对话pȝ技术?span lang="EN-US">
俞凯认ؓQ传l语韌别只是模拟x的感知功能,但其实更关键的是解决完整的口语hZ互问题,q是模拟的全套认知功能。认知型的智能语x术是更高层面的h工智能,与传l语韌别和合成相比Q它融入了自适应、理解纠错、智能反馈的认知技术。这会得机器可以适应更多的环境和口音Q具有进化调整的能力Q从“能听会说”变成“会听能做”:卛_得懂说的Q懂得听什么,听不清楚了能问,搞错了能U正Q最l能成功完成用户的Q务?span lang="EN-US">
让机器“深度理解”“自动纠错?span lang="EN-US">
俞凯_越传统语音识别的“深度理解”以及“自动纠错”技术是新型的h性化语音交互技术的两个典型例子?span lang="EN-US">
“深度理解”是把机器的识别状态(比如识别l果的可靠度、环境嘈杂程度等Q、用L个h特点Q比如性别、方a地区、说话快慢等Q,以及说话的情境(比如谈话的领域、常识、前面谈话的历史{){因素从大数据中提取出来Q根据这些“情境”对识别l果再进行二ơ计,使得语义理解的准度大大提高?span lang="EN-US">
“因些计模型的训练都依赖于语音识别的结果,采用合理的算法,p学习各种语音识别错误模式Q机器像h一栯够从p|中ȝ规律Q在理解的时候自动纠正语韌别的错误。”俞凯D例说Q比如用户在开车的时候说“导航到车管所”,不幸被识别成“导航到厕所”,Ҏ(gu)情境和谈话历史信息,q个语音识别的错误很Ҏ(gu)p自动U正回“R所”?span lang="EN-US">
而对于“纠正错误”的问题Q不止是深度理解可以q行单句的语义适配式纠错,机器q可以像Z样通过对话交互U错或理解意图。俞凯说Q通过逻辑兌和智能对话,机器能够像h一样允许被“打断”,以及的根据新信息U正原先的号码,q也是上v交通大学智能语韛_验室研发的基于统计的认知型对话管理技术?span lang="EN-US">
语音机器Z来“听话?span lang="EN-US">
“以前语韌别只q求‘听清’,语义理解也只q求一句话层面的‘听懂’,而新型的人机交互是追求机器能够‘听话’,成ؓ真正的‘语x器h’。而且希望它能够有q化和适应的能力,用得多听话。”俞凯说Q语韌入不再局限于呆板单的句式限制Q语x制也不需要按照机器的讑֮d令,在复杂环境和噪音影响下,在自p话方式(例如打断Q下Q依然能够保证良好而稳定的语音识别和语义分析精度。hcȝ自然口语Q或怸完整Q或许发音不准确Q语义不_Q但是通过上下文关联逻辑Q以及多轮对话交互,机器能够q行语义推理而准识别h的意思,大幅度提升用者的语音交互体验?span lang="EN-US">
对于自己正在q行的研I目,上v交通大学智能语x术实验室的研I者们表示Q语音交互的讑֤更容易打动消费者,q是因ؓ“h性化”带l消费者更好的使用体验。真正的人工语音Q要以用户ؓ中心Q在多类环境下准识别ƈ反馈Q以个性化色彩q行交流。语音交互的未来应当是面向用P人性化的智能交互,而非q去模块化的机械交互。抛弃过d一的语韌别与合成Q把识别、语义理解和人机对话q在一P帮助用户完成dQ这是一个崭新的划时代变革?span lang="EN-US">
“希望‘山东纠正哥’能用上最新的认知型h机口语对话系l,不再闹笑话;更希望RM都能与自qpR无障交,愉快地行走在路上。”俞凯笑着说?
Q记?D佳Q?span lang="EN-US">
转自《科技日报?span lang="EN-US">2015q?span lang="EN-US">7?span lang="EN-US">3?span lang="EN-US">