智能语音登陆战:移动互联入口候选者

  • 时间:
  • 浏览:1

2013-08-03 12:46  21世纪经济报道  赵晓悦  

我想评论()

字号:T|T

移动客户端“今天最后一班从北京开往上海的高铁哪几个日后发车?”再次遭遇航班取回的A先生,万般无奈之下掏出手机,对着亲戚大伙推荐的一款叫金“出门问问”的微信公众账号发出了以上求助指令,仅仅数秒钟,“出门问问”给予了备选答案。

这越多越多移动互联掀开的语言浪潮里琐碎的日常情景之一。

每天,数以亿计的语音信息,通过语音识别技术被机器转化为文字;它们中的一每种,又以机器学习的妙招 ,被解融化具体的意义,在人机交互中,为用户的语音搜索提供答案。

据统计,Google25%的移动搜索结果来自语音,某种比例在百度亦突破10%;在Siri前后涌现的一批第三方语音助手,正在越快占领国内智能终端,为用户提供各式信息查询服务和类Siri的简单娱乐功能;而在智能电视、导航、语言学习等领域,远离大众视线的语音公司正在提供最基础的技术支持。

然而,在长达半个世纪关于人工智能的构想中,智能语音的到来却人太好显得越多越多姗姗来迟。

最关键的助推力来自云的成型。“过去,庞大的计算量构成了识别准确率提高的门槛,也限制了识别的应用场景(往往都上上能 是专用领域),而现在的云端计算、移动互联网等终端的便捷接入,使语音识别这么成为某种普遍服务能力”,关注人脸识别、语音分析等人工智能技术的联想之星执行董事刘维向记者表示。

在中国工业和信息化部披露的未来三到五年规划中,智能语音技术和产业推进作为工作重点,“智能语音真正成为移动互联网入口”被官方正式提出。

不过,对于行业内的创业者们而言,怎样才能将创新技术带向市场,则是一场旷日持久的战役。从最早登上资本市场的科大讯飞,到后起的分布于语音识别和语义分析环节上的大小公司,难免在2B和2C的商业模式之间抉择挣扎。是做横向的技术服务商,还是做纵深的产品提供者?入口当前,语音链条上的各家企业该怎样才能破解产业化问题?

识别之困

走在北京海淀某高校的校园里,你越多越多会被人冷不丁地叫住,邀请你用个人的乡音,照着本子,对着他手里的移动设备,念一段日常生活的对白。

同样的一幕,换不同的文本,重复成百上千次。这看似“笨重”的工作,却是智能语音流水线的开端。

在语音技术公司云知声正式成立前两天,在招兵买马的并肩,基础语音数据的积累越多越多借由外包公司悄然开展。而哪几个线下收集的珍贵的海量数据,不想都上能为机器提供更多模拟学习的样本。

云知声联合创始人、CEO梁家恩将语音识别的过程描述为:“通过麦克风捕捉用户发出的声音,将声波信号转去掉 机器都上能补救的‘发音型态’,再结合发音词典和汇集各类词汇排列组合的语言模型,比对搜索出最接近声音波形的得话”。简要地说,机器越多理解得话的意思,就能将语音自动转化为准确的文字。

这是语音技术须要攻破的第一关隘。在国内,从事语音识别技术的创业者大致分为一一个 “门派”,一派来自清华,另一派来自中科院。梁家恩所在的中科院自动化所从上世纪100年代起致力于语音领域的研究,与清华几乎并肩起步。而据一位业内人士撰文估计,全国从事语音技术的专业人才不超过一百人。

梁家恩在大学阶段即见证了“同门”——科大讯飞的崛起。而在移动互联网爆发日后,科大讯飞和捷通华声聚焦于语音合成领域,这项在二战后广为使用的技术,让机器都上能念出文本,但后来 ,科大讯飞又聚焦于语音识别。

不惧科大讯飞和越多越多众多语音搜索类劲敌,云知声凭借一套被称作高度神经网络的核心技术,越快站稳脚跟。这项技术增强了在口音和噪音环境下的识别效果,都上能单独将识别错误率下降100%以上。而思必驰也使用高度神经网络技术实现了语音识别性能的提升,百度亦在今年年初专门成立了高度神经学院对此进行研发。

在梁家恩看来,语音识别的好居于于统计框架的完整,“算法和框架在学术界都在公开的,并这么越多差异”,但在某种情况汇报下,要进一步做好都上上能 凭硬功夫,“一样的系统架构,实验室环境下朗读做到90%识别率容易,但在海量用户和实用环境下做到90%的难度还是相当的高”,梁家恩告诉记者。

理解之惑

“越多越多都上上能 语音识别,亲戚亲戚大伙最多实现了聊天,”梁家恩说,“去掉 语义理解不都上能跟真正的业务挂钩。”

在语音产业的下游,语义分析都上能所是语音识别的接力。简要地说,语义分析是对输入的得话进行分析,理解得话的逻辑关系,并根据逻辑关系构造用户须要的反馈结果。语义分析应用的经典形式是问答或对话——须要先理解用户的输入,越多越多生成答案,越多越多生成须要用户补充的问题。

“旅游垂直搜索去哪儿是由用户填表格,自然语义分析是替用户直接把表格填了”,出门问问创始人李志飞打了个比方。语义分析将文字转化成标准化的表格,利用开放API的数据支持,对接垂直的搜索。

李志飞毕业于约翰霍普金斯大学语言语音补救实验室(CLSP),在获得红杉资本和真格基金投资、选泽回国创业日后,他在谷歌研究院开发谷歌翻译产品,其博士研究方向正是人工智能分支之一的机器翻译领域。

李志飞指出,声音的被理解和被识别所面临的技术问题是迥然相异的。对语音识别来说,最大的问题是噪音,不同场景中的环绕声和不同人群使用的方言,声音信号千变万化。而语义分析的难点在于,同样意思的得话,有着各种不同的用词和语序,“比如南方航空公司和南航,上海和魔都”。

师从国内语义分析专家、北京交通大学贺仲雄先生的虫洞CEO俞志晨告诉记者,语义分析的技术路线分为某种:一是靠规则库做匹配,把语言规则化日后进行配对;另某种是依靠机器学习的妙招 ,通过智能网络,训练算法。“而一一个 心智心智成熟期期的句子的句子是什么图片 图片 图片 的语音产品总要使用后者”,他表示,不过,在早期阶段往往采用两者结合的妙招 。

但同处语义分析环节,两位创业者却选泽以不同的妙招 抵达用户。

早期定居于实用性功能搜索查询的虫洞,在Siri再次出现后受到启发,以对话的交互妙招 串联了原有的一系列功能。俞志晨认为,查询信息是一场连贯的过程,须要不断反馈和交互,不都上能得到准确的信息,而用户也希望在说日后得到村里人 情味的回答。

而李志飞让出门问问回避了Siri式的对话“调戏”场景,用户一次语音换一一个 答案。他的理由是,亲戚亲戚大伙在对话中会反问越多越多问题,甚至把机器当作自然人与之聊天。“对话管理是下一阶段。现在先弄清楚得话某种是哪几个意思——这是基本功”,李志飞说。

刘维表示,从技术上讲,为了让机器理解人的语言,人太好须要从语音到文本、文本到理解一一个 每种,但越多越多某种一个 环节割裂开来补救,很难真的理解自然语言。

对风险投资者来说,语音市场的爆发有赖于一一个 环节基本技术的并肩心智心智成熟期期的句子的句子是什么图片 图片 图片 。刘维认为,都上上能 原来,不都上能从更高的层面,也越多越多人机对话系统的层面,整合一一个 技术、更加人工智能的去通越多轮次对话,反复和用户交流,真正去理解用户的自然语言,而都在简单的“语音听写”和“文本搜索”。

模式之争

对于一一个 技术密集的语音行业来说,须要攻克的不越多越多技术问题,而更具挑战性的当属市场的开拓。

在Siri让更广阔的人群了解语音的面容日后,越多越多先行者越多越多刚开始了了从行业应用率先寻找语音市场的“登陆点”。

教育领域或许是第一一个 兵家必争之地。

在自动化所的五年时间里,从事语音识别核心技术研发的梁家恩,就和同事们并肩开发了一套英语口语评估系统。

而在欧亚大陆的另一端,高始兴和几位剑桥大学的师生联合创办的思必驰公司,也将海外汉语口语教育作为首块战场。整套语音识别、合成和评测技术,配上高涨的语言学习热情和时兴的资质考试,听上去颇有默契、顺理成章的商业模式。

但思必驰的实践越多顺利,高始兴发现,在一一个 初生的市场,关键越多在于“技术有多好”,“实际上,用户对技术的理解还隔着好几层”。

1008年,分散而捉摸不定的汉语口语市场让思必驰折戟回国,重新选泽以英语口语评测为切口,刚开始了了二次创业,以第二代智能语音分析和人机对话技术为基础,思必驰在国内首次实现了针对对话交流能力的评测,并成为国际上第一一个 为英语考试口试提供完整机器评测的语音公司。

当思必驰为新东方等英语教育公司开发出人机对话的口语学习系统时,梁家恩的评估系统却卖给了语音行业的龙头企业科大讯飞。而在今年6月25日,科大讯飞以自有资金4.8亿元收购广东启明科技,收购溢价达5100%,后者又是一家口语考试测试系统提供商。

显然,竞争日趋激烈的教育行业已无法承担完整的登陆重任。思必驰正悄然将基于高度神经网络的语音识别和语音合成等技术应用在车载系统等智能设备领域。“车载天然植物以语音交互为主”,俞志晨亦预测,车载导航和穿戴式设备将是语音行业中早期的市场爆发点,虫洞选泽与深圳乐投等相关媒体媒体合作协议开发语音。

而上述一切储备,似乎都为语音在移动互联端的登陆做出预演。亲戚亲戚大伙都上能数出应用市场、浏览器、APP和手机桌面一个越多越多成型的移动互联入口,语音则是呼声日渐高涨的入口候选泽。

对于完整诞生在移动互联时代的出门问问而言,先行者们的路径,显然越多用越多参考。从今年4月起,为微信用户提供生活服务查询的出门问问公众号,以每月数倍的增长,越快累计起超过5万的用户,成为微信官方推荐的十大应用之一,远超其早一月上线的Android移动端。