查看: 155|回复: 0

[等待归档] 从声学智能到智能助手,你需要Get哪些知识点?

[复制链接]

29

主题

41

帖子

99

积分

注册会员

Rank: 2

积分
99
QQ
发表于 2017-10-31 15:21:34 | 显示全部楼层 |阅读模式 | 百度 
johndoe的评分为79--时间:2048-08-21 04:59:08.govtupianv的评分为99--时间:2300-04-18 13:16:28!shangluo的评分为15--时间:2558-12-19 09:38:08,博一行是八哥的评分为4--时间:2621-06-02 18:17:08,小李老母飞到的评分为90--时间:2656-08-25 07:42:08.崔运前的评分为27--时间:2062-11-28 22:57:48!
全文约5000字,阅读时间预计5分钟。


由中国计算机学会(CCF)主办、雷锋网与香港中文大学(深圳)全程承办的 AI 盛会——全球人工智能与机器人峰会(CCF-GAIR)在深圳大中华喜来登酒店如期召开。





7月8日下午,进入“智能助手”专场。在门罗机器人CEO杨兴义先生的主持下,哈尔滨工业大学教授刘挺、蓦然认知CEO戴帅湘、声智科技CEO陈孝良、暴风TV CEO刘耀平四位业界大咖分享了“从声学智能”到“智能助手”那些不可错过的大咖干货。


刘挺:人机对话技术进展



哈尔滨工业大学教授,社会计算与信息检索研究中心主任刘挺教授 :从人机对话技术概述、人机对话技术进展、人机对话评测等方面展开介绍。


Q:人机对话技术概述?
A:我更侧重于语言的方面,这是对话的一个基本框架。人机对话技术的基本框架,包括三个重要的模块:语言理解,对话管理,语言生成。大致走过三个阶段:2012-2014,语音助手;2014-至今,聊天机器人;2016-至今,场景化任务执行。


Q:做聊天机器人有没有意义?
A:我认为有几方面的用处,第一建立人和机器信任,不同于搜索引擎机器可以向人发问,比如问你喜欢看哪类电影,你说我喜欢看动作片的机器人,他立刻推荐一个成龙的动作片,就是这个机器人的聊天机器人对用户的画像发问。另一个就是情绪抚慰的功能,对有情感障碍的,对寂寞的人机器有耐心可定制。你要愿意定制一个就愿意训练你的机器人也没问题。


Q:人机对话技术到底到了什么程度?
A:刚才四个方面也选出了最重要的,一个是聊天,一个是任务执行。我聊天的是没有明确的目标的,而任务有明确性,聊天的这个空间大。对话生成部分比较技术化,不仅仅是算法,从重排序模型到层次化模型到DQN模型,怎样形成一个一个完整的对话,这是很多技术,包括深度学习和强化学习的结合。现在很多大企业不但做智能助手而且提供对话平台,上升到人工智能层面。比如订机票,很多细节需要填补,从CRF到LSTM发展。技术也在进步。中间的对话管理也在向强化学习发展。


Q:人机对话的评测发展如何?
A:评测驱动技术进步,没有标准答案去评测。坚持的理念:自然语言处理,中文评测由中国人引导。评测有两个任务:聊天和任务类第一任务是意图的区分,第二是特定域任务型人机对话在线评测。而多轮分叉是评测的难点,主要看最短话论数内把问题解决掉。


戴帅湘:对话即应用,过去仍在,未来已来



蓦然认知 CEO 戴帅湘先生:互联网领域人机交互的发展过程说明了语音交互时代已经来临,介绍了对话即应用和交互方式融合的重要性以及对于对话应用未来的发展预测。


Q:为什么“未来对话即应用”?
A:从贯穿互联网发展过程中人机交互的阶段来划分,第一个阶段,20年前,即互联网刚刚普及时,用户通过键盘、鼠标实现与机器的交互。第二个阶段是在触摸屏手机出现以后,用户摒弃了之前的键盘操作。这种变化也带来了应用形态的转化,行业从 Web 程序开发迅速转入 APP 程序开发,也是在这一背景下,此后的10年间,互联网几大巨头迅速经历洗牌。到了今天,我们开始面对第三个阶段,即语音交互的阶段,眼下,各大公司纷纷推出自己的智能音箱品牌,硬件连接,行业称之为“万物互联”时代。今天的设备要想和人类进行大规模合作,对话式语音交互必不可少,并且必定成为主流。未来的IoT时代,语音交互将跨越软件和硬件的边界,在不同场景下,呈现不同的应用和服务,对话即应用。


Q:语音交互时代哪些场景是产品落地与市场化的核心?
A:家居场景下必然会有一个家居控制中心,连接接听设备,需要集中式的交互入口,让它做集中式控制、使用、命令,电视是一个交互切入口。蓦然针对电视进行了专门设计,用户不仅可以获取娱乐信息,还能够实现更多的生活需求:视频电话、订票、查找周边、设置提醒、缴费等;同时为服务提供商带来更多效益。另一个场景是车载,车载是最适合对话的语音交互场景,这是目前业界的一个基本共识。除了行车过程中的路线考察,路线规划,行车导航等,蓦然更关注的是行车目的地,因为后者直接连接服务,对交互的影响更大。上述这两种场景是生活中非常重要的两大场景,它们可以通过一个整体系统,融合成更大场景。而要融合如此多功能的场景,并达成各场景之间的自由切换,必须要有非常复杂的语音交互。对话式语音交互是多种技术融合的必然结果。


Q:对于语音交互时代新交互方式,哪些关键点是最重要的?
A:对于新的交互方式,融合现有的解决方案非常重要。5个层面来说:第一VUI + GUI 融合,GUI 本身是一种确定的、简单的、没有后效性的操作。VUI 是发散的、跳跃的,相对模糊,但是可以完成复杂任务的操作。GUI 是让我们适应机器,VUI 是让机器适应我们第二多场景融合,让用户感受到服务的意图在各种地方得到满足,才有可能成为很有效的交互方式。第三设备之间的融合,按照现在的很多框架,实现这种方式会非常复杂,需要给用户制造不同设备之间迁移、无缝连接、包裹式的经验。第四,知识+服务融合,真正有用的对话是双向的。系统理解以后做适当的动作,不理解的话做推荐动作、反问动作和澄清动作,这样才能形成完整的、任务式的、有目的、优化的对话,而不是随意的。第五技术的融合,AI 本质上是技术的集合体,是多项关键技术的融合,不是单一的模型,也不是单一的方法。


陈孝良:人机语音交互的技术趋势与商业机遇




声智科技创始人兼CEO陈孝良博士:从技术与商业趋势、以及当前所面临的技术挑战与商业挑战方面,带给了我们更多关于语音交互的商业思考。


Q:为什么人机交互的升级是国内外同步创新的机遇?
A:从交互方式来划分呢,PC时代我们主要依赖的是键盘鼠标,到了移动互联时代,其实主要以智能机为代表,因为在功能机时代,其实我们还是主要依赖于我们的键盘,但是在智能机时代,我们大量依赖于触摸屏。其实这是一种很大的变化,因为他已经解放了我们的一只手。那到了AI的互联网时代很可能我们会以语音交互作为一种数据方式,当然它不是唯一的,肯定还要和我们其他交互方式融合在一起。现在是国内外同步创新的一个机遇,因为语言它天生是一个壁垒,很大的挑战,他将来会带来全球生态的可能的一个重构。可以分为四个层次,底层包括器件、芯片、模组等,其上一层包括VOS、网络,然后再上上产品,最后到内容服务,可能都需要语音交互的变革来进行相应的改变。


Q:远场语音交互技术有哪些挑战?
A:远场语音交互瓶颈在于声学和场景。近场和远场之间的区别是非常大的。当然还要涉及到我们的语义,到底我们语义应该理解到什么程度?这也是我们现在非常迫切解决的问题。我们说带动链条升级,那首先,我们得进行器件升级,矢量麦克风是下一代的麦克风,可能会比较遥远,中间可能会加一层智能的麦克风。但现在国内这项技术还落后来一点。第二个挑战是芯片,第三就是算法。我们有一些原创的算法,因为声学也为军工服务,各个国家相对保密,所以只能各自发展。但是比如我们现在大量使用的机器学习,事实上我们国内大量在做改进性的技术。


Q:远场语音交互商业挑战有哪些?
A:说现在的商业化挑战,其风险在于不确定的启动周期。更细致化的划分:第一就是产品,关于产品怎么定义,怎么挖掘痛点可能是一个比较大的问题。第二我们来看内容服务,国内的内容和服务比较割裂,我们知道腾讯在我们国内占有了很大的音乐版权,百度上有很大量的搜索,我们的交易大量在阿里。那我们关注国外亚马逊做的事情天然有很多优势集中在一起。这是单单某一家公司做是不可能的,得需要整个链条的合作。第三就是标准与知识产权。


Q:对于远场语音交互未来的思考?
A:技术的发展趋势,刚刚我们说到麦克风要从标量麦克风下一步做到智能麦克风,下一代AI是要多传感融合的,麦克风、雷达等技术有声、光、电这三个因素合在一起,到底该怎么做,也是需要进一步研究的。算法和模型也是要考虑的。另外就是产品。音箱会不会死掉,这个问题没有太大意义。国内外都在做的事情,本来就是一个现有的品类,不存在消亡。远场语音交互,开始是智能音箱将来绝对不止于此,其他巨头在定位时也不会把技术限定于智能音箱,想象一下后面产品,包括智能耳机,智能盒子,智能车载等。


刘耀平:设备时代结束,助手时代到来




暴风TV CEO刘耀平先生:从AI用户——助手思维讲起,阐述从设备到助手,如何突新的商业生态的建立和产业红利的释放,以及未来人工智能助手的展望。


Q:为什么未来AI用户将是助手思维?
A:对于我们暴风tv来说,最重要的战略思维是,以前的设备与人的关系带来的人与服务,人与信息的关系,我认为很快就会结束了。AI时代会到来共建一个未来,开启一扇新的大门,看到一个崭新的赛道和新的世界。其中思维先行,对于TC端最重要的思维,也就是助手思维,是暴风tv做人工智能产品时,是非常重要的指导性思维。



Q:从设备到助手,为什么AI助手率先解决人与人的交互突破?
A:解决从设备到助手,我们从关系上来看,就是从人到设备获取信息和服务的关系要变成人与人的关系。以前引爆服务的是触觉,视觉和语言还没有真正引爆。人与人的关系,这个一旦这种关系确定以后确定了以后,通过自然语音与助手的交互,以及在这个交互过程中建立的决策的互动机制,产生的服务的效率和能力是完全不一样。新的商业生态的建立和产业红利的释放需要有些突破口。


Q:人工智能助手的新涌现,哪些值得去关注?
A:从涌现的助手上来看这个市场的话,有三个涌现是值得去关注的。一多设备协同计算(多助手),助手之间的协同,本质是多设备之间的切换。未来一定是助手手与助手之间的联网和协同。二多屏协同服务,这是现在的所有多屏,还是要靠人去操作。声纹在多助手之间能够协同,就大屏无处不在,把这个屏会以什么方式呈现,是AR的方式还是其他的方式呈现,不一定,显示技术可以再次一起发展。但重要的是它会带来一个新的结果,就是跨空间的场景迁移。未来无处不在的助手,给你提供服务,助手之间可以协同,然后再做空间迁移的场景都可以连续服务。三未来会产生家庭社交平台,无论是泛朋友还是陌生人关系,互联网社交平台都做得已经很不错了。但家庭的这个社交平台迄今为止没有出现,关系是存在的,比如以孩子为纽带,但是服务没有做到很好。未来人与人,人与助手,助手与助手之间这种新型的关系产生后,我相信一定会产生家庭社交平台。暴风也会做比较大的投入与准备。


-End-


热门文章推荐


加入声学在线(实习生/兼职编辑):hr@soundonline.org



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x


回复
百度搜狗360奇虎

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

快速回复 返回顶部 返回列表