专访思必驰俞凯：大规模可定制的对话式语音交互，已经来临

时间: 2020-08-24来源：博客园

前景提要

近些年，深度学习给语音交互的性能和研究方法带来了极大进步。
　　但进步并不意味着就没有挑战。语音识别的精度总在不断刷新，却并没有达到用户使用体验的门槛。
　　思必驰联合创始人、首席科学家俞凯坚定地认为，大规模可定制的对话式语音交互技术已经到来。而当下，他所负责的学术与企业两支队伍正分别规划着长远期目标。
　　“语音识别的某些指标已经很高了，但往往是在受控的领域，在真实情况下，尤其是长尾的非配合语音识别领域还有很多问题待解决。同时，未来对大规模可定制的需求会越来越高。”
　　俞凯表示，当下语音技术供应商要针对更多长尾的场景提供定制模型，效果会变得更好，但这种情况不可持续，一定是会通过某些技术上的突破。当然，这种技术突破同样也会跟通用语音识别的发展相辅相成，如果通用语音识别的（准确率）特别高了，那可能就不需要定制了。但从目前来看，定制是不可避免的。
　　在他看来，目前对话技术要做的，是对原有的更新替代和升级，不单单是语音识别技术，还有合成、语义理解、对话管理等一整套对话技术。
　　根据当下语音行业所面临的问题，给出针对性解决思路，同时在技术研究的大方向上予以充分探索的机会，可能是当下科学家们予以的长期乐观主义做法。

思必驰联合创始人、首席科学家俞凯
　　在刚刚过去的 CCF-GAIR 2020 全球人工智能与机器人大会上，雷锋网采访到了俞凯教授，了解对话式语音交互技术的最近研究进展，了解这位学者、科学家、产业从业者对当下语音交互技术最难落地的场景的思考。
　　以下为雷锋网专访实录：
　　 Q：大家对深度学习的不可解释性容忍度越来越小，此次您主要分享了端到端的研究方法，并尝试从通过引入先验知识，以弥补不可解释性的问题。该研究方法目前在工业界的落地情况是怎样的？最大的挑战是什么？
　　俞凯：半监督的方法很早就在工业界落地了，现在几乎所有的工业界都在使用半监督及生成数据训练。但目前情况是，工业界落地的都是最简单的方法，比如说解码、执行度选择等等，主要还是在小规模数据上的落地效果比较明显。
　　而到了万小时（语音）数据上，这个方法的效果不够高，是目前比较明显的一个通病。基本上就是处于一个“大家意识到很重要但还没有完全解决”的过程中。如果这件事情能有所突破，对未来的影响还是很大的。思必驰也是近一两年开始研究。
　　Q：之前针对消费者个人的交互数据进行学习存在很大的挑战，但如果放在企业所产生的交互数据进行学习，可能更为场景化，也相对比较好提取？
　　俞凯：从算法角度来讲是没有差异的，用的都是同样的方法。不过，企业中的数据积累量会比较大，场景会比较单一，相比之下，消费级的场景其实更为分散。从这个意义上讲，企业级得到的平均效果可能会好一些。
　　 Q：就我们所了解到的，疫情期间的疫情防控机器人、智能声控电梯、智能交互大屏等。从思必驰最近一年的探索上，服务于企业级用户方面，主要有了哪些层面的突破？
　　俞凯：大规模可定制是很重要的一点。
　　任何一个单一系统，用传统方法在有数据、环境可控的情况下，做的都还不错。但问题在于，你有多少这样的可控环境和足够的数据？
　　思必驰在智能服务方面，提供了全链路对话，无论是外呼机器人，还是内部质检、IVR 导航等解决方案，都做到了大规模可定制，使得不懂语音技术或懂得比较少的人，能够只通过少量的数据传输和相应的场景描述就可以快速做到可定制。这里面既有工程层面的产品可定制，也有技术层面的，将算法集成并形成一套工具，能通过小数据推行算法，能快速构建语义解析器，构建系统逻辑、生成。
　　思必驰在某些单项技术上已远超过同行，在对话方面，以及整体链路系统的定制速度、效率的综合实力上，也是相对会有一定的优势。总结来讲，思必驰在智能语音和对话技术供应商的角度变得更加专业，在规模化拓展的能力上也变得更强了。
　　 Q：您认为从智能家居、汽车到金融、医疗、工业等行业，语音交互技术最理想的落地行业是哪些？在落地过程中最大的挑战又会是什么？
　　俞凯：语音是个赋能型技术，我认为并不存在某一个最理想的行业。比如，IoT 的落地并不是因为语音技术成熟，而是对人机对话的刚需。此外还有泛智能设备，金融、政务、医疗、教育等垂直领域的认知信息服务，都会跟对话交互结合在一起。
　　目前解决方案一方面会采取私有化的部署方式，另一方面，会在不影响响数据安全和隐私的情况下，跨不同的域进行机器学习或推理，比方说联邦学习，就是最典型的一类概念。
　　 Q：在语音交互技术的总体研究进展上，您认为过去 5 年比较有代表性的研究成果有哪些？
　　俞凯：最有代表性的是，抗噪语音识别识别率的提升方面，出现了一系列新形态的识别的网络和准则。比如思必驰做了极深的卷积神经网络（VDCNN），以解决单通道收集的语音，通过语音分离来解决“鸡尾酒会效应”，以及端到端的语音识别的架构等。
　　二是效率方面。以端到端架构和神经网络模型的压缩两项技术为代表，使得语音识别的效率大幅提升。例如，训练一个超大的语音识别系统，如果用N-gram 训练，之前要大概占 10G，现在大概用 200MB 就可以了，甚至可以更小；再比如唤醒模型的训练，过去计算可能需要 1 秒，经过神经网络的压缩、系数化等工程的实现，就会变到只有 100 毫秒。
　　三是语音合成方面，最大的进展是序列的、端到端的语义合成。以 Tacotron、FastSpeech 等结构为代表，将序列到序列的深度学习引入，形成极高质量的语音合成，人基本听不出语音合成和人之间的差别，尤其在韵律效果上得到了极大的改善。
　　四是自然语言处理方面。预训练、无监督数据训练模型的出现，使得语义理解得到了极大的提升。
　　五是统计对话管理，或称为数据驱动的决策系统。从感知到认知的变化，比如利用强化学习在对话管理里，变得更加成熟。
　　 Q：目前多模态也是智能语音技术落地的探索方向之一，想要实现理想状态下的多模态交互，您认为有哪些问题需要解决？
　　俞凯：多模态最大的问题有这么几类：
　　一是语义空间不统一。现在基本是单模态+融合模块，真正意义上应该是跨模态，即在单模态处理的同时，用到其他模态的信息。
　　二是各个模态不同的数据集还不够丰富。在研究界和企业界还没有海量的量级，这个海量指的是企业级在万小时以上，研究级在千小时以上。
　　三是要弄明白多模态究竟能用来解决什么任务，很多情况下是在封闭的场景中，而且这个场景不泛化。这就导致多模态现在研究的任务还不够清晰，缺乏一个像传统语音识别或合成这样的典型任务。
　　当然，这个问题出现的本质还是成本太高，如果多模态能够将语音识别率精度提高，有人愿意买单，这样数据就来了，场景也来了。这个场景闭环已经有一些趋势，比如车载就是一个比较典型的场景，还有一些特定场景，如地铁售票机等。
　　 Q：人工智能现在进入新阶段了，市场和企业更加追求算法落地。您既作为思必驰的首席科学家，又同样是联合创始人的身份。（您或者您带领的实验室）取得了哪些成绩？
　　俞凯：联合实验室最大的优势，就是把企业的技术问题和诉求与持续的基础创新，在高校里面的持续技术创新比较紧密地绑定在一起，在解决企业最核心的技术问题的同时，指导企业的思考和研究方向。
　　大规模可定制，从长远看再过两三年会有新的变化，已经在联合实验室里预演了。
　　思必驰-上海交大智能人机交互联合实验室，就是这样一个深度绑定的实验室。一是研究的问题关联度比较高，二是有明确的知识产权的保护，相关技术成果和知识产权由思必驰所有并转化，同时又能允许学术研究者做论文发表并聚焦于前沿的技术探索。
　　实验室和企业在研究方向上是完全一样的，只是说本身节奏不同，实验室更为前瞻性一点，所以面临的技术风险也会更大。
　　 Q：最近一年以来，我们看到的现实情况是，国内外很多 AI 领域的专家离开企业，重新回归学术研究、教学讲堂，您认为当下人工智能产业发展遇到瓶颈了吗？
　　俞凯：并没有。专家们回到学校，本质上可能会有这些原因：学校和企业在研发上面是有着不同节奏的，而有些企业里的研发和产品部门是割裂的；同时，企业对学术专家的期望值也很高且缺乏耐心，希望专家能在短期内对企业有所实质性的贡献。这时，学者们就更倾向于回到学校自己去探索，要么是自己出来创业。
　　 Q：在人才培养方面，您认为当下国内语音/人工智能技术的培养模式，跟您当年那个时代相比有哪些不同吗？
　　俞凯：我们目前模式的优势是在于交大比较好的支持和思必驰发展历史过程中形成的超紧密的联合。这不是一般的联合实验室，而是将一个学术的研究方向与企业的核心问题紧密结合在一起，形成了一个极小角度的合力，这样一种比较有效的组织方式。这种组织方式既依赖于制度如知识产权，也依赖于人。
　　 Q：学生/研究员们选择专业、择业，就您的观察看，他们最为关注的是什么？
　　俞凯：人工智能近些年比较火，大家都想学，可能也正因如此，会有一种略微浮躁的气氛。人才的职业取向也无非三种：高薪酬，或许有时不一定与所能贡献的价值相匹配；认定语音是潜力行业，并希望落地成为事业的；还有一种是认为不一定长久，但更希望在研究方面有所突破，专心搞科学研究的人。