多模态话语决策模型让机器人学会“捧哏”-奇宝库

率先提出关键模型框架

“我们一直努力让机器人有‘捧哏’的天分。”何晓冬说，“基于我们在包括高表现力的对话生成、在复杂场景下进行对话决策等方面的研究创新，此次获奖项目让机器人在等待、接续对话的时机，对话内容的选择等方面都达到了令人类满意的程度。”

“过去的技术是给机器人规定一个时间，比如无声期超过0.5秒，就要‘接话’。”何晓冬说，任务型对话是以解决真实世界复杂任务为目的，对话中的人类也可能会出现犹豫、沉吟不决等情况，因此往往就会出现人类还在思考，AI就急着插话的情况。

“对此，我们提出了一个多模态的话语决策模型，在评价语音信号时，不仅考量停顿时间，更重要是计算评估语义完整度、语气、助词等，综合多模态信号作出动态决策。”何晓冬解释，这个模型可以让AI来判断对话者是说完了还是在思考。

“会倾听”是人类重要的交流能力之一。应用“任务型智能对话交互关键技术及大规模产业应用”，使京东云言犀平台实现了对机器人“倾听”能力的塑造。例如，在语音合成时给予机器人多维度的信息，在建模时让机器人能够掌握篇章、句子、字词，多轮对话时使机器人精确捕捉用户意图、流畅对答。

规模化落地服务千家万户

何晓冬坦言，AI实践应用不仅能创造价值，还是技术创新的“试金石”，不断反哺研究人员，完善相关理论。

“例如AI可以在短时间内拨出2600万通电话，以了解一座城市内居民的健康情况。”何晓冬说，如果没有这类AI应用，完成相同的工作至少需要1万名社区人员不停地打好几个月的电话。

如今，在北京、大同、芜湖等地，任务型智能对话交互关键技术正在帮助政府更好地进行政务管理与服务。AI不仅可以实现高效率拨打电话，节约了大量人力资源以及时间成本，还可以同时自动录入数据，作好分析，预判潜在问题。

京东云言犀平台率先将此次获奖技术应用于客户服务中，囊括了4层知识体系、40多个独立子系统、3000多个意图以及3000万个高质量问答知识点，覆盖超过1000万种自营商品的电商知识图谱，在为用户提供服务时不仅能解决用户需求，还能考虑用户情绪、运用对话技术，提供可用、可控、可信的智能对话服务。

除了语言，该平台还在画面、形象、仪态等方面实现了惟妙惟肖的呈现。“数字人等3D人像的应用目前很多，我们的优势不仅在于更像，还在于从理论和方法上进一步降低了技术复杂度，降低了产业应用的门槛和企业的投入产出比。”何晓冬说。

未来，人工智能大模型技术或在短期内将虚拟数字人的交互能力大幅提高，结合对话式AI、生成AI等技术，很多新业态将带来更多全新应用场景，难以辨别的“人类分身”或许就会出现在人群之中。