所谓“模态”,英文是modality,用通俗的话说,就是“感官”,多模态即将多种感官融合。
目前的人机智能交互比如语言控制不如屏幕控制那么精准,很多时候会误判指令和错误唤醒,比较语言充满了不确定性;再比如,语音交互的物联网设备还是缺乏主动服务的能力,只是换了操作方式而已,用户体验没有本质提升。
假如我们把“模态”通俗地理解为感官,那么智能音箱就是只具备听觉模态的物联网设备,而加载ai分析能力的摄像头可以视为视觉模态的物联网设备。把听觉、视觉甚至更多模态组合到一起,多模态物联网也就诞生了。
目前的ai设备中感知模态主要包括三种。第1种是、语音交互,包括语音指令控制、语义理解、多轮对话、nlp、语音精准识别等领域;第2种叫做机器视觉,包括自然物体识别、人脸识别、肢体动作识别等;第3种则是传感器智能,包括ai对热量、红外捕捉信号、空间信号的阅读与理解。
把这三种东西融合在一起,物联网设备就可以在单纯的能听会说之外,同时还用摄像头观察、用传感器判断。而比较前沿的多模态感知还包括机器嗅觉,机器触觉和情绪理解等内容,但目前还没有落地产品。
目前多模态交互的主要应用场景:
场景一:多模态ai交互技术投射在物联网设备上,大概就是用机器视觉技术进行嘴唇识别,来分离语音交互指令。尝试通过用机器视觉来读取说话人的唇语和动作,来判断每个声音指令的来源。
场景二:多模态空调。在一些新的智能空调解决方案中,空调会在语音交互的基础上通过机器视觉来判断用户的位置,提供智能送冷,并且会结合传感器判断屋内温度和湿度,提供更精准的环境方案。
场景三:多模态电视。今年电视背后的ai平台战打得风生水起,把机器视觉技术引入电视成为了新的趋势。通过机器视觉来让电视观察屋内照明情况、用户与电视的距离,电视可以主动调节屏幕光线强度,输出比较护眼的模式。还有的ai应用是让电视在观察到儿童看电视后主动开启童锁。
据媒体报道, 2019年年底国产芯片核心玩家炬芯科技隆重举办了techlife开发者大会,以“多模态交互技术”为主题,在人工智能的大背景下探讨多模态交互技术的落地和发展,同时还邀请了阿里达摩院、喜马拉雅、玩瞳科技、ceva 等多位技术大咖,共同探讨行业前沿技术,现场人气爆棚,可见炬芯科技对未来趋势有着独特的预见性,这也是多年来行业领先致胜竞品的重要原因之一。
人机交互正在从键盘鼠标的交互转变成语音视觉等多模态交互。交互门槛的不断降低,给交互体验带来了明显提升。
为实现更优质交互体验,炬芯作为一家芯片设计厂商的也在持续深耕技术,希望用更优质产品给智能机器赋能。炬芯推出 ats 3607、 ats 3607d、 ats 3609、 ats 3609d 四款多模态智能交互芯片,充足的算力、超低的功耗、强大的可扩展性,将赋予机器更多的可能性。
其中,炬芯 ats 3609d,多麦智能语音、轻智能图像、双模态识别手指输入解决方案。将语音交互、机器视觉和传感器三个模态综合,为强人工智能下的多模态交互提供可行解决方案。
ai 多模态交互技术已经成为人工智能交互的必然趋势,我们也期待着炬芯多模态交互芯片平台能在更多的场景中应用开来,赋予机器更强的智能属性,用更加像人的智能机器给大家带来更好的服务。