南都讯(xun) 记者赵唯佳 发自上海7月5日,在(zai)2024世界人工智能大会“可(ke)信大模型助力产业创(chuang)新(xin)发展”论坛上,蚂蚁集(ji)团公布了其自研的百灵大模型最新(xin)研发进展:百灵大模型已具备(bei)能“看(kan)”会“听(ting)”、能“说”会“画”的原生(sheng)多(duo)模态能力,可(ke)以直接理解并训练音频(pin)、视频(pin)、图、文等多(duo)模态数据。
蚂蚁集(ji)团副总裁徐鹏展示了新(xin)升级的多(duo)模态技术可(ke)实现(xian)的更(geng)多(duo)应用场景,比如(ru),通过(guo)视频(pin)对话的自然(ran)形式,AI助理能为用户识别穿着打扮,给出约会的搭配(pei)建议;再比如(ru),根据用户不同的意图,从一堆食材中搭配(pei)出不同的菜谱组合等。
蚂蚁集(ji)团副总裁徐鹏介绍百灵大模型原生(sheng)多(duo)模态能力。受访者供图
“从单一的文本语义(yi)理解,到(dao)多(duo)模态能力,是人工智能技术的关键迭代,而多(duo)模态技术催生(sheng)的‘看(kan)听(ting)说写画’的应用场景,将(jiang)让AI的表现(xian)更(geng)真实,更(geng)接近(jin)人类,从而也能更(geng)好地服务人类。蚂蚁会持续(xu)投入原生(sheng)多(duo)模态技术的研发。”徐鹏介绍说,目前,百灵的多(duo)模态能力已经(jing)应用在(zai)“支付宝智能助理”上,让智能体具备(bei)了一定规(gui)划执行(xing)能力,未来还将(jiang)支持支付宝上更(geng)多(duo)智能体升级。