业界动态
OpenAI发布新模型GPT-4o,平均响应时间为320毫秒,“几乎接近人类交谈”,语音,音频,文本
2024-05-18 01:14:16
OpenAI发布新模型GPT-4o,平均响应时间为320毫秒,“几乎接近人类交谈”,语音,音频,文本

【环球时报特约记者(zhe) 谢昭环球时报记者(zhe) 刘扬(yang)】美国人工智能公司(si)OpenAI于14日凌晨(chen)正式推出新一代人工智能(AI)模型(xing)GPT-4o,美国有线电(dian)视新闻网(wang)(CNN)注意到,它的最突出特点是在与人的交互方面更为自(zi)然。

根据OpenAI发布的新闻稿(gao),GPT-4o的“o”代表“omni”,即“全(quan)能”之意。它可以(yi)在最快232毫秒的时间内响应(ying)音频输入,平均响应(ying)时间为320毫秒,几乎(hu)接近人类在交谈中(zhong)的响应(ying)时间。

在发布会的演示环节,GPT-4o展示了它与众不同的互动能力。它能用一种非常自(zi)然的语调与人交流。在根据工作人员(yuan)要求讲故事时,工作人员(yuan)可以(yi)随时插话打断并提出新要求,GPT-4o能几乎(hu)毫无(wu)停顿(dun)地接上话题并按照要求变化音色、语调、情感等。GPT-4o可以(yi)检测用户的情绪,并以(yi)类似(si)人类或机(ji)器人的语调与用户交谈。OpenAI表示,此前的AI语音模式由不同的独立模型(xing)组成,分别负责将音频转换为文本,接收文本并输出文本,再将文本转换回音频。在这些环节中(zhong)会丢失大量信息,因(yin)此无(wu)法识别音调、多个说话者(zhe)或背景噪音,也无(wu)法输出表达情感的语音。而GPT-4o支持文本、音频和图像的任意组合输入,并能够生成文本、音频和图像的任意组合输出,这意味着它能够结合视频和音频感受对(dui)话者(zhe)的情绪,并给出充满人类情感的反馈。在对(dui)话中(zhong)发现工作人员(yuan)的深呼吸(xi)时,GPT-4o鼓励说“冷静下来”。CNN称,GPT-4o的语音令人想起美国科幻(huan)电(dian)影《她》中(zhong)的AI。GPT-4o还展示了解读代码(ma)、分析图表等各种能力。

不过,GPT-4o在演示过程中(zhong)也出现一些失误。英国广播公司(si)(BBC)称,这表明生成式AI的“幻(huan)觉”问(wen)题仍未得到解决,距离(li)解决聊天机(ji)器人不可靠的问(wen)题还有很长的路要走。

清华大学新闻学院新媒体研究中(zhong)心主任、跨学科知名学者(zhe)沈阳教授14日对(dui)《环球时报》记者(zhe)表示,GPT-4o把多模态融合能力发挥得比(bi)较好,无(wu)论是识别还是语音的精(jing)细化改造方面。此前的各种大模型(xing)的语音做得也不错(cuo),但多少还能听出一点AI的声音,现在经过进一步升级,GPT-4o具有很强的情感感染力,让人很难分辨出来了。

沈阳表示,此前GPT主要还是模拟意识,如今(jin)有向模拟生命转化的趋势,可以(yi)把GPT-4o看作是向“灵魂伴侣”方向发展。由于大模型(xing)对(dui)语音助手的加持,它会变成日常高频交流的“朋友(you)”,如果这种趋势持续下去,显(xian)然人们大量的使用时间将会消耗在跟语音助手的聊天当中(zhong),因(yin)为我们面对(dui)的将是一个权(quan)威全(quan)知的AI助手。这可能会导致人与人的关系在一定(ding)程度上解耦。也就是说人类朋友(you)的数(shu)量可能随着跟AI聊天的时间增加而减(jian)少,这可能会带(dai)来一个非常重大的社会影响。此外,GPT-4o提升了视觉与语音能力,跟硬件的结合也会比(bi)较好。所以(yi)未来它可以(yi)更加广泛地应(ying)用到汽(qi)车、智能硬件等设备之中(zhong)。

发布于:北(bei)京市
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7