OpenAI发布新模型GPT-4o，平均响应时间为320毫秒，“几乎接近人类交谈”,语音,音频,文本20240518-业界动态-szhfh.com

OpenAI发布新模型GPT-4o，平均响应时间为320毫秒，“几乎接近人类交谈”,语音,音频,文本

2024-05-18 01:14:16

OpenAI发布新模型GPT-4o，平均响应时间为320毫秒，“几乎接近人类交谈”,语音,音频,文本

【环球时报特约记者(zhe) 谢昭环球时报记者(zhe) 刘扬(yang)】美国人工智能公司(si)OpenAI于14日凌晨(chen)正式推出新一代人工智能（AI）模型(xing)GPT-4o，美国有线电(dian)视新闻网(wang)（CNN）注意到，它的最突出特点是在与人的交互方面更为自(zi)然。

根据OpenAI发布的新闻稿(gao)，GPT-4o的“o”代表“omni”，即“全(quan)能”之意。它可以(yi)在最快232毫秒的时间内响应(ying)音频输入，平均响应(ying)时间为320毫秒，几乎(hu)接近人类在交谈中(zhong)的响应(ying)时间。

在发布会的演示环节，GPT-4o展示了它与众不同的互动能力。它能用一种非常自(zi)然的语调与人交流。在根据工作人员(yuan)要求讲故事时，工作人员(yuan)可以(yi)随时插话打断并提出新要求，GPT-4o能几乎(hu)毫无(wu)停顿(dun)地接上话题并按照要求变化音色、语调、情感等。GPT-4o可以(yi)检测用户的情绪，并以(yi)类似(si)人类或机(ji)器人的语调与用户交谈。OpenAI表示，此前的AI语音模式由不同的独立模型(xing)组成，分别负责将音频转换为文本，接收文本并输出文本，再将文本转换回音频。在这些环节中(zhong)会丢失大量信息，因(yin)此无(wu)法识别音调、多个说话者(zhe)或背景噪音，也无(wu)法输出表达情感的语音。而GPT-4o支持文本、音频和图像的任意组合输入，并能够生成文本、音频和图像的任意组合输出，这意味着它能够结合视频和音频感受对(dui)话者(zhe)的情绪，并给出充满人类情感的反馈。在对(dui)话中(zhong)发现工作人员(yuan)的深呼吸(xi)时，GPT-4o鼓励说“冷静下来”。CNN称，GPT-4o的语音令人想起美国科幻(huan)电(dian)影《她》中(zhong)的AI。GPT-4o还展示了解读代码(ma)、分析图表等各种能力。

不过，GPT-4o在演示过程中(zhong)也出现一些失误。英国广播公司(si)（BBC）称，这表明生成式AI的“幻(huan)觉”问(wen)题仍未得到解决，距离(li)解决聊天机(ji)器人不可靠的问(wen)题还有很长的路要走。

清华大学新闻学院新媒体研究中(zhong)心主任、跨学科知名学者(zhe)沈阳教授14日对(dui)《环球时报》记者(zhe)表示，GPT-4o把多模态融合能力发挥得比(bi)较好，无(wu)论是识别还是语音的精(jing)细化改造方面。此前的各种大模型(xing)的语音做得也不错(cuo)，但多少还能听出一点AI的声音，现在经过进一步升级，GPT-4o具有很强的情感感染力，让人很难分辨出来了。

沈阳表示，此前GPT主要还是模拟意识，如今(jin)有向模拟生命转化的趋势，可以(yi)把GPT-4o看作是向“灵魂伴侣”方向发展。由于大模型(xing)对(dui)语音助手的加持，它会变成日常高频交流的“朋友(you)”，如果这种趋势持续下去，显(xian)然人们大量的使用时间将会消耗在跟语音助手的聊天当中(zhong)，因(yin)为我们面对(dui)的将是一个权(quan)威全(quan)知的AI助手。这可能会导致人与人的关系在一定(ding)程度上解耦。也就是说人类朋友(you)的数(shu)量可能随着跟AI聊天的时间增加而减(jian)少，这可能会带(dai)来一个非常重大的社会影响。此外，GPT-4o提升了视觉与语音能力，跟硬件的结合也会比(bi)较好。所以(yi)未来它可以(yi)更加广泛地应(ying)用到汽(qi)车、智能硬件等设备之中(zhong)。

发布于：北(bei)京市

版权号:18172771662813

以上就是本篇文章的全部内容了，欢迎阅览！
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页移动站 , 查看更多