北京时间周二(5月14日)凌晨,全球人工智能的执牛耳者OpenAI公司在线上举办了“春季更新”活动。
本次活动中,OpenAI发布了新旗舰模型 GPT-4o,可以实时对音频、视觉和文本进行推理。 据悉,新模型使ChatGPT能够处理50种不同的语言,同时提高了速度和质量。
在此前,用户使用语音模式与ChatGPT对话时,平均延迟达到数秒钟,音频在输入时还会由于处理方式丢失大量信息,让GPT-4无法直接观察音调、说话的人和背景噪音,也无法输出笑声、歌唱声和表达情感。
而最新的GPT-4o延迟很低,与人类在对话中的反应时间相近,讲述故事宛如真人。 与现有模型相比,其在图像和音频处理方面很出色,甚至可以从急促的喘气声中理解「紧张」的含义,并且指导对方进行深呼吸等等。
可以说,GPT-4o使得AI表达有了“感情”,是迈向更自然人机交互的关键一步。 OpenAI首席执行官奥特曼表示,GPT-4o的语音功能让人想起了电影《她》,“感觉就像是电影中的人工智能,我仍然对其感到惊讶。”
目前,GPT-4o已对所有用户免费开放,付费订阅的ChatGPT Plus用户的消息数量上限是免费用户的5倍。
OpenAI的首席技术官Mira Murati表示,未来做产品要免费优先,让更多的人使用。 业内人士称,技术迭代优化和费用下降将加速大模型走向行业应用。
不过也有观点认为,OpenAI之所以“祭出”一些免费功能,在于行业的竞争异常激烈。 无论OpenAI做出怎样的创新,在Meta,谷歌,亚马逊,xAi等强敌环伺的背景下,都容易被模仿甚至被赶超。 此次发布会,也宣告新一轮技术战和价格战的开始,其他科技巨头也将在未来一个月内公布AI最新进展。
值得一提的是,目前AI技术的快速发展也引起一些担忧。 围绕版权问题的争议持续困扰着AI企业,许多创作者也担心,AI大模型的训练涉及侵权问题。
此外,当地时间5月14日,在瑞士日内瓦举行中美人工智能(AI)政府间对话首次会议,就AI科技风险、全球治理等问题进行交流。