昨日,OpenAI发布可实时进行音频、视觉和文本推理的新一代AI模型GPT-4o引发广泛关注。今日,360集团创始人、董事长周鸿祎发表视频分享了自己对于GPT-4o技术原理的理解和潜在的社会影响。
在谈及GPT-4o的技术原理时,周鸿祎指出,据OpenAI发布会上简短的技术原理介绍,区别于传统将把语音先翻译成文字处理后再翻译成语音的做法,这次的技术是直接把语音进行了处理,形成了一个整合的大模型引擎,实现对语音输入的直接理解——包括把语音中饱含的情绪、感情、语调、口音这些细节都进行了理解,同时是直接输出语音。
“这就带来了一个全新的体验,就是时延大概只有300毫秒左右,达到了人类和人类谈话的响应速度,这样不仅能听得懂你话里的情绪,在输出回答的时候也可以伴随着高兴、悲伤、失望、兴奋或者是更复杂的感情。”周鸿祎表示。
周鸿祎还指出,除了语音处理层面带来的惊艳之外,有一个容易被忽视的地方是,实际上GPT-4o的还可以直接打开手机摄像头,直接通过手机摄像头赋予它更强大的眼睛的能力。这个可能还比不上Sora,但是它比GPT-4.5的版本可以输入图片输入表格的能力又提升了一步。“所以总结来讲就是,GPT-4.0相当于给人工智能赋予了对知识理解的能力,相当于有了一个大脑,然后GPT-4.5相当于给了一些初级的看见的能力,而GPT-4o实际上是给它增加了真正能看懂这个世界的眼睛,和能听明白人说话的耳朵,而且嘴巴还能够自由自在地表达自己情绪和情感的能力。”。
在周鸿祎看来,有些人会对此次发布OpeanAI没有推出GPT-5.0觉得比较失望,但是通向通用人工智能不仅是要在超级的推理能力、知识能力、逻辑能力上要赶超人类,更重要的能力还包括跟人交互的能力。所以,当AI能通过无论是手机摄像头还是无处不在的物联网摄像头更看明白这个世界,而且能以跟人一样的响应速度进行交互的时候,这件事就变得非常可怕了,“也就是它就让人工智能真正的更像人了”。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。