• 学习天地 | OpenAI正式发布o3:通往AGI的路上,已经没有了任何阻碍
  • 楼主: 摩天居士 |查看: 4247|回复: 4
摩天居士 发表于 2024-12-21 15:22:34

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
今天凌晨2点,OpenAI的12天直播,终于来到了最终章。

奥特曼,也在一片圣诞的气息中终于回归。为大家带来了最后的压轴大戏。

OpenAI o3

IMG_2336.png

又一次超群,又一次把模型的能力,推到了新的高度。

也向全世界证明了,OpenAI,依然在铁王座上牢不可摧。

我也想起了OpenAI研究员在发布o1之前的那句话:

“我们通往AGI的路上,已经没有任何阻碍了”

之所以OpenAI直接发布o3没有o2,原因也挺简单的。

因为跟英国电信服务提供商O2可能存在版权或商标冲突,所以直接跳过了。。。


直接到o3。

而OpenAI直播一完,X上基本就沸腾了。o3的能力,对现在所有模型,几乎都直接是降维打击。

看下o3的能力吧。


一些粗的评测集简单过一下。


IMG_2337.png
IMG_2338.png

左边的是软件工程考试(SWE-Bench Verified),这就像是一个考写程序的考试,比如你写一个软件要它快速、准确,还不能有 bug(小错误)。这是考察 o3 是否能像一流的软件工程师一样写出完美的代码。

o3 的成绩:71.7%,比o1还强了不少。

右边的那个基准比较猛,Codeforces,一个全球著名的编码竞赛平台。

o3的得分是2727,这个得分,相当于整个榜单的第175名,已经超越了99.99%的人类了。

IMG_2340.jpeg

o1的代码能力已经强到爆炸了,而o3,又向AGI的山顶,前进了一大步。

IMG_2339.png

数学竞赛AIEM 2024和博士级科学考试GPQA Diamond。AIEM 2024接近满分,如果我没记错的话,这应该也是第一次AI能达到有AIEM接近满分的水平。


博士级科学考试有进化,但没数学和编程进化的这么猛。


接下来的这个数学基准比较有趣一点。

IMG_2341.png

FrontierMath,Epoch AI 开发的一个数学基准测试,由60多位顶尖数学家的合作开发,旨在评估人工智能在高级数学推理方面的能力。

而且为了避免数据污染,所有的题目都是原创的且从来没有发布过的新题目。

之前GPT-4 和 Gemini 1.5 Pro这种模型去评估的时候,成功功率不足2%,与其他传统数学基准(如 GSM-8K 和 MATH)中超过90%的成功率形成鲜明对比。

而这一次,o3直接达到了25.2。

当各大其他模型都还在卷传统数学基准的时候,o3真的已经进入了另一个世界了。。。

就像大家还在大斗师阶段互相卷,你是五星大斗师,我是八星大斗师。


两者争论不休,正准备要比试比试,忽然就看到一个斗宗强者踏空而行,留下一地的卧槽。

这还比个鬼。

然后,就是我觉得,整个基准里,最有趣的一个基准了:

ARC-AGI。

先说说这是个啥玩意。

ARC-AGI于2019年首次提出,旨在通过一系列抽象和推理任务来测试AI系统的能力。


主要是因为传统的技能测量方法并不能有效代表智能,因为它们往往依赖于先前知识和经验,而真正的智能应体现在广泛的适应能力和通用性上。

所以,ARC-AGI诞生了,里面的这些任务要求AI识别模式并解决新问题,每个任务由输入输出示例组成。这些任务以网格形式呈现,每个方块可以是十种颜色中的一种,网格的大小可以从1x1到30x30不等。参与者需要根据给定的输入生成正确的输出,测试其推理和抽象能力。

可以简单的理解成,找规律。

大概就是这样的。

IMG_2342.png
IMG_2343.jpeg

非常的难且抽象。过去几代模型的评分在此:

* GPT-2 (2019): 0%

* GPT-3 (2020): 0%
* GPT-4 (2023): 2%
* GPT-4o (2024): 5%
* o1-preview (2024): 21%
* o1 (2024): 32%
* o1 Pro (2024): ~50%

但是今天,o3的分数,达到了恐怖的87.5%。

OpenAI正式发布o3:通往AGI的路上,已经没有了任何阻碍-1.jpg


从0%到5%,整整花了5年的时间,而如今,从5%到87.5%,仅仅只花了半年。

而对应的,人类的阈值分数,是85%。

我们通往AGI的路上,已经没有任何阻碍了。不过o3强归强,但是又是一个期货,OpenAI目前只对红队开放,如果是巨佬的话,可以去申请试试。

OpenAI正式发布o3:通往AGI的路上,已经没有了任何阻碍-2.jpg


网址在此:https://openai.com/index/early-access-for-safety-testing/

目前不知道o3什么时候放出,但是OpenAI又基于o3,训了3个小尺寸的o3模型。

OpenAI正式发布o3:通往AGI的路上,已经没有了任何阻碍-3.jpg

目前o3-mimi,预估在1月底可以对外开放,但是感觉到时候,肯定又是pro会员专属的模型了。

我越来越期待,2025年AI行业的进化了。

推理模型、Agent、AI硬件、世界模型。


每一个都是比这个中间态的2024,都更让人兴奋的东西。

2025,必是AI行业,真正的星辰大海。


我们也在最后,回顾一下这12天的直播吧。


Day 1:满血o1上线,ChatGPT Pro会员上线,o1 pro推出。


OpenAI正式发布o3:通往AGI的路上,已经没有了任何阻碍-4.jpg

Day 2:基于o1的强化微调。

Day 3:Sora正式发布。

OpenAI正式发布o3:通往AGI的路上,已经没有了任何阻碍-5.jpg


Day 4:ChatGPT Canvas全员开放以及小功能更新。Day 5:给苹果站台,宣传苹果全系接入GPT。Day 6:4o的实时视频理解上线。

OpenAI正式发布o3:通往AGI的路上,已经没有了任何阻碍-6.jpg

Day 7:ChatGPT发布新建文件夹“项目”功能。

OpenAI正式发布o3:通往AGI的路上,已经没有了任何阻碍-7.jpg

Day 8:ChatGPT Search全量开放,搜索体验大幅优化。

Day 9:发布了o1的API、更新了实时语音的API、发布了偏好微调能力(PFT)。

Day 10:物理意义上的可以给ChatGPT打电话了。

OpenAI正式发布o3:通往AGI的路上,已经没有了任何阻碍-8.jpg


Day 11:炒冷饭,ChatGPT 桌面版能读到别的应用。Day 12:OpenAI o3正式发布。

OpenAI正式发布o3:通往AGI的路上,已经没有了任何阻碍-9.jpg

这12天,稍微有点惊喜的日子大概只有2、3天,其他都是垃圾时间。

还好,今天的大货,补上了之前的阴霾。

最后,还是忍不住感叹一声。


这12天,像一场漫长的马拉松。

我们经历了深夜中数不胜数的垃圾时间。

却也迎来了最后的高光时刻。

这感觉。

还挺AI的。


作者:卡兹克

来源微信公众号:数字生命卡兹克




上一篇:Suno AI音乐生成V4发布:重磅升级,音乐创作迈入新纪元
下一篇:“考古中国”进展更新!夏文化探索有重大突破
本帖点赞记录
点赞给态度,登录/立即注册 就能点赞
村上樵夫 2025-1-17 17:48 +1
仙娇游 2025-1-1 21:22 +1
潇潇湘雨 2024-12-25 09:44 +1
宛陵风 2024-12-24 08:30 +1
淮左凡客 2024-12-23 08:46 +1
梨花微雨!! 2024-12-22 00:55 +1
心远 2024-12-22 00:34 +1
~王泽晋~翡翠 2024-12-21 23:35 +1
心诺 2024-12-21 21:24 +1
吕仁龚 2024-12-21 20:18 +1
刘小元 2024-12-21 19:13 +1
雨虹 2024-12-21 18:26 +1
东方.启明星 2024-12-21 17:09 +1
观自在/可大 2024-12-21 16:57 +1
谁来看过此贴
此贴被TA们浏览了4247次
+1
4251°C
4
  • 何文富
  • 雨虹
  • 潇潇湘雨
  • 村上樵夫
过: 他们
楼主热帖
只言片语也是一种鼓励
返回板块
回帖列表

主题

好友

2万

积分
发表于 2024-12-21 16:06:48 来自手机 |显示全部楼层
点赞好诗佳作拜读了

主题

好友

1055

积分
发表于 2024-12-21 18:29:16 来自手机 |显示全部楼层
我想,如果Al能当裁判,能断优劣,那就比较公正了。
发表于 2024-12-25 09:44:24 来自手机 |显示全部楼层
头像被屏蔽

主题

好友

8446

积分
发表于 2025-1-17 17:51:14 来自手机 |显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

×本站发帖友情提示
1、注册用户在本社区发表、转载的任何作品仅代表其个人观点,不代表本社区认同其观点。
2、如果存在违反国家相关法律、法规、条例的行为,我们有权在不经作者准许的情况下删除其在本论坛所发表的文章。
3、所有网友不要盗用有明确版权要求的作品,转贴请注明来源,否则文责自负。
4、本社区保护注册用户个人资料,但是在自身原因导致个人资料泄露、丢失、被盗或篡改,本论坛概不负责,也不承担相应法律责任。

 

AI智能问答
发布主题 上个主题 下个主题 快速回复 收藏帖子 返回列表
返回顶部