首页
BBS
导读
Guide
最新
精华
诗国学堂
诗国APP
AI问答
AI生图
AI音乐
统计
AI文库
AI聊天
登录
|
立即注册
快速登录:
清风文学
窗口
公告(必看)
活动
原创区
古典诗词
现代诗歌
楹联书画
遗珠阁
学习区
热门话题
诗书欣赏
诗人故事
诗歌讲义
站务区
管理圆桌
站务
最新回复
最新精华
搜索
本版
帖子
用户
学习天地
| OpenAI正式发布o3:通往AGI的路上,已经没有了任何阻碍
楼主:
摩天居士
|
查看: 4247
|
回复: 4
清风文学
›
学习区
›
学习天地
›
OpenAI正式发布o3:通往AGI的路上,已经没有了任何阻碍 ...
OpenAI正式发布o3:通往AGI的路上,已经没有了任何阻碍
[复制链接]
摩天居士
当前离线
|
加好友
|
打招呼
|
发消息
摩天居士
学习号
主题
好友
11万
积分
摩天居士
发表于 2024-12-21 15:22:34
显示全部楼层
|
查看:4247
|
回复:4
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
今天凌晨2点,OpenAI的12天直播,终于来到了最终章。
奥特曼,也在一片圣诞的气息中终于回归。
为大家带来了最后的压轴大戏。
OpenAI o3
。
又一次超群,又一次把模型的能力,推到了新的高度。
也向全世界证明了,OpenAI,依然在铁王座上牢不可摧。
我也想起了OpenAI研究员在发布o1之前的那句话:
“我们通往AGI的路上,已经没有任何阻碍了”
之所以OpenAI直接发布o3没有o2,原因也挺简单的。
因为跟英国电信服务提供商O2可能存在版权或商标冲突,所以直接跳过了。。。
直接到o3。
而OpenAI直播一完,X上基本就沸腾了。o3的能力,对现在所有模型,几乎都直接是降维打击。
看下o3的能力吧。
一些粗的评测集简单过一下。
左边的是软件工程考试(SWE-Bench Verified),这就像是一个考写程序的考试,比如你写一个软件要它快速、准确,还不能有 bug(小错误)。这是考察 o3 是否能像一流的软件工程师一样写出完美的代码。
o3 的成绩:71.7%,比o1还强了不少。
右边的那个基准比较猛,Codeforces,一个全球著名的编码竞赛平台。
o3的得分是2727,这个得分,相当于整个榜单的第175名,已经超越了99.99%的人类了。
o1的代码能力已经强到爆炸了,而o3,又向AGI的山顶,前进了一大步。
数学竞赛AIEM 2024和博士级科学考试GPQA Diamond。AIEM 2024接近满分,如果我没记错的话,这应该也是第一次AI能达到有AIEM接近满分的水平。
博士级科学考试有进化,但没数学和编程进化的这么猛。
接下来的这个数学基准比较有趣一点。
FrontierMath,Epoch AI 开发的一个数学基准测试,由60多位顶尖数学家的合作
开发,旨在评估人工智能在高级数学推理方面的能力。
而且为了避免数据污染,所有的题目都是原创的且从来没有发布过的新题目。
之前GPT-4 和 Gemini 1.5 Pro这种模型去评估的时候,成功功率不足2%,与其他传统数学基准(如 GSM-8K 和 MATH)中超过90%的成功率形成鲜明对比。
而这一次,o3直接达到了25.2。
当各大其他模型都还在卷传统数学基准的时候,o3真的已经进入了另一个世界了。。。
就像大家还在大斗师阶段互相卷,你是五星大斗师,我是八星大斗师。
两者争论不休,正准备要比试比试,忽然就看到一个斗宗强者踏空而行,留下一地的卧槽。
这还比个鬼。
然后,就是我觉得,整个基准里,最有趣的一个基准了:
ARC-AGI。
先说说这是个啥玩意。
ARC-AGI于2019年首次提出,旨在通过一系列抽象和推理任务来测试AI系统的能力。
主要是因为传统的技能测量方法并不能有效代表智能,因为它们往往依赖于先前知识和经验,而真正的智能应体现在广泛的适应能力和通用性上。
所以,ARC-AGI诞生了,里面的这些任务要求AI识别模式并解决新问题,每个任务由输入输出示例组成。这些任务以网格形式呈现,每个方块可以是十种颜色中的一种,网格的大小可以从1x1到30x30不等。参与者需要根据给定的输入生成正确的输出,测试其推理和抽象能力。
可以简单的理解成,找规律。
大概就是这样的。
非常的难且抽象。过去几代模型的评分在此:
* GPT-2 (2019): 0%
* GPT-3 (2020): 0%
* GPT-4 (2023): 2%
* GPT-4o (2024): 5%
* o1-preview (2024): 21%
* o1 (2024): 32%
* o1 Pro (2024): ~50%
但是今天,o3的分数,达到了恐怖的87.5%。
从0%到5%,整整花了5年的时间,而如今,从5%到87.5%,仅仅只花了半年。
而对应的,人类的阈值分数,是85%。
我们通往AGI的路上,已经没有任何阻碍了。不过o3强归强,但是又是一个期货,OpenAI目前只对红队开放,如果是巨佬的话,可以去申请试试。
网址在此:
https://openai.com/index/early-access-for-safety-testing/
目前不知道o3什么时候放出,但是OpenAI又基于o3,训了3个小尺寸的o3模型。
目前o3-mimi,预估在1月底可以对外开放,但是感觉到时候,肯定又是pro会员专属的模型了。
我越来越期待,2025年AI行业的进化了。
推理模型、Agent、AI硬件、世界模型。
每一个都是比这个中间态的2024,都更让人兴奋的东西。
2025,必是AI行业,真正的星辰大海。
我们也在最后,回顾一下这12天的直播吧。
Day 1:满血o1上线,ChatGPT Pro会员上线,o1 pro推出。
Day 2:基于o1的强化微调。
Day 3:Sora正式发布。
Day 4:ChatGPT Canvas全员开放以及小功能更新。Day 5:给苹果站台,宣传苹果全系接入GPT。Day 6:4o的实时视频理解上线。
Day 7:ChatGPT发布新建文件夹“项目”功能。
Day 8:ChatGPT Search全量开放,搜索体验大幅优化。
Day 9:发布了o1的API、更新了实时语音的API、发布了偏好微调能力(PFT)。
Day 10:物理意义上的可以给ChatGPT打电话了。
Day 11:炒冷饭,ChatGPT 桌面版能读到别的应用。Day 12:OpenAI o3正式发布。
这12天,稍微有点惊喜的日子大概只有2、3天,其他都是垃圾时间。
还好,今天的大货,补上了之前的阴霾。
最后,还是忍不住感叹一声。
这12天,像一场漫长的马拉松。
我们经历了深夜中数不胜数的垃圾时间。
却也迎来了最后的高光时刻。
这感觉。
还挺AI的。
作者:卡兹克
来源微信公众号:
数字生命卡兹克
上一篇:
Suno AI音乐生成V4发布:重磅升级,音乐创作迈入新纪元
下一篇:
“考古中国”进展更新!夏文化探索有重大突破
本帖点赞记录
点赞给态度,
登录
/
立即注册
就能点赞
村上樵夫
2025-1-17 17:48
+1
仙娇游
2025-1-1 21:22
+1
潇潇湘雨
2024-12-25 09:44
+1
宛陵风
2024-12-24 08:30
+1
淮左凡客
2024-12-23 08:46
+1
梨花微雨!!
2024-12-22 00:55
+1
心远
2024-12-22 00:34
+1
~王泽晋~翡翠
2024-12-21 23:35
+1
心诺
2024-12-21 21:24
+1
吕仁龚
2024-12-21 20:18
+1
刘小元
2024-12-21 19:13
+1
雨虹
2024-12-21 18:26
+1
东方.启明星
2024-12-21 17:09
+1
观自在/可大
2024-12-21 16:57
+1
谁来看过此贴
此贴被TA们浏览了4247次
风清扬
摩天居士
+1
4251°C
4
人
等
过:
他们
楼主热帖
下载论坛手机客户端,随时随地发表查看作品!
精华作品,尽在诗歌中国!
中小学英语教材吹起了中国风,文化自信悄然生长
[
学习天地
]
明明举报诗词大会决赛问题,得到的回复却是工程欠款问题
[
学习天地
]
AI生成假“神医” 手指穿帮的“非遗传承人”是如何为产品代言的?
[
学习天地
]
已入会的作家发声,严厉批评中国作协出台的入会新规太扯淡,太傲慢了!
[
学习天地
]
最高检知识产权检察厅正式挂牌成立
[
学习天地
]
他们没成为有钱人,却找到了生命里的“一颗糖”
[
学习天地
]
对话当事人 | “沂蒙二姐”:AI不了解我的生活,写不了“土味诗歌”
[
学习天地
]
在云南学扎染、在广西制香囊 清明不只踏青还可以解锁非遗新玩法
[
学习天地
]
文化中国行丨AI带你看古人过清明有多讲究
[
学习天地
]
疑似代笔,福建妇女书法篆刻作品展两位作者被取消获奖资格
[
学习天地
]
习近平:书香是一种氛围
[
学习天地
]
为什么近日西方一反常态,开始着急还文物?
[
学习天地
]
【强烈推荐】>>点击下载平台手机客户端——诗歌中国app<<
【强烈推荐】
举报
只言片语也是一种鼓励
返回板块
回帖列表
何文富
当前离线
加好友
打招呼
发消息
何文富
银牌会员
主题
好友
2万
积分
发消息
银牌会员, 积分 24730, 距离下一级还需 23270 积分
发表于 2024-12-21 16:06:48
来自手机
|
显示全部楼层
点赞好诗佳作拜读了
来自安卓APP客户端
【强烈推荐】>>点击下载平台手机客户端——诗歌中国app<<
【强烈推荐】
举报
雨虹
当前离线
加好友
打招呼
发消息
雨虹
VIP-现代初免
主题
好友
1055
积分
发消息
发表于 2024-12-21 18:29:16
来自手机
|
显示全部楼层
我想,如果Al能当裁判,能断优劣,那就比较公正了。
来自安卓APP客户端
【强烈推荐】>>点击下载平台手机客户端——诗歌中国app<<
【强烈推荐】
举报
潇潇湘雨
当前离线
加好友
打招呼
发消息
潇潇湘雨
古/现免审(初阶)
主题
好友
1万
积分
发消息
发表于 2024-12-25 09:44:24
来自手机
|
显示全部楼层
来自安卓APP客户端
【强烈推荐】>>点击下载平台手机客户端——诗歌中国app<<
【强烈推荐】
举报
村上樵夫
当前离线
加好友
打招呼
发消息
头像被屏蔽
村上樵夫
禁止发言
主题
好友
8446
积分
发消息
发表于 2025-1-17 17:51:14
来自手机
|
显示全部楼层
提示:
作者被禁止或删除 内容自动屏蔽
【强烈推荐】>>点击下载平台手机客户端——诗歌中国app<<
【强烈推荐】
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
×
本站发帖友情提示
1、注册用户在本社区发表、转载的任何作品仅代表其个人观点,不代表本社区认同其观点。
2、如果存在违反国家相关法律、法规、条例的行为,我们有权在不经作者准许的情况下删除其在本论坛所发表的文章。
3、所有网友不要盗用有明确版权要求的作品,转贴请注明来源,否则文责自负。
4、本社区保护注册用户个人资料,但是在自身原因导致个人资料泄露、丢失、被盗或篡改,本论坛概不负责,也不承担相应法律责任。
回帖后跳转到最后一页
浏览过的版块
公告(新手必看)
古典诗词
楹联书画
活动广场
新诗/现代诗
诗书鉴赏
AI智能问答
返回顶部
发布主题
上个主题
下个主题
快速回复
收藏帖子
返回列表
关注微信
微信扫一扫关注本站公众号
个人中心
个人中心
登录或注册
关于我们
|
联系我们
|
隐私保护
|
版权声明
|
签到统计
|
申请友链
|
Archiver
|
手机版
|
诗歌中国app
|
RSS订阅
|
Powered by
清风文学
with Discuz! X3.4 |
TingYuXuan
™ FREE template Designed by vr4u, Do NOT for commercial use
Copyright © 2012
清风文学
(
粤ICP备13061499号
)
|
粤公网安备44011502000648号
积分 0, 距离下一级还需 积分
返回顶部