• 时事热点 | OpenAI多模态新进展:DALL-E3时隔一年半更新,再次颠覆艺术界
  • 楼主: 摩天居士 |查看: 2375|回复: 2
摩天居士 发表于 2023-12-30 20:08:03

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
OpenAI 宣布企生成式AI艺术平台DALL-E的第三个版本——DALL-E 3已经进入研究预览阶段,并将于10月通过API提供给ChatGPT Plus的用户和企业客户。

一、改变人机交互方式,AI作画更简单

DAll-E 3最大的意义在于,它改变了人与AI交互的方式。你只需要向ChatGPT提问,告诉它你想看到什么,ChatGPT就会根据你的需求,生成为Dall-E 3定制的详细提示。这降低了复杂提示语对使用AI进行艺术创作的高门槛,不仅对 Dall-E 来说是向前迈出的一大步,对整个生成人工智能艺术来说也是如此。OpenAI 表示,“与ChatGPT的这种联系让更多的人能够创作人工智能艺术,因为他们不必非常擅长提出提示。”

Dall-E3更像是把ChatGPT作为人类的一个助手,人类和ChatGPT沟通、并和ChatGPT一起头脑风暴,ChatGPT把人类的想法翻译成更能让Dall-E 3理解的”提示语“,最终让人类的想法能得到AI更精确的实现。

Dall-E3 还允许用户通过 ChatGPT 完善创作,就好像他们要求真正的艺术家进行更改一样。“你真的不必担心很长的提示,”首席研究员兼 Dall-E 团队负责人 Aditya Ramesh 说。“相反,您可以与 ChatGPT 进行交互,就像与同事交谈一样。”

OpenAI Twitter的官网上还发布了演示视频,详细展示如何操作:

首先,在ChatGPT的界面上输入提示词,之后ChatGPT会返回四张生成的图片。就如Aditya Ramesh 所说,如果你不满意,还可以让ChatGPT进行修改。

二、让图文生成言出法随,细节绘制效果炸裂

除了提示词非常复杂之外,对于经常使用 Stable Diffusion 或 Midjourney 的AI画师来讲,很多时候提示就像炼丹,模型生成的画面总有和你的提示对不上的地方。这在很大程度上反映出文字生成图像AI对于文字与图像之间对应关系存在着理解误差,会倾向于忽略单词或描述。在这方面,从Dalle 2开始就采用Clip技术建立了图像到文字映射编码的OpenAI做出了新的突破:言说即所得。你进行提示的自然语言中的所有细节都和生成内容能够一一对应。

在OpenAI给出的展示中,你可以看到提示词中所有的细节都被精准地被还原了出来。

OpenAI多模态新进展:DALL-E3时隔一年半更新,再次颠覆艺术界-1.jpeg

但在OpenAI给出的示例图中,其实我们也看到了一些缺乏对应细节的情况:比如这张宝藏沉船图里压根儿就没有宝藏。

OpenAI多模态新进展:DALL-E3时隔一年半更新,再次颠覆艺术界-2.jpeg

除了简化“提示工程”,让人和机器的对话门槛更低,DALL·E 3还可以准确地表示具有特定对象和它们之间关系的场景。在生成图像中的文本以及手部等人体细节方面,DALL·E 3相比DALL·E 2有显著的改进。

在同样提示词下,Dalle-2和Dalle-3的细节表现明显。

OpenAI多模态新进展:DALL-E3时隔一年半更新,再次颠覆艺术界-3.jpeg

以下这张图像由 Dall-E 3 渲染,Dall-E 3 首先根据以下提示生成了这张图像:“一幅由半透明玻璃制成的人类心脏的插图,站在波涛汹涌的大海中的基座上。阳光穿透云层,照亮心灵,露出里面的小宇宙”。“找到你内心的宇宙”这句话被用粗体字母蚀刻在地平线上。”我们可以清晰地看到这张图像透明的质感,以及清晰的文字。

AI 艺术由 OpenAI 提供

OpenAI多模态新进展:DALL-E3时隔一年半更新,再次颠覆艺术界-4.jpeg

三、版权争议仍在,OpenAI回应

关于争议最大的版权问题,该公司的政策研究员Sandhini Agarwal表示,她对其安全措施“非常有信心”,但OpenAI在官网澄清说,”该模式不断改进,并不完美“。OpenAI的代表在一封电子邮件中表示,DALL-E 3已经接受了拒绝”以在世艺术家的风格“生成图像的训练。不同于DALL-E 2,当提示时,DALL-E 2还可以模仿某些在世艺术家的风格。

为了避免诉讼,OpenAI还将允许艺术家从未来版本的文本到图像AI模型中选择自己的艺术。创作者可以在其网站上提交一张他们拥有权利的图片,并以表格形式要求删除。DALL-E的未来版本可以阻止看起来与艺术家的图像和风格相似的结果。艺术家起诉DALL-E的竞争对手Stability AI和Midtravel,以及艺术网站DeviantArt,指控他们使用受版权保护的作品训练文本到图像模型。

OpenAI多模态新进展:DALL-E3时隔一年半更新,再次颠覆艺术界-5.jpeg
图为 Reddit上关于DALL-E版权问题的讨论

OpenAI多模态新进展:DALL-E3时隔一年半更新,再次颠覆艺术界-6.jpeg

四、外界可能再也看不到DALL-E3的技术细节了

Dall-E 是皮克斯角色 Wall-E 和艺术家萨尔瓦多·达利 (Salvador Dalí) 的合成词,OpenAI于 2021 年对外界宣布了DALL-E 。DALL-E可以将自然语言形式表达的大量概念转换为恰当图像。

DALL-E根据提示语生成的图片(来源于OpenAI 官网)

2022年4月,DALL-E2发布,根据OpenAI的官网介绍,DALL-E2在对提示语反应的准确度,及照片的真实度上,都有大幅提升。并同时公开了关于DALL-E2的论文《Hierarchical Text-Conditional Image Generation with CLIP Latents》,在其中OpenAI的底层技术Clip编码和GLIDE优化扩散模型的细节都得到了完整的披露。

很遗憾的是,时隔一年半,DALL-E3终于要面世,然而我们还未在官网上找到OpenAI公布的任何技术细节,而且很有可能不会再被公开。

不管怎样,DALL-E3的推出,及其与ChatGPT的集成,让外界继续看到了OpenAI在多模态的进展中迈出一步。就在两周前,据外媒报道,OpenAI的全新多模态模型Gobi似乎已经在筹备中,而OpenAI并未做出任何正面回应。就在上周,谷歌已经对一些公司开放了多模态大模型Gemini的功能。两个巨头的多模态对决一触即发。

OpenAI多模态新进展:DALL-E3时隔一年半更新,再次颠覆艺术界-7.jpeg

来源搜狐号:科技创意说





上一篇:划重点!中央外事工作会议要点梳理
下一篇:碾压!ChatGPT-4绘画功能DALL·E 3全面正式开放!智商爆表,10秒做4张图
本帖点赞记录
点赞给态度,登录/立即注册 就能点赞
梵山 2024-1-4 12:24 +1
谢德海 2024-1-1 23:06 +1
稻香三味 2024-1-1 08:54 +1
南之 2023-12-31 08:30 +1
馮志兵 2023-12-31 06:55 +1
今夜.启明星 2023-12-30 22:38 +1
混沌鸿濛 2023-12-30 21:47 +1
徐守海 2023-12-30 21:35 +1
长青松 2023-12-30 20:58 +1
三人禾 2023-12-30 20:45 +1
王纯丁 2023-12-30 20:20 +1
谁来看过此贴
此贴被TA们浏览了2375次
+1
2377°C
2
  • 摩天居士
  • 摩天居士
过: 他们
楼主热帖
只言片语也是一种鼓励
返回板块
回帖列表

主题

好友

13万

积分
发表于 2023-12-30 21:01:34 来自手机 |显示全部楼层
不少会员为作品找不到合适插图而烦恼,目前诗国AI智能机器人已升级自动生图功能,欢迎加入vip体验(生成的所有AI图片支持商用):https://app.qingfe.com/mag/user/v1/member/home

主题

好友

13万

积分
发表于 2023-12-30 21:10:27 来自手机 |显示全部楼层
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

×本站发帖友情提示
1、注册用户在本社区发表、转载的任何作品仅代表其个人观点,不代表本社区认同其观点。
2、如果存在违反国家相关法律、法规、条例的行为,我们有权在不经作者准许的情况下删除其在本论坛所发表的文章。
3、所有网友不要盗用有明确版权要求的作品,转贴请注明来源,否则文责自负。
4、本社区保护注册用户个人资料,但是在自身原因导致个人资料泄露、丢失、被盗或篡改,本论坛概不负责,也不承担相应法律责任。

 

AI智能问答
发布主题 上个主题 下个主题 快速回复 收藏帖子 返回列表
返回顶部