首页 > 公司动态 > 正文

壹沓AI观察:DALL-E——人工智能让“达利”再世

2021-01-18 发布于:公司动态

2021新年伊始,OpenAI又在AI行业投下一枚重磅炸弹,DALL-E系统横空出世,继去年1700亿参数量的GPT-3文本创意能力技惊四座,甚至传出“威胁”码农的生计能自动搭建Html乃至Javascript代码的说法,现在又新增了直接从文本提示“按需创造”风格多样的图形设计之超能力,就已经发布的DEMO图样来看秒杀50%的设计行业打工人应该是没有问题的,而且是质量和速度双重意义上的“秒杀”。


图片1_gaitubao_830x333

(DALL-E系统根据文字““牛油果型的扶手椅”自动创作的部分图像)


那么,DALL-E的诞生会让设计师面临下岗的风险么?


壹沓科技的回答:并不会,而且DALL-E类似系统的发展会大大加速设计师、艺术家的创作过程,帮助专业人士多快好省地交付成果,正如壹沓科技的愿景——AI会将人类从既有的低层次简单劳动中彻底解放出来,让我们的时间可以更多地倾注在真正有创造性和意义的事情中去……


壹沓科技的人工智能团队也正加入Google Bert与OpenAI GPT这样的业界潮流,着力在海量互联网大数据文本挖掘基础上的通用模型研究。同时,在面向软件机器人业务体系的过程中也高度重视大规模领域数据的无监督学习,无论是在新词挖掘,词对发现,还是情感短语评价方面均已取得领先行业的水平;而CV和NLP的模型融合,通过NLP纠正及增强OCR结果也已经在实际业务场景显现出令人印象深刻的效果。在2021年,我们将进一步加大投入,开展前沿研究,通过图像识别对接用户界面操作及内容的分析进行用户意图理解,在流程自动化与文档智能领域开拓出AI技术的一片新天地。



DALL-E究竟是什么?


DALL-E是OpenAI于2021年1月5日最新推出的深度学习算法模型,DALL-E含有120亿参数的神经网络,该神经网络可以直接从简单的提示文字中创建高质量的既符合描述又充满创意的合成图像。OpenAI直言DALL-E 的名字就来源于现代主义艺术家大师萨尔瓦多·达利(Salvador Dalí)(谐音梗玩到飞起),同时词型结构上又明显在向皮克斯(Pixar)动画名片 WALL-E(机器人总动员)致敬。一语双关,“DALL-E”寓意这项工作既能够模仿艺术大师随性创作出极具想象力和奇异风格的作品,同时作为机器学习从业人员,我们仿佛也看到了在此背后,人工智能就像可爱的WALL-E机器人从数以PB计的文山图海的原始数据中不辞辛苦进行计算挖掘,最终堆叠出巨大的模型,而人们则可以选择仰望星空,面对未来。


如图:Dali 代表作记忆的永恒

如图:机器人总动员(WALL-E


在DALL-E发布之前,OpenAI在2020年中已经发布了一个巨大的有着1700亿参数的模型GPT-3,该模型震惊了世界因为它可以产生类似于人类书写出来句子,诗歌,甚至是计算机代码。DALL-E是GPT-3的扩展,DALL-E 是基于transformer 的多模态机器学习模型,通过海量的图库和文本描述的深度神经网络学习,它目前已经可以根据输入的简单文本指示而生成符合语义的图片。DALL-E产生图片的方式与搜索引擎式搜索完全不同,它能够根据输入的文本和图片即时“绘制”出从来未被人类创作过的全新图片。难怪很多饱受甲方凌虐的乙方设计师已经高呼DALL-E简直就是“甲方克星、乙方福音,从此再也不用担心甲方爸爸提需求啦”,专门针对爱提古怪IDEA的甲方老板,直接输入文字分分钟得到一打效果图。


比如输入 a male mannequin dressed in an orange and black flannel shirt and black jeans(一个男模特穿着橙色和黑色的法兰绒衬衫和黑色的牛仔裤),生成的图片如下。


图片4_gaitubao_721x431

DALL-E如果能应用于服装设计行业,设计师可以少死多少脑细胞,压缩不靠谱的方案又能节省下多少布料,减少多少二氧化碳排放啊!


DALL-E还学会了干什么?


DALL-E甚至可以在已有的图片基础上继续按照文字想法开展创作。


图片5_gaitubao_754x469


文字输入: the exact same cat on the top as a sketch on the bottom(与图片顶部的猫完全相同的手绘草图)系统生成的图片


画家、漫画家、艺术家应该能从生成的图片中受到一定启发,帮助他们收集创作灵感。


因为语言的构成本质能够将概念描述连接在一起,以勾画真实和虚构的事物。DALL·E还具有将完全不同的思想结合起来以合成图形对象的能力,哪怕这些形象完全不可能在现实世界中存在。如下图6,DALL·E可以从多种概念合成动物、乐器、食物、家居用品:


图片6_gaitubao_722x431

文字输入:由竖琴制成的带有竖琴纹理的蜗牛


DALL-E的前景看起来非常广阔,每句话在真实世界的含义都可以被可视化成一张张栩栩如生的图片。 同样,真实世界的知识同样也可以被可视化表示出来,DALL-E或许奠定了让机器理解真实世界的基础。



DALL-E是如何进行计算的?


为了能让DALL-E根据文字画图,OpenAI的研究者们用各种“文本-图像”对组合来训练DALL-E。DALL·E以单数据流的形式,一次性接收1280个字符(token),其中256个字符分配给文字,其余的1024个则分配给图像。然后DALL-E将对这些输入信息进行建模,利用自注意力层的注意力遮罩,确保每一个输入的图像字符,都与所有输入的文字字符关联。之后,DALL-E就可以根据文本,通过极大似然估计,逐个字符地生成图像。它不仅从能文字中生成图像,也可以重新生成图像中任何一块矩形区域。到这里,DALL-E就可以根据文本生成图像了,但怎么判别图像的好坏呢?也就是说怎么对这些图像进行评估排名呢?OpenAI引入了之前开发的模型CLIP,CLIP(Contrastive Language-Image Pre-Training)是在各种(图像,文本)对上训练的神经网络。它可以用自然语言指示来预测给定图像的最相关的文本片段,而无需直接针对任务进行优化,类似于GPT-2和GTP-3的zero-shot。CLIP对生成的图片行进排名,就可以看到最匹配的几个结果。


图片8_gaitubao_744x354

"我们发现,CLIP与GPT类似,在前期训练中可以学习执行一系列广泛的任务,包括物体字符识别(OCR)、地理定位、动作识别等。我们通过在超过30个现有数据集上对CLIP的zero-shot转移性能进行基准测试来衡量,发现它可以与之前的特定任务监督模型相媲美。"12位OpenAI合作者关于该模型的论文中写道。



DALL-E 的诞生对AI产业意味着什么?


图文结合的多模态学习大势所趋


OpenAI先后发布了两个重量级模型CLIP(Connecting Text and Images)和 DALL-E,这两个模型体现了深度学习、机器学习领域的一个趋势——多模态融合。越来越多的研究者关注到多模态的研究中,比如文档和语言的结合任务有表单理解、表单识别,代表模型是微软LayoutLM。又比如说视频和语言的结合,相关的任务有视频理解、图文/视频搜索,以及生成文字描述任务中有不错的前景。


研究人员希望这项工作能够激励未来对此类模型的能力、缺点和偏见的表征进行研究,以便加速这一领域的发展。OpenAI首席科学家Ilya Sutskever最近也表示,多模态模型将在2021年成为机器学习的主要趋势。而谷歌AI负责人Jeff Dean也在2020年做出了类似的预测。


无监督学习和自监督学习方兴未艾


NLP(自然语言处理技术) 经历了第一代的基于规则的 NLP;第二代的基于统计的 NLP;五年前进入到基于神经网络的第三代 NLP(NN-NLP),在大数据、大模型、神经网络框架下取得了很好的进展,形成了一整套的技术。而现在更进一步,在海量数据训练的基础上将无监督学习与图像融合的结果,又让我们感到眼前一亮。


当然,面向真正可以落地的人工智能,目前仍然有很多困难标注数据的稀缺和昂贵就是难题之一。CV(计算机视觉)和NLP一样,都面对着标注信息的不足的问题,人工输入的标签已经不能更优指导学习过程,越来越多的基于DL的机器视觉已经到了足以质疑人工标签的程度,这些标签的价值也即将被榨干;因为人工标注永远无法模拟人脑的推理过程,仅能提供一些间接、局部有效的信息。我们知道无标签数据的增长是超线性(甚至指数级)的,但是受到人力成本约束,有标签的训练数据的增长只能是线性的。这也就意味着,随着时间的推移,将来的学习算法必然会面临无标签数据远多于有标签数据的情况。


图灵奖得主深度学习先驱Hilton 也曾经说过: “未来AI系统主要是无监督的;无监督学习可以从未标记、未分类的测试数据中提取知识——在学习共性和对共性是否存在做出反应的能力方面,无监督学习的能力几乎达到人类水平。比如在人类视觉皮层寻找启发:人类的视觉采用一种重建的方法来学习,事实证明,机器视觉系统中的重建技术增强了它们抵抗对抗性攻击的能力。然而,如果你采用一个拥有数十亿参数的系统,对某个目标函数执行随机梯度下降,它的效果会比你想象的好得多,规模越大,效果越好。这让一种说法变得更合理:即大脑计算某些目标函数的梯度,并根据梯度更新神经突触的强度。我们只需要弄清楚它是如何得到梯度的,以及目标函数是什么。”