英伟达再出黑魔法 GauGAN：凭借几根线条，草图秒变风景 ..._ZNDS问答

巴顿_甲骨文

【新智元导读】英伟达再推黑科技 GauGAN，这款图像生成软件仅凭用户随意画的线条和色块，就能自动生成逼真的图片，效果堪比风光大片！此番可谓 “你只管乱画，最后不好看算我输”！

这是网上流传甚广的一台图，教你一步步来画一匹马。

首先，画两个圈；接着画 4 条腿、脸；然后画上毛发
最后再加几笔细节就大功告成了
这张图真实的体现了在通常情况下，学生面对老师传授知识、或者技能时候的一种状态。很多人对此深有同感：在大牛口中 “简单加几笔细节” 的操作，在凡人看来无异于直接从新手跳到王者。但这种情况正在改变，手残党也可以画出逼真的风光大片了！这完全要感谢英伟达最新推出的一款黑科技。
英伟达在 GTC 2019 上推出了一台令人惊叹的图像生成器。它使用生成对抗性网络（GAN），用户只需点击几下即可绘制出近乎真实的图像。该软件能够立即将几行草草勾勒的轮廓图，变成华丽的山顶日落图景。
我们先来看一台动图：

图中，左边是人类操作员画的，右边是 AI 直接 “简单加上几笔细节” 后生成的。在普通人看来，右边的图像几乎毫无破绽，看不出这并非一张风光照片，而是 AI 生成的虚拟海滩。
让我们再来看几张动图：

从图中我们可以看出，GauGAN 并不是像 Photoshop 里贴一台图层那样，简单的把图形贴上去，而是根据相邻两个图层之间的对应关系对边缘进行调整。比如石头在水里的倒影应该是指什么样的、被瀑布冲刷的山石应该是怎样的状态、近处的山和远处的山之间的层次应该如何表现…
目前我们放出完整的视频：

https://www.zhihu.com/video/1091772150360379392
这次，不光设计师、修图师坐不住了，摄影师也坐不住了！
英伟达的黑魔法：GauGAN

他们给这个软件起名叫做 GauGAN。这个软件只是对英伟达神经网络平台强大性能的一次证明。这个软件能够将人类的绘画方式和过程进行编译，在几秒钟内就能画出草图，并将其转换为逼真的照片。从软件的早期演示中，它似乎能够做到这一点。

GauGAN 这个词，很容易让人联想到那位和梵高相爱相杀的 19 世纪著名后印象派绘画大师高更。事实上，GauGAN 也确实使用了高更的绘画作品对模型进行训练。

保罗・高更（1848 年 6 月 7 日－1903 年 5 月 8 日）

GauGAN 目前提供三种工具：颜料桶、钢笔和铅笔。屏幕底部是一系列对象。选择 “云”，并用铅笔画一条线，软件将生成一缕逼真的云。但这些不是固定的图像模板。GauGAN 可以根据不同的输入生成独有的结果。画一台圆圈，在用颜料工具填充，可以使生成的云的质感变得更蓬松。
用户可以使用输入工具勾勒出一棵树的形状，软件就能自动生成一棵树。画一条直线，会产生一台裸露的树干。在顶部画一台 “灯泡” 一样的形状，软件将自动用叶子进行填充，生成一棵完整的树。

利用 GauGAN 生成一棵树和一条海岸线，注意生成图像的天气变化

GauGAN 是多模式软件。如果有两个用户使用相同的设置，创建了相同的草图，软件中内置的随机数也能确保最终的生成的作品是不同的结果。
为了获得实时结果，GauGAN 必须在 Tensor 计算平台上运行。 Nvidia 在 RDX Titan GPU 平台上进行了演示，生成了实时的输出结果。演示者绘制一条线，软件立即产生了结果。不过，英伟达应用深度学习研究副总裁 Bryan Catanzaro 表示，未来经过一些修改后，GauGAN 可以在几乎任何平台上运行，包括 CPU 上，但生成的结果可能需要几秒钟时间才能显示。
在演示中，不同对象之间的界限划分还存在一些问题，项目团队表示将会继续改进。两个目标接触的部分会出现很浅的线条。英伟达声称图片生成结果可以像照片一样真实，但仔细看其实达不到这个程度。神经网络目前在训练对象以及训练目标上还存在问题。希望这个项目有助于解决这个问题。
在训练数据上，英伟达利用 Flickr 上的 100 万张图像来训练神经网络。大多数图像来自 Flickr 的知识共享计划，Catanzaro 说表示，该公司仅使用经过的图像。
英伟达表示，这款软件可以合成数十万个对象及其与现实世界中其他对象的关系。在 GauGAN 中，如果用户改变季节设置，叶子将从树枝上消失。如果树前有一台池塘，那么这棵树就会在水中反射出来。
Catanzaro 希望这款软件可以在英伟达的新 AI 游戏平台上使用，但目前要实现这个目标还需要做一些进一步的工作。在视频游戏中使用此类工具可以为用户打造更加身临其境的环境，但是英伟达并没有直接开发这样的软件。
对于此软件可能被恶意利用来生成虚假图像的问题， Catanzaro 同意这是一台重要的问题，可能比一台项目和一台公司更重要。他说，这是一台信任问题，而不是技术问题，社会必须面对和妥善处理这个问题。
即使在这个有限的演示来看，从视频游戏设计师、到架构师、再到休闲游戏玩家都很容易被这个软件的功能所吸引。目前英伟达没有透露关于将此软件进行商业化发布的任何计划，但预计很快就会发布公开试用版，任何人都可以体验。
支持该项目的技术论文已经发布。Catanzaro 表示，此文已经被 CVPR 2019 接收。
预印本论文地址：
从论文中可以看出，GauGAN 应用软件是基于名为 “空间自适应归一化” 技术实现的。论文中对该技术进行了比较系统的介绍，并通过数据集实验表明，该技术在图像内容生成和编辑任务上比以往方法实现了更优秀的表现。而该技术的提出，是由 “条件图像合成” 任务开始的。
GauGAN 背后的秘密：空间自适应条件归一化

条件图像合成是指在某些输入数据上生成照片级真实图像的任务。早期的方法是通过拼接图像数据库中的片段来计算输出图像。最近则一般使用神经网络直接学习映射。后一种方法通常更快，并且不需要外部图像数据库。
条件图像合成的特定形式可以将语义分割掩模转换为照片级真实的图像。该技术可以产生广泛的应用，包括内容生成和图像编辑。这种形式称为 “语义图像合成”。通过堆叠卷积，归一化和非线性层构建的传统网络架构达不到最优效果，因为它们的归一化层很可能会 “带走” 输入语义掩码中的信息。

用户可以在合成图像时控制语义和样式。语义（树的存在）通过标签图（在顶行中可视化）来控制，样式可以通过参考图像（最左列）来控制
为了解决这个问题，我们提出了空间自适应的归一化，这是一种条件归一化，通过空间自适应学习转换使用输入语义布局来调制激活，可以在整个网络中有效地传播语义信息。
我们将模型在几个具有挑战性的数据集上进行了实验（包括 COCO-Stuff，ADE20K 和 Cityscapes）。结果表明，在空间自适应归一化层的帮助下，与几种最先进的方法相比，网络的生成结果明显更好了。

不同数据集上的实验结果对比

另外，空间自适应归一化对语义图像合成任务的几种变体任务同样有效，而且支持基于多模态和样式的图像合成，能够实现可控的多样化输出，最终呈现了让人惊叹的效果：

GauGAN 的意义

GauGAN 可以为建筑师、城市规划者、景观设计师、游戏开发者、广告设计师… 等各种和图像相关的职业在创建虚拟世界时提供强大的工具。通过人工智能了解现实世界的外观，这些专业人员可以更好地制作想法原型并快速更改合成场景。
NVIDIA 应用深度学习研究副总裁 Bryan Catanzaro 将 GauGAN 背后的技术比作 “智能画笔”，可以填充粗略分割图中的细节。粗略分割图是显示场景中物体位置的高级轮廓图，GauGAN 允许用户绘制自个的分割图并操纵场景，用沙子，天空，海洋或雪等标签标记每个图形。
通过对一百万张图像的训练，深度学习模型将填充景观并显示停止结果：在池塘中绘制，并且附近的元素如树木和岩石将在水中出现反射。将片段标签从 “草” 交换为 “雪”，整个图像变为冬季场景，以前的绿叶树变得贫瘠。
“这就像一张彩图图片描述了一棵树在哪里，太阳在哪里，天空在哪里，”Catanzaro 说。“然后神经网络能够根据它对真实图像的了解，填充所有的细节和纹理，以及反射，阴影和颜色。”

Catanzaro 说：“通过简单的草图进行头脑风暴设计要容易得多，而且这种技术能够将草图转换成高度逼真的图像。” 也就是说，产品设计师可以在头脑风暴的阶段，就直接产出高保真原型；而乙方更是可以在甲方当面提需求的时候，就给出预览效果图。
但是话又说回来，虽然 GauGAN 的出现，让我们不需要具备专业的绘画、设计、摄影技能就可以制造出逼真的图像，但它毕竟只是一台帮我们将脑海中的想法实现出来的工具，而非我们大脑本身，如果我们脑海中没有任何想法，它也无法凭空去创造任何东西。
可以预见的是，基础技能方面的需求正在变得不那么重要，而对更高阶的技能需求（比如创意、审美、洞察）的要求正在变得越来越高。

参考链接：
Github 代码资源：
论文链接：
<hr/>新智元 · AI_era
每日推送 AI 领域前沿学术解读、AI 产业最新资讯
戳右上角【+ 关注】↗↗
喜欢请分享、点赞吧

最后一段话说的好有道理[爱心]

能不能生成人像？

厉害(ง •̀_•́)ง，有种类似模块游戏的感觉[酷]

这技术太过于凶残了

唉丽台要涨价了

住手！

我有一个大胆的想法

那么有什么网站可以直接拿来生成呢（我就是指waifu生成器）？

说粗你的想法

		自动登录	找回密码
密码			立即注册

英伟达再出黑魔法 GauGAN：凭借几根线条，草图秒变风景 ...

相关问题更多>

最新回答