编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

风格迁移之Pix2Pix(风格迁移有哪些应用)

wxchong 2024-09-08 10:52:49 开源技术 9 ℃ 0 评论

本文将解释一篇关于使用条件GAN(Conditional GANs)进行图像到图像转换的流行论文的基本机制,Pix2Pix,出自论文《Image-to-Image Translation with Conditional Adversarial Networks》

Outline

  1. 简介
  2. 双重目标函数 Dual Objective Function with Adversarial and L1 Loss
  3. 生成器 U-Net Generator
  4. 鉴别器 PatchGAN Discriminator
  5. 评估 Evaluation

简介

图像到图像转换是生成对抗网络(GAN)非常适合的任务的另一个例子。这种任务几乎不可能hard-code一个损失函数。关于GAN的大多数研究涉及新颖的图像合成领域,从随机向量z (random vector z) 转换成图像。图像到图像的转换将一个图像转换为另一个图像,例如开篇所示的从包的线框图到照片图像。另一个有趣的例子如下所示:

图像到图像转换在诸如着色(colorization)和超分辨率(super-resolution)的应用中也很有用处。然而,许多特定于pix2pix算法的实现思想也与研究那些新颖的图像合成的相关。

上图描述了本文中的图像到图像转换架构的一个抽象的high-level view。与许多图像合成模型类似,它使用Conditional-GAN框架。图像x被用作生成器Generator的输入和作为鉴别器Discriminator的输入。

双重目标函数 Dual Objective Function with Adversarial and L1 Loss

一种简单的图像到图像转换方法是完全放弃对抗框架。源图像将仅通过参数函数(parametric function),并且所得图像和真实样本(ground truth)输出的差异将用于更新网络的权重。然而,使用诸如L1和L2的标准距离度量(distance measures)来设计该损失函数将不能捕获这些图像之间的许多重要的独特特征。然而,作者确实发现L1损失函数loss function的一些价值作为对抗性损失函数的加权搭配。

条件 - 对抗性损失 Conditional-Adversarial Loss(生成器G与判别器D)的公式非常通用,如下所示:

前面提到的L1损失函数loss function如下所示:

组合上面的函数得到如下:

在实验中,作者报告说发现lambda参数等于100时效果最好。

生成器 U-Net Generator

GAN Generator中使用的U-Net架构是该论文的一个非常有趣的组成部分。图像合成架构通常采用大小为100x1的随机向量,将其投影到具有完全连接层的更高维度向量中,对其进行reshape,然后应用一系列解卷积de-convolutional运算,直到达到所需的空间分辨率。相比之下,pix2pix中的Generator类似于自动编码器auto-encoder。

生成器Generator接收到要翻译的图像并将其压缩为低维“Bottleneck”向量表示。然后,Generator会学习如何将其上采样upsample到输出图像中。如上图所示,考虑标准编码器 - 解码器结构(Encoder-Decoder)和U-Net之间的差异很有意思。U-Net类似于ResNets,因为earlier layers的信息被集成到later layers中。U-Net跳过connections也很有趣,因为不需要任何大小调整resizing,投影projections等,因为被连接的层的空间分辨率spatial resolution已经彼此匹配。

鉴别器 PatchGAN Discriminator

pix2pix中使用的PatchGAN鉴别器是该设计的另一个独特组成部分。PatchGAN / Markovian鉴别器的工作原理是将图像中的独立的(N×N)个patches分类为“真实与假”,而不是将整个图像分类为“真实与假”。作者认为这会强制实施更多约束,从而鼓励出现尖锐的高频细节(sharp high-frequency detail)。此外,PatchGAN具有更少的参数,并且比分类整个图像运行得更快。下图描绘了不同N大小的情况下,对N x N patches进行分类的实验结果:

评估 Evaluation

评估GAN输出很困难,有很多不同的方法可以做到这一点。pix2pix的作者使用两种不同的策略来评估他们的结果。

第一个策略是使用人类主观打分。使用pix2pix创建的真实图像和图像随机堆叠在一起,人类打分员在看到它们1秒后将每个图像标记为真实或伪造。这是使用Amazon Mechanical Turk平台完成的。

我发现另一个非常有趣的评估策略是在生成合成的网络(synthetically generated network)上使用语义分段网络(semantic segmentation network)。这类似于另一种非常流行的GAN输出定量评估指标,称为“Inception Score”,其中合成图像的质量基于预先训练的初始模型对其进行分类的能力进行评级。

结论

Pix2Pix是一种非常有趣的图像到图像转换策略,它使用L1距离( L1 Distance )和对抗性损失的组合,以及发生器和鉴别器设计中的其他新颖性。感谢您的阅读,请查看论文,了解更多实施细节和实验结果说明!

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表