人工智能将女神的裤子换成超短裙算法实时图像到图像的篡改翻译_贷款知识

摘要：由于最近基于生成对抗网络（gan）的令人印象深刻的进展，无监督的图像到图像转换已经引起了相当大的关注。然而，先前的方法经常在挑战性情况下失败，特别是当图像具有多个目标实例并且翻译任务涉及形状的显着变化时，例如，将裤子翻译成时尚图像中的裙子。为了解决这些问题，我们提出了一种新颖的方法，包含实例感知的gan（instagan），它结合了实例信息（例如，对象分割掩码）并改进了多实例变形。所提出的方法转换图像和相应的实例属性集，同时保持实例的每突变不变性属性。为此，我们引入了上下文保留丢失，鼓励网络在目标实例之外学习身份功能。我们还提出了一种连续的小批量推理/训练技术，该技术可以处理具有有限gpu内存的多个实例，并且可以增强网络以便更好地推广多个实例。我们的比较评估证明了所提方法在不同图像数据集上的有效性，特别是在上述具有挑战性的案例中。

介绍：跨域生成出现在许多机器学习任务中，包括神经机器翻译（artetxe等，2017; lample等，2017），图像合成（reed等，2016; zhu等，2016），文本样式转移（shen等人，2017）和视频生成（bansal等人，2018; wang等人，2018a; chan等人，2018）。特别是，不成对（或无监督）的图像到图像转换基于生成对抗网络（gan）的变体取得了令人印象深刻的进展（zhu等人，2017; liu等人，2017; choi等人， 2017; almahairi等，2018; huang等，2018; lee等，2018），由于其实际应用，包括着色（zhang et al。，2016），super-分辨率（ledig等，2017），语义操纵（wang等，2018b）和领域适应（bousmalis等，2017; shrivastava等，2017; hoffman等，2017）。然而，这一研究领域的先前方法经常在挑战性任务上失败，特别是当翻译任务涉及实例形状的重大变化时（zhu等，2017）或要翻译的图像包含多个目标实例（gokaslan等） al。，2018）。我们的目标是将图像到图像的翻译扩展到这些具有挑战性的任务，这可以将其适用性提高到一个新的水平，例如，将裤子换成时尚图像中的裙子，以便客户决定哪一个更好买。为此，我们提出了一种新方法，该方法在生成对抗网络（gan）的框架中结合了多个目标对象的实例信息;因此我们将其称为实例感知gan（instagan）。在这项工作中，我们使用对象分割掩码作为实例信息，这可能是实例形状的良好表示，因为它包含对象边界而忽略其他细节，如颜色。使用这些信息，我们的方法显示了多实例变换任务的令人印象深刻的结果，如图1所示。

我们的主要贡献是三方面：实例增强神经结构，上下文保留损失和顺序小批量推理/训练技术。首先，我们提出了一种神经网络架构，它可以转换图像和相应的实例属性集。我们的架构可以转换由输入条件限制的任意数量的实例属性，并且设计为对实例的顺序进行置换不变。其次，我们提出了一种上下文保留丢失，它鼓励网络专注于翻译中的目标实例，并在其外部学习身份功能。也就是说，它旨在在转换目标实例的同时保留背景上下文。最后，我们提出了一种连续的小批量推理/训练技术，即，顺序地翻译小批量的实例属性，而不是一次完成整个集合。它允许使用有限的gpu内存处理大量实例属性，从而增强网络以更好地概括具有许多实例的图像。此外，它甚至在少数情况下提高了图像的翻译质量，因为它通过生成多个中间样本在训练期间充当数据增强。所有上述贡献都致力于如何合并用于图像到图像转换的实例信息（例如，分割掩模）。但是，我们认为我们的方法适用于许多其他跨域生成任务，其中可以使用集合结构的辅助信息。

据我们所知，我们是第一个报告多实例变换任务的图像到图像转换结果的人。最近的一些方法（kim等人，2017; liu等人，2017; gokaslan等人，2018）显示了一些变形结果，但仅适用于具有单个实例的图像，通常在明确的背景中。与以前在简单设置中的结果不同，我们关注的是与背景自然渲染的实例的和谐。另一方面，cyclegan（zhu et al。，2017）显示了多实例案例的一些结果，但仅报告了变形任务的有限性能。在高层次上，我们工作的重要性还在于发现实例信息对于形状转换图像到图像的转换是有效的，我们认为这将对未来的其他相关研究产生影响。 mask contrast-gan（liang et al。，2017）和attention-gan（mejjati et al。，2018）使用分段掩码或预测注意力，但仅用于将背景附加到（翻译的）裁剪实例。它们不允许转换实例的形状。相反，我们的方法通过优化上下文保留损失来学习如何保留背景，从而促进形状变换。

instagan：实时图像到图像的翻译，给定两个图像域，并且图像到图像转换的问题旨在学习跨不同图像域的映射，ttxy：或/和ttyx :,即，在保留原始上下文的同时转换目标场景元素。这也可以表述为条件生成建模任务，我们估计条件p（y x）或/和p（x y）。我们解决的无监督翻译的目标是仅使用来自两个图像域的原始数据的边缘分布，pdata（x）和pdata（y）的未配对样本来恢复这种映射。

我们的方法的主要和独特思想是结合附加实例信息，即，将一组实例属性a的空间增加到原始图像空间x，以改善图像到图像的转换。实例属性集a∈a包括所有单独的属性n个目标实例：a = {ai} n.在这项工作中，我们只使用实例分割掩码，但我们注意到可以为属性合并任何有用类型的实例信息。然后我们的方法可以被描述为学习属性增强空间和属性之间的联合映射。这导致解开图像中的不同实例并允许发生器执行准确而详细的翻译。我们在生成对抗网络（gan）的框架中学习了属性增强映射（goodfellow等，2014），因此，我们将其称为实例感知gan（instagan）。我们将在以下小节中介绍我们的方法的详细信息。

3.1图像到图像的翻译结果

我们首先在各种数据集上定性评估我们的方法。我们将我们的模型instagan与基线模型cyclegan（zhu等，2017）进行比较。为了公平比较，我们将cyclegan的参数数量增加了一倍，因为instagan分别使用两个网络进行图像和分割。我们从各种数据集中抽取两个类，包括服装共同解析（ccp）（yang等，2014），多人解析（mhp）（zhao等，2018）和ms coco（lin等， 2014）数据集，并将它们用作翻译的两个域。在可视化中，为了紧凑性，我们将所有实例掩码合并为一个。有关我们实验的详细设置，请参见附录b.三个数据集的翻译结果分别如图4,5和6所示。虽然cyclegan大多数都失败了，但我们的方法会生成合理的目标实例形状，并通过上下文保留丢失来关注实例来保持原始上下文。例如，请参见图6中绵羊长颈鹿的结果.tyclegan经常会产生类似羊的情况但会失去原始背景。 instagan不仅可以生成更好的绵羊或长颈鹿，还可以保留原始实例的布局，即绵羊和长颈鹿的观察方向（左，右，前）在翻译后是一致的。更多实验结果见附录e.

我们的方法可以通过调整输入来控制要翻译的实例，如图7所示。在cyclegan下，这样的控制是不可能的。我们还注意到，我们专注于复杂（多实例变形）任务，以强调我们方法的优势。尽管如此，我们的方法对于简单的任务（例如，马斑马）也很有吸引力，因为它通过保留损失的上下文减少了错误的正面/负面因素并且能够控制翻译。我们最终强调我们的方法即使在我们使用预测分段进行推理时也显示出良好的结果，如图8所示，这可以降低在实践中收集分段标签的成本.3

最后，我们还定量评估了我们方法的翻译性能。我们通过预训练的分类器测量分类分数，预测为目标类别的图像的比率。具体来说，我们微调imagenet（deng et al。，2009）预训练的vgg-16（simonyan＆zisserman，2014）网络的最后几层，作为每个域的二元分类器。附录d中的表1和表2分别显示了ccp和coco数据集的分类分数。我们的方法在所有分类实验中都优于cyclegan，例如，我们的裤子→短裤任务的准确率达到23.2％，而cyclegan只获得8.5％。

3.2基础研究

我们现在研究图9中我们提出的方法的每个组件的影响。我们的方法由instagan架构，上下文保留损失ctx和顺序小批量推理/训练技术组成。我们逐步将每个组件添加到基线模型cyclegan（具有双倍参数）。首先，我们研究我们的架构的影响。为了公平比较，我们训练带有额外输入通道的cyclegan模型，该模型转换分段增强图像，因此我们将其称为cyclegan + seg。与我们翻译实例分割集的架构不同，cyclegan + seg可以同时转换所有分段的并集。因此，cyclegan + seg无法转换某些实例并经常合并它们。另一方面，我们的架构可以保持每个实例并更好地解开。其次，我们研究了上下文保留损失的影响：它不仅更好地保留了背景（第2行），而且还改进了翻译结果，因为它规范了映射（第3行）。第三，我们研究了顺序翻译的效果：它不仅提高了泛化性能（第2,3行），而且通过数据扩充（第1行）改善了少数实例的翻译结果。

最后，图10报告了与“一步”表示的一步法相比，用“seq”表示的顺序翻译在推理和训练中有效的程度。对于一步式培训，我们只考虑两个实例，因为它是我们机器可承受的最大数量。另一方面，对于顺序训练，我们依次训练两个实例两次，即四个实例的图像。对于一步推理，我们一次翻译整个集合，对于顺序推理，我们在每次迭代时顺序翻译两个实例。我们发现我们的顺序算法对于训练和推理都是有效的：（a）训练/推理= one / seq显示模糊结果，因为中间数据在训练期间没有显示，并且随着迭代的进行而叠加噪声，并且（b）seq / one显示多个实例的泛化性能差，因为许多实例的一步推断未在训练中显示（由于gpu内存有限）。

结论：我们已经提出了一种新颖的方法，其结合了用于图像到图像转换的一组实例属性。在不同数据集上的实验已经显示了在多实例变形的挑战性任务上的成功的图像到图像的转换，包括新的任务，例如，在时尚图像中将牛仔裤翻译成裙子。我们注意到利用集合结构的辅助信息的我们的想法有可能应用于其他跨域生成任务，例如神经机器翻译或视频生成。调查新任务和新信息可能是未来一个有趣的研究方向。

原文标题：instance-aware image-to-image translation

动作捕捉设备

虚拟制作

真人动作捕捉