Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

GAN-Supervised Dense Visual Alignment #29

Open
IsHYuhi opened this issue May 30, 2022 · 0 comments
Open

GAN-Supervised Dense Visual Alignment #29

IsHYuhi opened this issue May 30, 2022 · 0 comments

Comments

@IsHYuhi
Copy link
Owner

IsHYuhi commented May 30, 2022

INFO

author

William Peebles1 Jun-Yan Zhu2 Richard Zhang3 Antonio Torralba4 Alexei A. Efros1 Eli Shechtman3

affiliation

1UC Berkeley 2Carnegie Mellon University 3Adobe Research 4MIT CSAIL

conference or year

CVPR 2022 - Oral Presentation

link

project page
arXiv
実装

概要

  • dense visual alignmentタスクにてGANで生成されたデータのみで学習.
  • Inspired by the classic Congealing method, our GANgealing algorithm trains a Spatial Transformer to map random samples from a GAN trained on unaligned data to a common, jointly-learned target mode.
  • 8つのデータセットにおいて既存のself-spervised learningを大きく上回る, supervised learningに匹敵ないし上回る性能を達成.

pair-wise alignmentではなくglobal joint alignment(データセット全体で画像のalignmentを行う)問題.joint alignmentされたデータセットで学習するとアライメントされていないデータで学習するよりも高品質の生成モデルを生成できるという報告もある(FFHQ, AFHQ, CelebA等)

提案手法

スクリーンショット 2022-05-30 15 03 06

$G$: StyleGANv2
$T$: Spatial Transformer Networks
$w$: latent vector $w$~$W$
$c$: fixed latent vector

$G$はunaligned dataで学習.Gは入力に関してdifferentialbleなので,$c$を最適化可能.
Tが変換するのが容易になるようなfixed latent vector $c$になるように調整.より多くの画像から到達可能な別のベクトルに最適化.

スクリーンショット 2022-05-30 15 14 15

このままでは同じようなターゲットイメージを得るのには適していない.$G(c)$が$G(w)$の外観を維持しながら,姿勢と方向が同じターゲットを構築できることが理想なので,$w$を$c$の一部に一致するようにして学習.
実際,$mix(c, w)$はstyle mixingを行っている.$c$でラフにpose等をコントロール.$w$を後半のレイヤーに与えて,texture等をコントロール.

スクリーンショット 2022-05-30 15 14 20

$c$は$W$空間のtop-N主成分方向$d$の線型結合で表される.実際に$c$は直接最適化されておらず,主成分係数$\alpha$を最適化している.

スクリーンショット 2022-05-30 15 24 57

$ \bar{w} $はmean $w$ vector. これはStyleGANの$W$空間はかなり表現が豊かなので,制約がない場合($c$をそのまま最適化)すると,自然画像のmanifoldから遠いpoorな画像が生成される.Nを小さくし,$c$をmanifold上に維持する.

LSUN Horsesは非常に多様な姿勢を持つデータセットであるため,クラスタリングを施して,それぞれのクラスタごとに$T$を学習させている.実画像でテストを行う際には,対応するクラスタを見つける必要がある.そこで,GAN Inversionなどの方法が考えられるが,ここでは単純な分類を行って該当するクラスタを判定している.分類機には$T$の重みを用いる (warpのためのheadをランダムに初期化したclassificationのheadに置き換えている).
スクリーンショット 2022-05-30 15 24 57

検証  

スクリーンショット 2022-05-30 15 04 52

スクリーンショット 2022-05-30 15 04 12

ablation study

スクリーンショット 2022-05-30 15 04 29

新規性

In this paper, we showed that GANs can be used to train highly competitive dense correspondence algorithms from scratch with our proposed GAN-Supervised Learning framework.

議論,展望

Comment

date

30th May., 2022

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant