Decompose, Adjust, Compose - Effective Normalization by Playing with Frequency for Domain Generalization

ai
Author

Seil Kang

Published

May 16, 2023

연세대학교에서 CVPR`23에 게재한 Decompose, Adjust, Compose: Effective Normalization by Playing with Frequency for Domain Generalization 를 읽고 작성한 논문 리뷰입니다.

Abstract

논문의 abstract에서는 다음과 같은 세 가지 Main Points 를 강조합니다:

1. 콘텐츠(Content)과 스타일(Style)의 구분: 컴퓨터 비전에서 Domain Generalization(도메인 일반화, DG)에 대한 이전 연구들은 스타일과 콘텐츠을 구분하기 위해 정규화(Normalization) 기법을 사용해왔습니다. 그러나 이 방법을 사용하여 스타일을 제거하면 콘텐츠의 변동 문제가 발생합니다. 왜냐하면 콘텐츠과 스타일 사이의 경계가 명확하게 정의되지 않기 때문입니다. 이 논문은 진폭을 스타일, 위상을 콘텐츠으로 고려하는 주파수 영역 관점에서 이 문제를 해결합니다.


Content & Style : Content는 이미지의 Object label을 의미하고 Style은 그 이미지의 표현 양식을 의미한다. 예를 들어서 위 사진들은 같은 호랑이 content 사진이지만 왼쪽 사진은 Real style이고 오른쪽 사진은 Cartoon style이라고 할 수 있다.

2. 새로운 정규화 방법: 이 논문에서는 PCNorm이라는 새로운 정규화 방법을 제안합니다. 이 방법은 스펙트럼 분해(Spectral decomposition)를 통해 스타일을 제거하면서 콘텐츠을 보존합니다. 푸리에 변환 공식(Fourier Transform, FT)으로부터 유도된 정규화의 양적 위상 변동(quantitative phase variation of normalization)을 기반으로 PCNorm은 콘텐츠과 스타일을 효과적으로 분리합니다.

Spectral Decompose 기반의 DG 방법론에서 (a)와 같은 기존의 Normalization은 Output에서 Content 손실이 일어난다. 반면 (b)와 같이 저자들의 방법으로 Normalization을 하게 되면 Content 손실 없이 스타일을 제거한 Output을 얻을 수 있다.


3. 고급 Variants과 모델: 논문은 PCNorm의 고급 변형인 CCNorm과 SCNorm을 소개합니다. 이러한 Variants은 콘텐츠과 스타일의 변동 정도를 조절할 수 있어 DG에 대한 도메인에 중립적인 표현 학습을 가능하게 합니다. 또한, 이 논문은 제안된 정규화 방법을 통합한 ResNet 변형 모델인 DAC-PDAC-SC를 소개합니다. 이러한 모델은 Domain gap에 대한 Robustness을 나타내며, 기존의 DG 방법보다 우수한 성능을 보입니다. DAC-SC 모델은 PACS, VLCS, Office-Home, DomainNetTerraIncognita라는 다섯 개의 데이터셋에서 평균 65.6%를 달성합니다(SOTA).

요약하면, 이 논문은 Domain Generalization에서의 콘텐츠 변동 문제를 해결하기 위해 새로운 정규화 방법(PCNorm)과 PCNorm의 고급 변형(CCNorm 및 SCNorm)을 제안합니다. 이러한 방법을 통합한 모델은 기존의 DG 접근 방식보다 Domain gap에 대한 Robustness가 향상되는 성능을 보여줍니다.


Introduction

컴퓨터비젼의 딥러닝은 각종 Tasks에서 우수한 성과를 달성하고 있지만 테스트 데이터에서 Domain shift가 발생하는 경우 성능이 저하됩니다. 현실세계에서 이미지 스타일의 변화(Domain Shift)가 일어나더라도 인간의 시각 시스템은 이미지를 잘 구별하고 인식합니다. 하지만 학습 및 테스트 데이터셋이 동일하고 독립적으로 분포되었다고 가정하면, 인간의 시각 시스템만큼 딥러닝 모델은 견고하지 않습니다.

도메인 일반화(Domain Generalization, DG)는 이 문제를 해결하기 위해 소스 도메인과 학습 중에 본 적 없는 타겟 도메인 간의 격차에 강건한 모델을 학습하는 것을 목표로 합니다. 또한, DG는 도메인과 관련없는 표현을 Supervised 되지 않은 방식으로 학습해야 해서 어렵습니다.

Style-based 접근 방법은 DG에 대해 널리 연구되었으며, 스타일의 차이로 도메인 갭을 정의합니다. 일반적으로 Style transfer에서 잘 알려진 정규화 방법인 배치 정규화(Batch Normalization, BN), 레이어 정규화(Layer Normalization, LN), 및 인스턴스 정규화(Instance Normalization, IN)과 같은 정규화 방법이 이 접근 방법에서 사용됩니다. 정규화 통계는 스타일 정보를 포함하며, 정규화는 특징에서 스타일을 성공적으로 추출할 수 있습니다. 그러나 이렇게 스타일을 조작하여 소멸시킬때 이미지의 콘텐츠 또한 변경됩니다.

스타일 기반 DG의 다른 방법은 Frequency domain-based (주파수 도메인 기반) 방법입니다. Input 이미지는 푸리에 변환(Fourier transform, FT) 을 사용하여 진폭(Amplitude)과 위상(Phase)으로 분해됩니다. 이 때 진폭과 위상은 각각 입력 이미지의 스타일과 콘텐츠으로 간주됩니다.

각 구성 요소는 독립적으로 조작되어 스타일 변환된 이미지를 생성합니다. 이 방법은 스타일과 콘텐츠를 분리할 수 있다는 장점을 가지고 있습니다. 그러나 이전 Work들은 DG를 위해 Input-level data augmentation(입력 수준 데이터 증강)에만 적용되었습니다.

따라서, Input-level이 아닌 Feature-level에서도 적용 가능한 경우, Frequency domain-based 방법은 DG에 도움이 되는 Normalization과 상호-보완적으로 작용할 것으로 예상했습니다.

AdaIN에서 Normalization 기법을 저자들의 방법으로 대체했을때 저자들의 방법들이 Style을 잘 분리한다는 것을 알아냈다.

저자들은 이 가능성을 확인하기 위해 Style transfer experiment(스타일 전이 실험)을 수행했습니다.(위 사진 참고) Style transfer에서 정규화를 사용하는 기념비적인(Milestone) 작업인 ’AdaIN’에서 ’IN’을 spectral decomposition(스펙트럼 분해)로 대체하였습니다. 그 quantitative results는 frequency domain-based 방법이 정규화 대신 특성 수준의 스타일-콘텐츠 분리기로 작동할 수 있다는 것을 보여줍니다.

이를 바탕으로, 논문에서는 정규화(Normalization)와 스펙트럼 분해(Spectral decomposition)를 결합하여 정규화에서 발생하는 콘텐츠 변경 or 손실 문제를 해결하고자 합니다.

저자들은 Frequency domain-based(주파수 도메인 기반)의 관점에서 DG에서 기존의 정규화의 효과를 조사했습니다. 논문에는 정규화가 특성의 콘텐츠를 어떻게 변형시키는지 FT(푸리에 변환) 공식을 수학적으로 유도함으로써 확인했습니다. (이는 이러한 분석을 처음으로 제시한 것입니다.)

그런 다음, 이 분석을 기반으로, 우리는 새로운 정규화 방법인 Phase-Consistent Normalization(Phase가 일관적인 정규화, PCNorm)을 소개합니다.

PCNorm은 pre-normalized feature(정규화 이전의 특성)의 위상(phase)과 post-normalized feature(정규화 이후의 특성) 진폭(amplitude)을 조합하여 내용이 불변한 정규화된 특성을 합성한다. 실험 결과는 기존의 정규화에 비해 DG에서 PCNorm이 DG 성능에 좋은 효과가 있음을 나타냅니다.

논문에서는 더 나아가서 PCNorm의 성공을 기반으로, 두 가지 고급 PCNorm 변형인 Content-controlling normalization(콘텐츠 제어 정규화, CCNorm)와 Style-controlling normalization(스타일 제어 정규화, SCNorm)을 제안했습니다.

두 방법의 주요 아이디어는 콘텐츠나 스타일을 보존하는 것이 아니라 그 변화를 조절(Control)하는 것입니다. CCNorm과 SCNorm은 각각 콘텐츠와 스타일의 변화를 조절하기 때문에 DG의 더 견고한 표현을 합성할 수 있다고 주장합니다.

저자들이 주장하는 논문의 Contribution은 다음과 같습니다:

  1. 처음으로, 우리는 수학적 유도를 통해 정규화로 인한 위상의 양적 변화(quantitative phase variation of normalization)를 분석했습니다.
  2. 저자들은 스펙트럼 분해를 통해 스타일을 제거할 수 있는 새로운 정규화 방법인 PCNorm을 소개했습니다.
  3. 저자들은 고급 PCNorm 변형으로 CCNorm과 SCNorm이라는 제안했습니다. 이들은 각각 콘텐츠와 스타일의 변화 정도를 조절하여 DG에 대한 도메인-무관한 특징을 학습할 수 있습니다.
  4. 저자들은 PCNorm을 적용한 ResNet 변형 모델인 DAC-P와 CCNorm 및 SCNorm을 적용한 주요 모델인 DAC-SC를 제안했습니다. 우리는 PACS, VLCS, Office-Home, DomainNet 및 TerraIncognita라는 다섯 가지 DG 벤치마크에서 DAC-P와 DAC-SC를 평가했으며, DAC-P는 65.1%의 평균 성능으로 다른 최근 DG 방법들을 능가했습니다.

더욱이, 주요 모델인 DAC-SC는 65.6%의 평균 최고 성능을 달성하며, PACS, Office-Home 및 DomainNet 벤치마크에서 각각 87.5%, 70.3% 및 44.9%의 가장 높은 성능을 보여줍니다.


Analysis

1. Spectral Decomposition

“Spectral decomposition” 이라는 말은 한국말로 “스펙트럼 분해”라고 할 수 있으며 이산 푸리에 변환(Discrete Fourier transform , DFT)을 사용해서 feature를 진폭(amplitude)과 위상(phase) 요소로 특징을 분해하는 과정을 의미합니다.

DFT transfoms는 입력값의 공간적(spatial) 특징인 \(f \in \mathbb{R}^{h\times w}\) 를 주파수(frequency) 특징인 \(\mathcal{F} \in \mathbb{R}^{h \times w}\) 로 변환시키는 것입니다.

\[ \mathcal{F}(u, v)=\frac{1}{w h} \sum_{x=0}^{w-1} \sum_{y=0}^{h-1} f(x, y) \exp({i 2 \pi(\frac{u x}{w}+\frac{v y}{h})})= \mathcal{F}_{real}(u, v) + i\mathcal{F}_{img}(u, v) \]

위 식에서 \(i\) 는 imaginary unit(복소수 단위)입니다. \(\mathcal{F}_{\text{real}}(u, v)\)\(\mathcal{F}_{i m g}(u, v)\) 는 각각 \(\mathcal{F}(u, v)\)의 실수 부분과 허수 부분입니다.

이는 아래의 식으로 다시 표현할 수 있습니다.

\[ \begin{aligned} & \mathcal{F}_{r e a l}(u, v)=\frac{1}{w h} \sum_{x=0}^{w-1} \sum_{y=0}^{h-1} f(x, y) \cos 2 \pi (\frac{u x}{w}+\frac{v y}{h} ), \\ & \mathcal{F}_{i m g}(u, v)=\frac{1}{w h} \sum_{x=0}^{w-1} \sum_{y=0}^{h-1} f(x, y) \sin 2 \pi (\frac{u x}{w}+\frac{v y}{h} ) \end{aligned} \]

이 과정에서 spatial feature \(f\) 는 진폭(amplitude, \(\alpha\))과 위상(pahse, \(\rho\))로 decompose된다고 볼 수 있으며 \(\alpha\)\(\rho\)는 다음과 같은 식으로 계산 될 수 있습니다.

\[ \begin{aligned} & \alpha=\sqrt{\mathcal{F}_{\text{real}}^2+\mathcal{F}_{\text{img}}^2}, \\ & \rho=\arctan \frac{\mathcal{F}_{i m g}}{\mathcal{F}_{\text{real}}} \end{aligned} \]

뿐만 아니라 \(\mathcal{F}\)\(\alpha\)\(\rho\)로 부터 다시 reassemble 될 수 있습니다.

\[ \mathcal{F}=\alpha \cos (\rho)+i \alpha \sin (\rho) \]

논문에서 feature를 frequency 좌표축으로 disassembling 하는 것을 Decompose라고 하고 그 반대로 다시 묶는 것을 Compose라고 부릅니다. 이를 수식으로 표현하면 다음과 같습니다.

\[ \begin{aligned} & \alpha, \rho=\operatorname{decompose}(\mathcal{F}) \\ & \mathcal{F}=\operatorname{compose}(\alpha, \rho) \end{aligned} \]

2. Content Variation by Normalization

앞 목차에서 DFT를 수식적인 부분을 통해 자세히 살펴 보았고 결국 공간적인 feature는 주파수적인 feature로 변환(transform)될 수 있고 공간적인 feature는 다시 한번 \(\alpha\)\(\rho\)로 표현되는 진폭위상으로 decomposition 된다는 것을 알았습니다.

이번 목차에서는 기존의 정규화 방법(Existing Normalization)이 feature의 contents를 바꿔버리는 것을 수학적으로 증명합니다.

우선 normalized feature인 $f^{n o r m} ^{hw} $은 다음과 같이 표현됩니다.

\[ f^{n o r m}=\frac{f-\mu}{\sigma} \]

\(\mu\)\(\sigma\)는 f의 통계학적인 평균(mean)과 표준편차(standard deviation)을 의미합니다.

증명을 위해서 \(\mu\)\(\sigma\)를 상수(constant)로 둡니다.(채널 안에서 같은 방법으로 계산되기 때문입니다.)

이전 수식을 따르면 봤듯이 \(f^{n o r m}\)의 DFT는 다음과 같습니다.

\[ \mathcal{F}^{\text{norm}}(u, v)=\mathcal{F}_{\text{real}}^{\text{norm}}(u, v)+i \mathcal{F}_{\text{img}}^{\text{norm}}(u, v) \]

푸리에 변환은 선형속성(linear property)을 가지므로 \(\mathcal{F}_{\text{real}}^{\text{norm}}(u, v)\)\(\mathcal{F}_{\text{img}}^{\text{norm}}(u, v)\)는 다음과 같이 표현될 수 있습니다.

\[ \begin{aligned} & \mathcal{F}_{\text{real}}^{\text{norm}}(u, v)=\frac{1}{w h} \sum_{x=0}^{w-1} \sum_{y=0}^{h-1}\{\frac{f(x, y)-\mu}{\sigma}\} \cos 2 \pi(\frac{u x}{w}+\frac{v y}{h}), \\ & \mathcal{F}_{\text{img}}^{\text{norm}}(u, v)=\frac{1}{w h} \sum_{x=0}^{w-1} \sum_{y=0}^{h-1}\{\frac{f(x, y)-\mu}{\sigma}\} \sin 2 \pi(\frac{u x}{w}+\frac{v y}{h}) \end{aligned} \]

그리고 여기서, \(\mathcal{F}^\mu\)를 정의합니다. \(\mathcal{F}^\mu \in \mathbb{C}^{h \times w}\)\(f^\mu \mathbb{R}^{h \times w}\)의 frequency feature으로 \(f^\mu\)는 모든 원소가 \(\mu\)인 feature입니다.

그렇다면 \(\mathcal{F}_{\text{real}}^\mu\)\(\mathcal{F}_{\text{img}}^\mu\)\(\mathcal{F}^\mu\) 의 실수, 허수부라고 한다면 아래와 같은 식으로 식을 다시 작성할 수 있습니다.

\[ \mathcal{F}_{\text{real}}^{\text{norm}}=\frac{\mathcal{F}_{\text{real}}-\mathcal{F}_{\text{real}}^\mu}{\sigma} \] \[ \mathcal{F}_{\text{img}}^{\text{norm}}=\frac{\mathcal{F}_{i m g}-\mathcal{F}_{i m g}^\mu}{\sigma} \]

마찬가지로 \(\alpha^{\text{norm}}\)\(\rho^{\text{norm}}\) 위의 식과 마찬가지로 표현하자면 아래와 같습니다.

\(\alpha^{\text{norm}}\) : Normalization한 feature에서 decompose 된 ‘진폭’
\(\rho^{\text{norm}}\) : Normalization한 feature에서 decompose 된 ‘위상’

\[ \alpha^{\text{norm}} = \frac{\sqrt{ (\mathcal{F}_{\text{real}}-\mathcal{F}_{\text{real}}^\mu )^2+ (\mathcal{F}_{\text{img}}-\mathcal{F}_\text{img}^\mu )^2}}{\sigma} \]

\[ \rho^{\text{norm}} =\arctan \frac{\mathcal{F}_{\text{img}}-\mathcal{F}_{i m g}^\mu}{\mathcal{F}_{\text{real}}-\mathcal{F}_{\text{real}}^\mu} . \]

자, 이제 수식을 본다면 \(\rho^{\text{norm}}\)\(\rho\)에 비해 분모 분자에 각각 \(\mathcal{F}_{\text{real}}^\mu , \mathcal{F}_{\text{img}}^\mu\)의 영향을 받아 값이 바뀌게 됩니다. \(rho\)는 phase이며 phase는 DG에서 content를 의미합니다.

위 수식을 DG의 입장에서 재해석 해보면 normalization으로 인해 content information의 numerical variation이 되었다고 할 수 있습니다.

추가로 numerical variation이 일어나는 주요 원인은 \(\sigma\)가 아닌 \(\mu\) 라고 할 수 있습니다. 그 이유는 \(\rho^{\text{norm}}\)\((f - \mu)\)의 phase라고 할 수 있고 normalization 이후의 phase(\(\rho^{\text{norm}}\))를 보았을 때 \(\sigma\)는 수학적으로 영향을 주지 않기 때문이죠.

정리하자면 단순히 spatial 영역에서 정규화에 의한 평균 이동(mean shift)에 의해 \(rho\)(위상: content)의 변화가 일어난다고 증명할 수 있습니다.

따라서 저자들은 \(\mu\)content variation factor라고 생각합니다. 또한 당연히 \(\mu\)가 클 수록 content variation은 더 강해집니다.


Proposed Method

PCNorm, CCNorm, SCNorm의 알고리즘 Pseudocode

1. Phase Consistent Normalization (PCNorm)

앞 내용에서 정규화 과정에서 mean-shift가 문제가 되더라 라는 것을 설명했습니다. PCNorm은 normalization때 발생하는 mean-shift를 방지하여 content change를 막아주는 새로운 normalization 기법입니다.

\[ PCNorm(f) = IFT(compose(\alpha^{norm}, \rho)) \]

위의 식은 PCNorm의 수식입니다. 푸리에 역변환의 원소로 post-normalized feature의 진폭(\(\alpha^{\text{norm}}\))pre-normalized feature의 위상(\(rho\))을 교차 사용합니다.

식을 재해석 해보면 위상 == content 이므로 normalize 이전의 위상을 사용하는 아이디어로 content에 대한 normalize는 하지 않고 진폭 == style에 대한 normalize만을 진행하겠다는 의도입니다.

이 과정에서 당연히 feature의 위상과 진폭을 분리해야 하기 때문에 DFT의 과정이 들어갑니다.

PCNorm, CCNorm, SCNorm의 작업 흐름

2. Content Controlling Normalization (CCNorm)

PCNorm에서는 Content의 Normalization을 완전히 배제합니다. 하지만 논문에서는 좀 더 근본적인 질문을 던집니다.

DG에서 Content의 Variation이 생기는 것이 과연 완전히 부정적이라고만 볼 수 있을까 ?

저자들은 이 의문을 해소하기 위해 모델이 스스로 가장 적절한 content의 변화를 배울 수 있도록 만들었습니다. 만약 contents의 change가 DG에 해롭다면 딥러닝 모델은 스스로 조절하는 값을 낮추는 쪽으로 학습되겠죠 ?

$^{c} ^2 $ 를 Leanable parameter로 사용함으로써 feature의 mean shift를 조절합니다.

위의 Analysis 목차 내의 수식에서 mean(\(\mu\))에 의한 변화만이 위상(contents, \(rho\)) 변화량에 영향을 주기 때문에 mean shift를 조절해서 content variation을 조절한다고 말합니다.

Content adjusting terms을 \((\lambda^{c}_{norm}, \lambda^{c}_{org}) = softmax(\lambda^{c}/T_{c})\) 로 표현할 수 있습니다. \(T_{c}\)는 Temperature value입니다. 각 \(\lambda^{c}\)들은 각각 normalization과 original contents의 비율을 나타냅니다.

그러고 나서 content-adjusted feature인 \(f^{c}\)는 다음과 같이 정의 됩니다.

\[ f^{c} = f - \mu \lambda_{norm}^{c}. \]

식에서 \(\lambda^{c}_{norm}\)\(0\)이라면 \(f^{c}\)의 위상인 \(\rho^{c}\)\(rho\) 와 같아집니다. 만약 \(\lambda^{c}_{norm}\)\(1\)이라면 \(f^{c}\)의 위상인 \(\rho^{c}\)\(\rho^{norm}\) 와 같아집니다.

\[ CCNorm(f) = IFT(compose(\alpha^{\text{norm}}, \rho^{c})) \]

정리하자면 CCNorm은 Content Control의 의도로 만들어 졌으며 Learnable parameter에 영향을 받아 feature의 mean shift를 조절하며 mean shift된 feature의 phase인 \(\rho^{c}\)를 IFT 이전에 Compose하는 원소로 삼아서 계산하게 됩니다.

지금은 normalized content에 대해서만 살펴보고 있으므로 ^{c}_{org}는 더미 변수로 취급하여 식에 포함시키지 않습니다.

3. Style Controlling Normalization (SCNorm)

마찬가지로 Instance Normalization을 통해 스타일을 제거하는 측면에서도 똑같은 의문이 제기 됩니다. 다음과 같은 근본적인 질문으로 SCNorm은 출발합니다.

DG에서 Style을 완벽히 제거하는 것이 과연 완전히 긍정적이라고만 볼 수 있을까 ?

따라서 저자들은 모델이 CCNorm과 동일하게 Style의 Elimination을 Control할 수 있게 학습하도록 SCNorm 기법을 제안합니다.

style adjusting terms을 \((\lambda^{s}_{norm}, \lambda^{s}_{org}) = softmax(\lambda^{s}/T_{s})\) 로 표현할 수 있습니다. 이를 통해 SCNorm에 대한 정의를 다음의 수식으로 내릴 수 있습니다.

\[ SCNorm(f) = IFT(compose(\lambda^{s}_{norm} \alpha^{\text{norm}} + \lambda^{s}_{org} \alpha, \rho)) \]

두 변수 \(\lambda^{s}_{norm}\)\(\lambda^{s}_{org}\)는 모델이 독립적으로 pre-normalized의 스타일(진폭)과 post-normalized 스타일(진폭)의 ratio를 결정하도록 합니다.

\(\lambda^{s}_{norm} = 1\) 이면 original style의 전부 제거되었다고 할 수 있고 반대로 \(0\)이면 original style이 전부 살아있다라고 말할 수 있습니다. ## 4. DAC-P and DAC-SC

논문에서는 앞서 설명한 CCNorm과 SCNorm을 이용한 ResNet의 Variant models(변형모델)를 소개합니다. DAC-PPCNorm이 적용된 연구 초기에 개발된 모델이고 DAC-SCCCNorm과 SCNorm이 적용된 주요 모델입니다.

논문의 Primary 모델인 DAC-SC 모델의 아키텍쳐 Overview, (b),(c),(d),(e)는 각 Block을 설명하고 있다. 저자들의 Normalization Module은 Resnet의 각 Stage의 BN을 대체하여 일정하게 배치된다.

기존 ResNet에는 Downsample layer가 존재합니다. 이는 Residual Block에 포함되어있으며 DAC-SC는 ResNet 모델의 BN 부분을 PCNorm으로 대체했습니다. 기존 Resnet의 Downsample은 다음 수식과 같습니다.

\[ downsample(x) = BatchNorm(Conv(x)) \]

PCNorm으로 바뀐 수식은 다음과 같습니다.

\[ downsample(x) = PCNorm(Conv(x)) \]

Residual Block은 \(\mathcal{H}(x) + x\)로 표시됩니다. 여기서 \(x\)는 Input feature이고, \(\mathcal{H}(\cdot)\)은 Residual 함수입니다. 다른 레이어와 달리 Downsample 레이어에서 \(x\)의 형태는 \(\mathcal{H}(x)\)와 일치하도록 변경됩니다. 즉, 동일성 매핑을 위해서는 \(x\)의 위상이 불가피하게 변경됩니다. 따라서 Residual \(\mathcal{H}(x)\)는 콘텐츠 정보가 변경된 Biased input의 근사치로 표현됩니다. 이 층에는 콘텐츠 변동 문제를 가진 BN이 포함되어 있으므로, 이 층에서의 콘텐츠 변화는 더 크게 나타납니다. 결과적으로, \(\mathcal{H}(x)\)의 편향된 근사치는 DG 성능을 저하시킵니다.


Experiments

1. Dataset

사용한 데이터셋은 일반적인 DG 실험에 사용하는 Dataset을 사용했습니다.

2. Experimental Details

Reproducing에 참고만 하면 되는 부분이므로 논문 내용을 그대로 가져왔습니다.

We chose ResNet50 as a backbone network, the same as the baseline model (ERM). In DAC-P, the BN in all four downsample layers was replaced with PCNorm layers. For DAC-SC, four CCNorm were inserted at the same locations as PCNorm in DAC-P, and three SCNorm were added at the ends of the first to third stages, respectively. The affine transform layer of base normalization is transferred to the end of the proposed normalization layer. The model was initialized with ImageNetpre-trained weight. The elements of λ s and λ c were initialized with 0, and the temperatures T s and T c were set to 1e-1 and 1e-6, respectively. For data augmentation, we randomly cropped images on a scale from 0.7 to 1.0 and resized them to 224×224 pixels. Then, we applied random horizontal flip, color jittering, and gray scaling. In training, we used a mini-batch size of 32, and the Nesterov SGD optimizer with a weight decay of 5e-4, a learning rate of 1e-4, and momentum of 0.9. For DomainNet dataset only, the learning rate of 1e-2 was applied. We trained the proposed model for 20 epochs with 500 iterations each, except for DomainNet, which we trained with 7500 iterations and adopted a cosine annealing scheduler with early stopping (tolerance of 4). All experiments were conducted four times and each performance was evaluated on the training-domain validation set, which reserved 20% of source domain data. The performance values were reported using the average performance for the entire domains, which was evaluated using a single out-of-training domain. We conducted an exhaustive hyperparameter search for model selection and evaluated the models based on accuracy. The hardware and software environments were Ubuntu 18.04, Python 3.8.13, PyTorch 1.12.1+cu113, CUDA 11.3, and a single NVIDIA A100 GPU.

3. Comparison with SOTA Methods

4. Ablation Study

각종 데이터셋에서 PCNorm, SCNorm, CCNorm을 ResNet의 스테이지별, 스테이지의 Module Position별로 적용했을때 결과, P컬럼의 D,E는 각각 Downsample layer와 End of the stage를 의미한다.

Ablation Study의 결과를 봤을때 스테이지 초반에 Norm 기법을 적용하는것이 가장 좋았고 CCNorm과 SCNorm을 콤비로 사용했을때의 결과가 가장 좋다는 것을 나타냅니다.

이러한 Ablation 결과는 content와 style을 normalization 단계에서 모델이 적절히 adjust 하는 것이 좋은 영향을 미친다는 것을 실험적으로 증명합니다.

Reuse