arutema47's blog

書いたり書かなかったり。

Learning in the Frequency Domain

Learning in the Frequency Domain

f:id:aru47:20200306190103p:plain https://arxiv.org/abs/2002.12416

Alibaba

CVPR 2020 accepted

課題

入力画像を空間領域で扱うのはファイルサイズが大きいため、従来ネットワークは224x224x3と小さいサイズに変換。元の画像サイズ(440x440x3)に対し空間分解能が減り、情報量が減ってしまう。

提案

NNの入力を周波数領域(JPEG規格で扱うDiscrete Cosine Transform DCT)にする。等価的に大きい解像度の画像を周波数領域に変換し直接DNNに入力。DNNの性能に効くDCTチャネルのみ使用することで、入力データ量を一定に保ちながら従来画像入力時よりもDNNの精度が向上できることを実証データ量を半分にしても、Imagenet精度は高くなることを示す

f:id:aru47:20200306185105p:plain

精度に効くチャネルを選択する手法がシンプルながら有効性が高い。 f:id:aru47:20200306185117p:plain

手法

f:id:aru47:20200306185127p:plain DCTデータを直接ネットワークに入力。最初のCNNレイヤを取り除いている。これで上手くいくのは驚き。

実験

画像認識だけではなく物体検出タスクにも応用可能なことを示した。