-
今回の報告内容に関しまして、地形セグメンテーションに関する論文と手法の紹介です。
まず、本研究では、CG画像で学習して、実写でテストです、単カメラの画像のみでの学習ではセグメンテーション精度向上には限界があって、距離情報を用いることで、セグメンテーション精度向上が図れないかを検討したいです。
それに関して、三つの部分に分けられます。
一つ目は基盤となるSemantic Segmentationで、二つ目はDepth画像の使い方のFusionで、三つ目はDomain adaptationです -
FCNはSemantic Segmentationにディープラーニングを使った最初の手法です、それの前の手法より精度や推論速度は大幅に向上しました。
FCNでは、一般画像分類用のVGG-16の全結合層を1x1の畳み込み層に置き換えています。
また、全結合層を無くすことで、従来の畳み込みニューラルネットワークのように入力画像のサイズを固定する制約がなくなりました。
特徴マップのサイズはMaxプーリングを経てだんだん小さくなっているため、入力画像HxWに対して、最後の特徴マップの辺の長さは元の32分の1になっています。
32ストライドの特徴マップをアップサンプリングで入力画像と同サイズに拡大するだけでは、Semantic Segmentationの結果は物体の輪郭がぼやけたものとなります。
そこで、最終の特徴マップだけでなく、途中のpooling層で出力される大きいサイズの特徴マップも活用して、各pooling層の特徴マップマップを足し合わせることで、予測の解像度があがります。 -
FCNの欠点として、固定サイズのReceptive fieldのため、大きすぎるまたは小さすぎるobjectは誤認識されています。
また、予測結果の解像度が低いと言われています。 -
その後、色々な手法が提案されて、今回はPSPNetを選んで紹介します。
PSPNetの中に、特徴となるのは、Pyramid Pooling Moduleです。
Pyramid Pooling Moduleでは、Encoderで抽出された特徴マップに対して、複数の解像度でmax-poolingをかけてそれぞれのスケールで捉えた特徴マップを得ます。
アップサンプリングしたこれらの特徴マップを元の特徴マップにチャンネルを追加する形で連結し、大域的なコンテキストと局所的な情報の両方を持った特徴マップとします。 -
次に、Cityscapesにおいてのテスト結果について説明します。
Cityscapesは都市画像のデータセットです。
画像の背景はかなり複雑で、クラスも30個ありますので、本研究対象より複雑だと考えます。
現時点では、追加のトレーニングデータの必要がないモデルの中にGated Fully Fusionというモデルが一位になります。
しかし、このモデルはPSPNetよりかなり複雑で、精度もそんなに上がらないので、このモデルの紹介は省略します。
この表より、PSPNetの精度はFCNより大幅向上と見られます。 -
次に、Fusion、いわゆるDepth画像の使い方を二つ紹介します。
まず、一番簡単なのは、RGB-Dの4チャンネル画像を入力とします。
もう一つの手法では、FuseNetというモデルで、RGB encoderのように、Depth encoderを追加して、成分ごとの和でDepth画像からの特徴マップは常にRGB画像からの特徴マップと融合します。 -
その結果として、Depthからの特徴マップを融合することで、精度がかなり向上しました。
また、そのままRGB-D画像を入力とすると、精度が必ず向上することではないことが分かりました。 -
次に、ドメイン適応について紹介します。
まず、ドメイン適応というのは、二つのデータセットのドメインバイアスに対応できるようにモデルを学習することです。
そのために、ターゲットドメインのデータセット、つまり、ラベルなしの実写が必要となります。
本研究において、正解データがソースドメインのみに与えられているという問題設定となります。
ソースドメインはCG画像で、ターゲットドメインは実写です。 -
モデルをdomain-invariant特徴量を学習させることで、ドメイン適応を行います。
目は各ゲーム画像を異なるStyleに変換して、ゲーム画像とリアル画像の最大の違いはTextureなので、Textureに依存しない特徴量を学習させることが期待されます。 -
次に、敵対的学習によるドメイン適応を紹介します。
まず、Discriminator ネットワークが入力はどっちのドメインからの出力かを分類します。
そこから、敵対Lossをとって、敵対Lossよりソースとターゲットドメインの出力空間が同様の分布になります。
そのため、Segmentation ネットワークがDiscriminator ネットワークをごまかすように学習します。 -
GTA5 to Cityscapesというデータセットでのテスト結果を見ると。
ドメイン適応によりターゲットドメインでのテスト精度が大幅向上のことが分かりました。
また、ドメイン適応なしのResNetの精度はVドメイン適応ありのVGG-16より高くて、バックボーンネットワークの選択も重要だと考えています。
网友评论