RGB画像のみの学習では精度向上の限界があるので、距離情報を用いることで精度向上を図ることは研究の目的としています。
その距離情報をどう使うのかというと、PSPNetを基にて、Depthブランチを加入したPSPNetは提案モデルとなっています。
赤い枠内はDepthブランチで、それ以外はPSPNetです。
FuseNetの論文によって、一回より、距離情報を何回融合させるほうでは精度少し高くなります。
前回で実験したモデルでは、Ressnetの最後の層にだけ距離情報を融合させたが、
今回の実験では、Resnet50からoutput sizeで分けた五つのlayerに距離情報を融合させます。
これによって、各スケールのdepth特徴マップをRGBブランチに十分に融合させることができると考えています。
実験データではVirtual kitti 2 の10種類中の3種類を使用して
Trainとtestはそれぞれ1893枚と234枚です。
RGB画像と同様な扱いのように、Depth画像を0から255までに正規化します。
Epochは120です、入力サイズは321x321です、クラス数は14です。
他の設定はPSPNetの論文と同様です。
実験1の結果です。
各モデルを3試行して、その平均を取ります。
提案モデル1はResnetの最後の層に距離情報を融合させたモデルです。
提案モデル2はResnetの五つの層とも距離情報を融合させたモデルです。
最後の層だけに融合させるより、常に距離情報を融合させる方が精度が下がりました。
まだ学習する余地があるかと考えます。
提案モデル1と2の学習途中モデルを評価してみて、120epochの後もテスト精度が増える傾向が見えます。
まだ学習する余地があることを確認しましたので、次回では200epochまで回してみたいと考えています。
PSPNetの論文と以前やった検証実験によって、入力サイズが大きいほど、精度が高くなります。
ただ、Depthブランチの加入によって、入力サイズを縮小しないといけないです。
限られたメモリーを、Depthブランチの加入に使用するより、入力サイズを増やした方が良い可能性があると考えて、
この三つのモデルを比較しました。PSPNet 2 は PSPNet 1より、入力サイズは321x321から433x433までに増やしました。
提案モデル1はPSPNet – 1より、Depthブランチを加入しました。
また、PSPNet-2と提案モデル1の両方ともGPUメモリーの上限に達しました。
結果を見ると、単純に入力サイズを拡大した方が精度は少し向上したが、Depthブランチを加入したモデルのほどまではないです。
距離情報を利用しつつ、入力サイズをできるだけ拡大した方がよりいい精度が出られる気がしますので、
より小さいDepthブランチの構造もしくはメモリーの需要量が少ない距離情報の使い方を検討する必要があります。
一番思いつきやすいのは、この図のように、提案モデル2から赤い枠内の部分を削除して、第一層だけを残します。
これによって、入力サイズは321から400以上までに拡大できると考えています。
提案モデル3の結果を見ると、Depthブランチを縮小して、入力サイズを拡大しても、精度向上することは見れないです。
前のモデルに、要素ごとの和で直接にRGB情報とDepth情報を融合させるが、それはちょっと単純すぎだと考えていました。
また、近年、人間を真似したAttention機構が提案されました。人間が見ている時、必ずどこかに注目するような仕組みで、Attention機構が深層学習に応用されました。
今回では、この図に示すように、RGBブランチとDepthブランチをそれぞれにAttention機構を加入しました。
この図を使って、今回使用したチャネル方向のAttention機構を説明します。
まず、灰色の立方体AはRGBブランチもしくはDepthブランチからの特徴マップです。
その特徴マップから、GAPを通じて各チャネルの画素平均を求め、それをまとめると、形状がC,1,1であるのtensorが得られます。
そして、そのtensorをカーネルサイズが1x1である畳み込み層に入力し、チャネル間の関連関係を発掘して、形状が(C,1,1)であるのtensorが得られます。
最後に、そのtensorをチャネルの重みとして、注目すべきなチャネルを強調した特徴マップが得られます。
网友评论