前回の輪講にも話しましたが、RGB画像のみの学習では精度向上の限界があるので、距離情報を用いることで精度向上を図ることは研究の目的としています。
その距離情報をどう使うのかというと、PSPNetを基にて、Depthブランチを加入したPSPNetは提案モデルとなっています。
赤い枠内はDepthブランチで、それ以外はPSPNetです。
FuseNetの論文によって、一回より、距離情報を何回融合させるほうが精度少し高くなります。
前回で実験したモデルでは、Ressnetの最後の層にだけ距離情報を融合させたが、
今回の実験では、Resnet50からoutput sizeで分けた五つの層に距離情報を融合させます。
これによって、各スケールのdepth特徴マップをRGBブランチに十分に融合させることができると考えています。
実験データではVirtual kitti 2 の10種類中の3種類を使用して
Trainとtestはそれぞれ1893枚と234枚です。
RGB画像と同様な扱いのように、Depth画像を0から255までに正規化します。
Epochは120です、入力サイズは321x321です、クラス数は12です。
他の設定はPSPNetの論文と同様です。
実験1の結果です。
各モデルを3試行して、その平均を取ります。
提案モデル1はResnetの最後の層に距離情報を融合させたモデルです。
提案モデル2はResnetの五つの層とも距離情報を融合させたモデルです。
最後の層だけに融合させるより、常に距離情報を融合させる方が精度が下がりました。
まだ学習する余地があるかと考えます。
提案モデル1と2の学習途中モデルを評価してみて、120epochの後もテスト精度が増える傾向が見えます。
まだ学習する余地があることを確認しましたので、次回では200epochまで回してみたいと考えています。
PSPNetの論文と以前やった検証実験によって、入力サイズが大きいほど、精度が高くなります。
ただ、Depthブランチの加入によって、入力サイズを縮小しないといけないです。
限られたメモリーを、Depthブランチの加入に使用するより、入力サイズを増やした方が良い可能性があると考えて、
この三つのモデルを比較しました。PSPNet 2 は PSPNet 1より、入力サイズは321x321から433x433までに拡大しました。
提案モデル1はPSPNet – 1の上に、Depthブランチを加入しました。
また、PSPNet-2と提案モデル1の両方ともGPUメモリーの上限に達しました。
結果を見ると、単純に入力サイズを拡大した方が精度は少し向上したが、Depthブランチを加入したモデルのほどまでにはないです。
これからの検討について、
距離情報を利用しつつ、入力サイズをできるだけ拡大した方がよりいい精度が出られる気がしますので、
より小さいDepthブランチの構造もしくはメモリーの需要量が少ない距離情報の使い方を検討する必要があると考えています。
一番思いつきやすいのは、この図のように、提案モデル2から赤い枠内の部分を削除して、第一層だけを残します。
これによって、入力サイズは321から400以上までに拡大できると考えています。
Virtual kitti 2 のあるシーンのクラス分布を可視化して、横軸はクラスで、縦軸は各クラスの割合です。
クラス間はかなり不均衡だと見えます。
クラス間の不均衡の問題に対して、Focal Lossの導入で、精度の向上を図れないかと考えています。
この式を見ると、ptは確信度です、確信度が高いほど損失が低いです。
これによって、確信度が高い分類の損失を小さくスケールして、より難しい分類が学習に強く寄与できるようになります。
网友评论