それでは、リンが発表させていただきます
今回の報告内容はセグメンテーションの評価方法とアノテーションに関することとPSPNetの実装です
Pixel Accuracyというのは、全体の画素に対して、正解画素の比率です。
この評価方法は不均衡データに弱いと言われています。
mIoUでは、最も使われている評価方法ですので、他の論文の手法と比較したい時、
実装しなくても、比較することが出来ます。
既存研究では、
Cityscapesといったデータセットを例として、Annotationに空白はかなり存在します。
この画像のように、黒色の部分は空白としています。
多くの論文では、モデルを学習する時、Lossにマスクをかけて、空白部分のLossを計算しないようにして、評価する時に、空白部分も評価しないです
この前頂いたサンプルデータを拡張してみました。
Dense-CRFsの手法を使用して、拡張の結果は真ん中の画像になります。
建機の小さい部分まで、きれいに拡張していると見えます。
この画像において、遠景の部分では、董さんの話より、アノテーションが難しい部分が多いので、大きめの空白が存在します。
Dense-CRFsの手法では、空白部分の周辺ピクセルを考慮するので、大きめの空白に対する拡張は精度が悪いと考えます。
以上より、アノテーションの構想としてまとめると
まず、境界まで塗り分けなくて、境界の部分を「要拡張」の部分とします。
逆に、頑張って境界まで塗り分けると、境界の部分のラベルは曖昧なので、正解とは言えないと考えます。
それと、遠景などアノテーションが難しい部分を「空白」として、先言ったように、「空白」の部分を学習しないにして、評価もしないにします。
「要拡張」の部分をDenseCRFsで拡張して、学習データとします。
また、推論する時、変な予測を防止するため、デプス画像を用いて、遠景の部分を排除することを考えています。
もう一つの選択として、新しい「遠景クラス」を定義するのは、変な学習になるかもしれないので、新しいクラスを定義しない方が良いと考えています。
PSPNetの実装に関しては、
その論文の著者のリポを使用します。
論文によると、Batch size と入力サイズはモデルの精度に大きい影響があると言われています。
また、論文の結果を再現するため、12GBメモリーのGPU四枚が必要だと言われています。
今回、二枚の1080Tiを使って、検証実験をやりました。
データセットはCityscapesです、trainは2963枚、テストは500枚です。
バックボーンネットワークはResnet50を使用しています。
Batch Sizeと入力サイズを変更して、他のパラメータは論文と同様です。
一行目は論文の結果で、それ以外は今回の実験結果です。
メモリーの制限で、Batch Sizeあるいは入力サイズを小さくします。
結果によって、Batch Sizeと入力サイズは精度に大きい影響を与えることを確認しました。
遠景などアノテーションが難しい部分に「空白」と言ったラベルで塗り分けて、境界など残った部分は「要拡張」とします。
网友评论