ML論文まとめ

機械学習関連で読んだ論文をまとめています。

Stacked Hourglass Networks for Human Pose Estimation

論文

要旨

  • Pose Estimationにおいて、様々なスケールの特徴を捉えるため、bottom-upとtop-downを繰り返すネットワーク構造(Stacked Hourglass)を提案した
  • 2つのベンチマーク(FLIC、MPII)で既存手法を上回る精度を達成した

提案手法

  • local context(顔や手の特徴)とglobal context(体全体)の両方が必要となるため、様々なスケールの特徴を捉えるネットワークが望ましい
  • 1つのhourglassモジュールでは、bottom-upを行い解像度を下げながらスケールの異なる特徴を抽出し、top-downで2つのfeature mapを結合しながらupsampingを行っていく

f:id:xkumiyu:20190519184838p:plain
1つのHourglassモジュールのアーキテクチャ図

  • 複数のhourglassモジュールを組み合わせたネットワークが、Stacked Hourglassである
    • 実験では、8つを組み合わせる
  • それぞれのhourglassモジュールでは、重み共有は行わず、同じground truthによってlossが計算される

f:id:xkumiyu:20190519184707p:plain
提案手法(Stacked Hourglass)のアーキテクチャ図

  • data augmentationとして、30度の回転と、0.75~1.25倍にスケールを実施した
  • 入力画像から得られるheat mapと、水平反転した画像から得られるheat mapを平均を最終的なheat mapとする

結果

  • FLICを用いた評価では、PCK@0.2 = 99% (elbow), 97% (wrist)を達成した(SoTA)
  • MPIIにおいても、PCKh@0.5 = 90.9%と既存手法を上回る精度となった

f:id:xkumiyu:20190519184937p:plain
MPII Human Pose (PCKh@0.5)での比較結果

  • 中心にいる人物を検出するため、入力画像のスケールが異なる場合やシフトさせた場合、検出に影響が発生する場合がある

f:id:xkumiyu:20190519191227p:plain
入力画像のスケールやシフトによる影響

関連研究

  • Convolutional pose machines, CVPR2016

所感

  • シンプルな構成で高い精度を出しており、最近の研究でもhourglassをベースにした改良も行われている