論文
要旨
- Pose Estimationにおいて、様々なスケールの特徴を捉えるため、bottom-upとtop-downを繰り返すネットワーク構造(Stacked Hourglass)を提案した
- 2つのベンチマーク(FLIC、MPII)で既存手法を上回る精度を達成した
提案手法
- local context(顔や手の特徴)とglobal context(体全体)の両方が必要となるため、様々なスケールの特徴を捉えるネットワークが望ましい
- 1つのhourglassモジュールでは、bottom-upを行い解像度を下げながらスケールの異なる特徴を抽出し、top-downで2つのfeature mapを結合しながらupsampingを行っていく
- 複数のhourglassモジュールを組み合わせたネットワークが、Stacked Hourglassである
- それぞれのhourglassモジュールでは、重み共有は行わず、同じground truthによってlossが計算される
- data augmentationとして、30度の回転と、0.75~1.25倍にスケールを実施した
- 入力画像から得られるheat mapと、水平反転した画像から得られるheat mapを平均を最終的なheat mapとする
結果
- FLICを用いた評価では、PCK@0.2 = 99% (elbow), 97% (wrist)を達成した(SoTA)
- MPIIにおいても、PCKh@0.5 = 90.9%と既存手法を上回る精度となった
- 中心にいる人物を検出するため、入力画像のスケールが異なる場合やシフトさせた場合、検出に影響が発生する場合がある
関連研究
- Convolutional pose machines, CVPR2016
所感
- シンプルな構成で高い精度を出しており、最近の研究でもhourglassをベースにした改良も行われている