ML論文まとめ

機械学習関連で読んだ論文をまとめています。

Stacked Hourglass Networks for Human Pose Estimation

Pose Estimation ECCV2016

論文

Stacked Hourglass Networks for Human Pose Estimation
Paper: https://arxiv.org/abs/1603.06937
Submission Date: 2016.3

要旨

Pose Estimationにおいて、様々なスケールの特徴を捉えるため、bottom-upとtop-downを繰り返すネットワーク構造（Stacked Hourglass）を提案した
2つのベンチマーク（FLIC、MPII）で既存手法を上回る精度を達成した

提案手法

local context（顔や手の特徴）とglobal context（体全体）の両方が必要となるため、様々なスケールの特徴を捉えるネットワークが望ましい
1つのhourglassモジュールでは、bottom-upを行い解像度を下げながらスケールの異なる特徴を抽出し、top-downで2つのfeature mapを結合しながらupsampingを行っていく

f:id:xkumiyu:20190519184838p:plain — 1つのHourglassモジュールのアーキテクチャ図

複数のhourglassモジュールを組み合わせたネットワークが、Stacked Hourglassである
- 実験では、8つを組み合わせる
それぞれのhourglassモジュールでは、重み共有は行わず、同じground truthによってlossが計算される

f:id:xkumiyu:20190519184707p:plain — 提案手法（Stacked Hourglass）のアーキテクチャ図

data augmentationとして、30度の回転と、0.75~1.25倍にスケールを実施した
入力画像から得られるheat mapと、水平反転した画像から得られるheat mapを平均を最終的なheat mapとする

結果

FLICを用いた評価では、PCK@0.2 = 99% (elbow), 97% (wrist)を達成した（SoTA）
MPIIにおいても、PCKh@0.5 = 90.9%と既存手法を上回る精度となった

f:id:xkumiyu:20190519184937p:plain — MPII Human Pose (PCKh@0.5)での比較結果

中心にいる人物を検出するため、入力画像のスケールが異なる場合やシフトさせた場合、検出に影響が発生する場合がある

f:id:xkumiyu:20190519191227p:plain — 入力画像のスケールやシフトによる影響

関連研究

Convolutional pose machines, CVPR2016

所感

シンプルな構成で高い精度を出しており、最近の研究でもhourglassをベースにした改良も行われている