ML論文まとめ

機械学習関連で読んだ論文をまとめています。

Deep High-Resolution Representation Learning for Human Pose Estimation

Pose Estimation CVPR2019

論文

Deep High-Resolution Representation Learning for Human Pose Estimation
Paper: https://arxiv.org/abs/1902.09212
Code: https://github.com/leoxiaobin/deep-high-resolution-net.pytorch
Submission Date: 2019.2

要旨

single-person pose estimator (SPPE) において、姿勢推定する際のHeatMapを改善するネットワークアーキテクチャ（HRNet）を提案した
Pose EstimationおよびPose Trackingで既存研究を上回る精度を達成した

提案手法

解像度の異なる複数のサブネットワーク間で繰り返し結合させることで、高解像のFeature Mapを維持する（結果、質の高いFeature Mapが得られる）
- 低解像度へのサブネットワークは順に増やしていく
これまでの研究では、高解像度から低解像度のネットワークで高いレベルの特徴を抽出し、高解像度への復元するといった2段階構成であることが一般的である
提案手法は、トップダウンアプローチ（人物検出した後に姿勢推定を行う）であり、人物検出は既存研究の手法を用いる

f:id:xkumiyu:20190507220211p:plain — HRNetのアーキテクチャ図

結果

Pose EstimationにおいてCOCO datasetとMPII datasetで、Pose TrackingにおいてはPose Track datasetで既存手法と比較した（共にSoTA）
- MPII test set (PCKh@0.5): 92.3
計算量においても優れている
- 28.5M params / 9.5 GFLOPs

f:id:xkumiyu:20190513000950p:plain — COCO test-val datasetでの結果

関連研究

Simple Baselines for Human Pose Estimation and Tracking, ECCV2018
- 本研究の元になった先行研究
Deeply Learned Compositional Models for Human Pose Estimation, ECCV2018
- MPII datasetにおいて本研究と同等の精度

ml-papers.hatenablog.com

所感

Feature Mapの改善はPose Estimationに限ったことではないので、論文のFeature Workで少し述べられていたが、Object DetectionやSemantic Segmentationなど他のタスクへの応用の可能性は高いと思う
（論文の中身ではないが）この論文はUSTCの学生がMicrosoft Research Asiaにインターン中に書いたらしい（すごい）

備考

コンピュータビジョンの最新論文調査 Human Recognition編 - Technology of DeNA