論文
要旨
- single-person pose estimator (SPPE) において、姿勢推定する際のHeatMapを改善するネットワークアーキテクチャ(HRNet)を提案した
- Pose EstimationおよびPose Trackingで既存研究を上回る精度を達成した
提案手法
- 解像度の異なる複数のサブネットワーク間で繰り返し結合させることで、高解像のFeature Mapを維持する(結果、質の高いFeature Mapが得られる)
- これまでの研究では、高解像度から低解像度のネットワークで高いレベルの特徴を抽出し、高解像度への復元するといった2段階構成であることが一般的である
- 提案手法は、トップダウンアプローチ(人物検出した後に姿勢推定を行う)であり、人物検出は既存研究の手法を用いる
結果
- Pose EstimationにおいてCOCO datasetとMPII datasetで、Pose TrackingにおいてはPose Track datasetで既存手法と比較した(共にSoTA)
- MPII test set (PCKh@0.5): 92.3
- 計算量においても優れている
- 28.5M params / 9.5 GFLOPs
関連研究
- Simple Baselines for Human Pose Estimation and Tracking, ECCV2018
- Deeply Learned Compositional Models for Human Pose Estimation, ECCV2018
- MPII datasetにおいて本研究と同等の精度
ml-papers.hatenablog.com
所感
- Feature Mapの改善はPose Estimationに限ったことではないので、論文のFeature Workで少し述べられていたが、Object DetectionやSemantic Segmentationなど他のタスクへの応用の可能性は高いと思う
- (論文の中身ではないが)この論文はUSTCの学生がMicrosoft Research Asiaにインターン中に書いたらしい(すごい)
備考