ML論文まとめ

機械学習関連で読んだ論文をまとめています。

Deep High-Resolution Representation Learning for Human Pose Estimation

論文

要旨

  • single-person pose estimator (SPPE) において、姿勢推定する際のHeatMapを改善するネットワークアーキテクチャ(HRNet)を提案した
  • Pose EstimationおよびPose Trackingで既存研究を上回る精度を達成した

提案手法

  • 解像度の異なる複数のサブネットワーク間で繰り返し結合させることで、高解像のFeature Mapを維持する(結果、質の高いFeature Mapが得られる)
    • 低解像度へのサブネットワークは順に増やしていく
  • これまでの研究では、高解像度から低解像度のネットワークで高いレベルの特徴を抽出し、高解像度への復元するといった2段階構成であることが一般的である
  • 提案手法は、トップダウンアプローチ(人物検出した後に姿勢推定を行う)であり、人物検出は既存研究の手法を用いる

f:id:xkumiyu:20190507220211p:plain
HRNetのアーキテクチャ図

結果

  • Pose EstimationにおいてCOCO datasetとMPII datasetで、Pose TrackingにおいてはPose Track datasetで既存手法と比較した(共にSoTA)
    • MPII test set (PCKh@0.5): 92.3
  • 計算量においても優れている
    • 28.5M params / 9.5 GFLOPs

f:id:xkumiyu:20190513000950p:plain
COCO test-val datasetでの結果

関連研究

  • Simple Baselines for Human Pose Estimation and Tracking, ECCV2018
    • 本研究の元になった先行研究
  • Deeply Learned Compositional Models for Human Pose Estimation, ECCV2018
    • MPII datasetにおいて本研究と同等の精度

ml-papers.hatenablog.com

所感

  • Feature Mapの改善はPose Estimationに限ったことではないので、論文のFeature Workで少し述べられていたが、Object DetectionやSemantic Segmentationなど他のタスクへの応用の可能性は高いと思う
  • (論文の中身ではないが)この論文はUSTCの学生がMicrosoft Research Asiaにインターン中に書いたらしい(すごい)

備考