BETVLCTOR伟德官方网站封润洋同学以第一作者身份撰写的科研论文被CCF-A类会议ICCV'2023会议接收。
ICCV,全称为国际计算机视觉大会( International Conference on Computer Vision),由IEEE主办,每两年在世界范围内召开一次,在业内具有极高的评价。ICCV是计算机视觉领域全球最高级别学术会议之一。
文章详情
论文题目:DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose Estimation
第一作者:封润洋
封润洋同学是BETVLCTOR伟德官方网站2022级博士研究生,由BETVLCTOR伟德官方网站高一星助理教授指导。封润洋同学一直从事人体姿态估计相关的研究工作,本篇工作与英国伯明翰大学的Hyung Jin Chang教授合作完成。
指导教师:高一星
收录会议:ICCV'2023
会议类别:CCF-A
论文概述:
最初为图像生成而提出的去噪扩散概率模型近期在各种感知任务(如目标检测和图像分割)中取得了成功,并在计算机视觉领域日益受到关注。然而,由于视频中存在额外的时间维度,将扩散模型扩展到多帧人体姿态估计并非易事。更重要的是,学习专注于关键点区域的表征对于准确定位人体关节至关重要。在本文中,我们提出了DiffPose——一种新颖的扩散架构,它将基于视频的人体姿态估计形式化为条件热图生成问题。 首先,为了更好地利用时序信息,我们提出了时空表征学习器,该学习器聚合了跨帧的视觉信息,并在每个去噪步骤中使用由此产生的特征作为条件。此外,我们提出了一种基于查找的多尺度特征交互机制,该机制确定了多尺度下局部关节和全局上下文之间的相关性。该机制可生成专注于关键点区域的精细化表征。通过扩展扩散模型,我们展示了DiffPose在姿态估计任务中的两个独特优势:(1)整合多组姿态预测来提高预测精度,特别是对于具有挑战性的关节;(2)调整特征优化迭代步骤而无需重新训练模型。DiffPose在三个基准上取得了最好的结果: PoseTrack2017、PoseTrack2018和PoseTrack21。