Publications | Hao Tang

2026

ACM MM

CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving

Zhaohui Wang, Tengbo Yu, Hao Tang*

In ACM MM 2026, Rio de Janeiro, Brazil

PDF Code
ECCV

EvoVLA: Self-Evolving Vision-Language-Action Model

Zeting Liu, Zida Yang, Zeyu Zhang, Hao Tang*

In ECCV, 2026

PDF Code
ECCV

MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots

Ting Huang, Dongjian Li, Rui Yang, Zeyu Zhang, Zida Yang, Hao Tang*

In ECCV, 2026

PDF Code
ECCV

ReMoMask: Retrieval-Augmented Masked Motion Generation

Zhengdao Li, Siheng Wang, Zeyu Zhang, Hao Tang*

In ECCV, 2026

PDF Code
ECCV

PhysRAG: Enhancing Physics-Awareness in Video Generation via Retrieval-Augmented Generation

Kexu Cheng, Zicheng Liu, Mingju Gao, Chunhe Song*, Hao Tang*

In ECCV, 2026

PDF Code
CVPR
Highlight

OralGPT-Plus: Learning to Use Visual Tools via Reinforcement Learning for Panoramic X-ray Analysis

Yuxuan Fan, Jing Hao, Hong Chen, Jiahao Bao, Yihua Shao, Yuci Liang, Kuo Feng Hung, Hao Tang*

In CVPR 2026, Denver, USA

PDF Code
CVPR

OralGPT-Omni: A Versatile Dental Multimodal Large Language Model

Jing Hao, Yuci Liang, Lizhuo Lin, Yuxuan Fan, Wenkai Zhou, Kaixin Guo, Zanting Ye, Yanpeng Sun, Xinyu Zhang, Yanqi Yang, Qiankun Li, Hao Tang, James Kit-Hon Tsoi, Linlin Shen, Kuo Feng Hung

In CVPR 2026, Denver, USA

PDF Code
CVPR

PAM: A Pose-Appearance-Motion Engine for Sim-to-Real HOI Video Generation

Mingju Gao, Kaisen Yang, Huan-ang Gao, Bohan Li, Ao Ding, Wenyi Li, Yangcheng Yu, Jinkun Liu, Shaocong Xu, Yike Niu, Haohan Chi, Hao Chen, Hao Tang, Yu Zhang, Li Yi, Hao Zhao

In CVPR 2026, Denver, USA

PDF Code
CVPR

MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

Xiaokun Sun, Zeyu Cai, Hao Tang, Ying Tai, Jian Yang, Zhenyu Zhang

In CVPR 2026, Denver, USA

PDF Code
AAMAS
Oral

Structured Agent Distillation for Large Language Model Agents

Jun Liu, Zhenglun Kong, Peiyan Dong, Changdi Yang, Tianqi Li, Hao Tang*, Geng Yuan, Wei Niu, Wenbin Zhang, Pu Zhao*, Xue Lin, Dong Huang, Yanzhi Wang

In AAMAS 2026, Paphos, Cyprus

PDF Code
TVCG

DreamBarbie: Text to Barbie-Style 3D Avatars

Xiaokun Sun, Zhenyu Zhang, Ying Tai, Qian Wang, Hao Tang, Zili Yi, Jian Yang

IEEE Transactions on Visualization and Computer Graphics (TVCG), 2026

PDF Code
ICRA

StereoAdapter: Adapting Stereo Depth Estimation to Underwater Scenes

Zhengri Wu, Yiran Wang, Yu Wen, Zeyu Zhang, Biao Wu, Hao Tang*

In ICRA, 2026, Vienna, Austria

PDF Code
ICLR

VaseVQA-3D: Benchmarking 3D VLMs on Ancient Greek Pottery

Nonghai Zhang, Zeyu Zhang, Jiazi Wang, Yang Zhao, Hao Tang*

In ICLR, 2026, Rio de Janeiro, Brazil

PDF Code
ICLR
Oral

Hallucination Begins Where Saliency Drops

Xiaofeng Zhang, Yuanchao Zhu, Chaochen Gu, Xiaosong Yuan, Qiyan Zhao, Jiawei Cao, Feilong Tang, Sinan Fan, Yaomin Shen, Chen Shen, Hao Tang

In ICLR, 2026, Rio de Janeiro, Brazil

PDF Code
ICLR

MoSA: Motion-Coherent Human Video Generation via Structure-Appearance Decoupling

Haoyu Wang, Hao Tang, Donglin Di, Zhilu Zhang, Wangmeng Zuo, Feng Gao, Siwei Ma, Shiliang Zhang

In ICLR, 2026, Rio de Janeiro, Brazil

PDF Code
ICLR

SpikeStereoNet: A Brain-Inspired Framework for Stereo Depth Estimation from Spike Streams

Zhuoheng Gao, Yihao Li, Jiyao Zhang, Rui Zhao, Tong Wu, Hao Tang, Zhaofei Yu, Hao Dong, Guozhang Chen, Tiejun Huang

In ICLR, 2026, Rio de Janeiro, Brazil

PDF Code
TPAMI

AllRestorer: All-in-One Transformer for Image Restoration under Composite Degradations

Jiawei Mao, Yu Yang, Xuesong Yin, Ling Shao, Hao Tang*

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2026

PDF Code

2025

AAMAS

Resolving Task Objective Conflicts in Unified Multimodal Understanding and Generation via Task-Aware Mixture-of-Experts

Jiaxing Zhang, Hao Tang*

In AAMAS 2026, Paphos, Cyprus

PDF Code
AAAI

ICM-Fusion: In-Context Meta-Optimized LoRA Fusion for Multi-Task Adaptation

Yihua Shao, Xiaofeng Lin, Xinwei Long, Siyu Chen, Minxi Yan, Yang Liu, Ziyang Yan, Ao Ma, Hao Tang, Jingcai Guo

In AAAI 2026, Singapore City, Singapore

PDF Code
AAAI

TR-DQ: Time-Rotation Diffusion Quantization

Yihua Shao, Deyang Lin, Minxi Yan, Siyu Chen, Fanhu Zeng, Minwen Liao, Ao Ma, Ziyang Yan, Haozhe Wang, Yan Wang, Zhi Chen, Xiaofeng Cao, Haotong Qin*, Hao Tang*, Jingcai Guo*

In AAAI 2026, Singapore City, Singapore

PDF Code
3DV

3D Coca: Contrastive Learners Are 3D Captioners

Ting Huang, Zeyu Zhang, Yemin Wang, Hao Tang*

In 3DV 2026, Vancouver, Canada

PDF Code
3DV

GRADRobot: Geometry-Aware Rendering with Articulation and Diffusion for Robot Modeling

Yunlong Li, Boyuan Chen, Chongjie Ye, Bohan Li, Zhaoxi Chen, Shaocong Xu, Hao Tang, Hao Zhao

In 3DV 2026, Vancouver, Canada

PDF Code
IJCV

Multimodal Alignment and Fusion: A Survey

Songtao Li, Hao Tang*

Springer International Journal of Computer Vision (IJCV), 2025

PDF Code
NeurIPS
Spotlight

RobustMerge: Parameter-Efficient Model Merging for MLLMs with Direction Robustness

Fanhu Zeng, Haiyang Guo, Fei Zhu*, Li Shen, Hao Tang*

In NeurIPS 2025, San Diego, USA

PDF Code
NeurIPS

Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset for Panoramic X-ray Analysis

Jing Hao, Yuxuan Fan, Yanpeng Sun, Kaixin Guo, Lizhuo Lin, Jinrong Yang, Qi Yong H. Ai, Lun M. Wong, Hao Tang*, Kuo Feng Hung*

In NeurIPS 2025, San Diego, USA

PDF Code
NeurIPS

Enhancing Diffusion-based Unrestricted Adversarial Attacks via Adversary Preferences Alignment

Kaixun Jiang, Zhaoyu Chen, HaiJing Guo, Jinglun Li, Jiyuan Fu, Pinxue Guo, Hao Tang, Bo Li, Wenqiang Zhang

In NeurIPS 2025, San Diego, USA

PDF Code
NeurIPS

Boosting Adversarial Transferability with Spatial Adversarial Alignment

Zhaoyu Chen, Haijing Guo, Kaixun Jiang, Jiyuan Fu, Xinyu Zhou, Dingkang Yang, Hao Tang, Bo Li, Wenqiang Zhang

In NeurIPS 2025, San Diego, USA

PDF Code
CVIU

Generalization-Preserving Adaptation of Vision-Language Models for Open-Vocabulary Segmentation

Zhen Chen, Hao Tang, Shiliang Zhang

Elsevier Computer Vision and Image Understanding (CVIU), 2025

PDF Code
TPAMI

Spatial-Temporal Graph Mamba for Music-Guided Dance Video Synthesis

Hao Tang, Ling Shao, Zhenyu Zhang, Luc Van Gool, Nicu Sebe

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

PDF Code
CoRL

3DS-VLA: A 3D Spatial-Aware Vision Language Action Model for Robust Multi-Task Manipulation

Xiaoqi Li, Liang Heng, Jiaming Liu, Yan Shen, Chenyang Gu, Zhuoyang Liu, Hao Chen, Nuowei Han, Renrui Zhang, Hao Tang, Shanghang Zhang, Hao Dong

In CoRL 2025, Seoul, Korea

PDF Code
CoRL
Workshop

GRADRobot: Geometry-Aware Rendering with Articulation and Diffusion for Robot Modeling

Yunlong Li, Boyuan Chen, Chongjie Ye, Bohan Li, Zhaoxi Chen, Shaocong Xu, Hao Tang, Hao Zhao

In CoRL 2025, Seoul, Korea

PDF Code
ACM MM

EventVAD: Training-free Event-aware Video Anomaly Detection

Yihua Shao, Haojin He, Sijie Li, Siyu Chen, Xinwei Long, Fanhu Zeng, Yuxuan Fan, Muyang Zhang, Ziyang Yan, Ao Ma, Xiaochen Wang, Hao Tang, Yan Wang, Shuyan Li

In ACM MM 2025, Dublin, Ireland

PDF Code
ICCV

MaskSAM: Towards Auto-prompt SAM with Mask Classification for Medical Image Segmentation

Bin Xie, Hao Tang, Bin Duan, Dawen Cai, Yan Yan, Gady Agam

In ICCV 2025, Honolulu, USA

PDF Code
IROS
Oral

TTTFusion: A Test-Time Training-Based Strategy for Multimodal Medical Image Fusion in Surgical Robots

Qinhua Xie, Hao Tang*

In IROS 2025, Hangzhou, China

PDF Code
IROS
Oral

CRUISE: Cooperative Reconstruction and Editing in V2X Scenarios using Gaussian Splatting

Haoran Xu, Saining Zhang, Peishuo Li, Baijun Ye, Xiaoxue Chen, Huan-ang Gao, Jv Zheng, Xiaowei Song, Ziqiao Peng, Run Miao, Jinrang Jia, Yifeng Shi, Guangqi Yi, Hang Zhao, Hao Tang, Hongyang Li, Kaicheng Yu, Hao Zhao

In IROS 2025, Hangzhou, China

PDF Code
TCSVT

Dual Attention Guidance Network for Self-Supervised Monocular Depth Estimation

Ying Zhu, Hong Liu, Guoliang Hua, Hao Tang, Yidi Li, Weibo Huang

IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), 2025

PDF Code
IJCV

AutoViT: Achieving Real-Time Vision Transformers on Mobile via Latency-aware Coarse-to-Fine Search

Zhenglun Kong, Dongkuan Xu, Zhengang Li, Peiyan Dong, Hao Tang, Yanzhi Wang, Subhabrata Mukherjee

Springer International Journal of Computer Vision (IJCV), 2025

PDF Code
IJCAI

Semantic-Guided Diffusion Model for Single-Step Image Super-Resolution

Zihang Liu, Zhenyu Zhang, Hao Tang*

In IJCAI 2025, Montreal, Canada

PDF Code
IJCAI

In-Context Meta LoRA Generation

Yihua Shao, Minxi Yan, Yang Liu, Siyu Chen, Wenjie Chen, Xinwei Long, Ziyang Yan, Lei Li, Chenyu Zhang, Nicu Sebe, Hao Tang*, Yan Wang, Hao Zhao, Mengzhu Wang, Jingcai Guo*

In IJCAI 2025, Montreal, Canada

PDF Code
IJCAI

FairSMOE: Mitigating Multi-Attribute Fairness Problem with Sparse Mixture-of-Experts

Changdi Yang, Zheng Zhan, Ci Zhang, Yifan Gong, Yize Li, Zichong Meng, Jun Liu, Xuan Shen, Hao Tang, Geng Yuan, Pu Zhao, Xue Lin, Yanzhi Wang

In IJCAI 2025, Montreal, Canada

PDF Code
Advanced
Science

Smart Organic–Inorganic Copolymer Nanoparticles Distinguish Between Microglia and Cancer Cells for Synergistic Immunotherapy in Glioma

Shiming Zhang, Kun Shang, Lidong Gong, Qian Xie, Jianfei Sun, Meng Xu, Xunbin Wei, Zhaoheng Xie, Xinyu Liu, Hao Tang, Zhengren Xu, Wei Wang, Haihua Xiao, Zhiqiang Lin, Hongbin Han

Advanced Science, 2025

PDF Code
CVPR
Oral

DiffFNO: Diffusion Fourier Neural Operator

Xiaoyi Liu, Hao Tang*

In CVPR 2025, Nashville, USA

PDF Code
CVPR

MambaIC: State Space Models for High-Performance Learned Image Compression

Fanhu Zeng, Hao Tang, Yihua Shao, Siyu Chen, Ling Shao, Yan Wang

In CVPR 2025, Nashville, USA

PDF Code
CVPR

PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model

Mingju Gao, Yike Pan, Huan-ang Gao, Zongzheng Zhang, Wenyi Li, Hao Dong, Hao Tang, Li Yi, Hao Zhao

In CVPR 2025, Nashville, USA

PDF Code
ICRA

Toward Zero-Shot Learning for Visual Dehazing of Urological Surgical Robots

Renkai Wu, Xianjin Wang, Pengchen Liang, Zhenyu Zhang, Qing Chang*, Hao Tang*

In ICRA 2025, Atlanta, USA

PDF Code
NAACL

From Redundancy to Relevance: Information Flow in LVLMs Across Reasoning Tasks

Xiaofeng Zhang, Yihao Quan, Chen Shen, Xiaosong Yuan, Shaotian Yan, Liang Xie, Wenxiao Wang, Chaochen Gu, Hao Tang, Jieping Ye

In NAACL 2025, Albuquerque, USA

PDF Code
AAAI

Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment

Jun Liu, Zhenglun Kong, Pu Zhao, Changdi Yang, Hao Tang*, Xuan Shen, Geng Yuan, Wei Niu, Wenbin Zhang, Xue Lin, Dong Huang*, Yanzhi Wang*

In AAAI 2025, Philadelphia, USA

PDF Code
AAAI

Stable-Hair: Real-World Hair Transfer via Diffusion Model

Yuxuan Zhang, Qing Zhang, Yiren Song, Jichao Zhang, Hao Tang, Jiaming Liu

In AAAI 2025, Philadelphia, USA

PDF Code
AAAI

Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling

Jianan Jiang, Hao Tang*, Zhilin Jiang, Weiren Yu, Di Wu*

In AAAI 2025, Philadelphia, USA

PDF Code
TPAMI

Enhanced Multi-Scale Cross-Attention for Person Image Generation

Hao Tang, Ling Shao, Nicu Sebe, Luc Van Gool

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

PDF Code

2024

TMM

Hierarchical Cross-Attention Network for Virtual Try-On

Hao Tang, Bin Ren, Pingping Wu, Nicu Sebe

IEEE Transactions on Multimedia (TMM), 2024

PDF Code
TCAD

TSLA: A Task-Specific Learning Adaptation for Semantic Segmentation on Autonomous Vehicles Platform

Jun Liu, Zhenglun Kong, Pu Zhao, Weihao Zeng, Hao Tang, Xuan Shen, Changdi Yang, Wenbin Zhang, Geng Yuan, Wei Niu, Xue Lin, Yanzhi Wang

IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems (TCAD), 2024

PDF Code
NeurIPS

Revisiting Adversarial Patches for Designing Camera-Agnostic Attacks against Person Detection

Hui Wei, Zhixiang Wang, Kewei Zhang, Jiaqi Hou, Yuanwei Liu, Hao Tang, Zheng Wang

In NeurIPS 2024, Vancouver, Canada

PDF Code
PR

GraphMLP: A Graph MLP-like Architecture for 3D Human Pose Estimation

Wenhao Li, Mengyuan Liu, Hong Liu, Tianyu Guo, Ti Wang, Hao Tang, Nicu Sebe

Elsevier Pattern Recognition (PR), 2024

PDF Code
PR

A Pure MLP-Mixer-based GAN Framework for Guided Image Translation

Hao Tang, Bin Ren, Nicu Sebe

Elsevier Pattern Recognition (PR), 2024

PDF Code
ACM MM
Oral

ConsistentAvatar: Learning to Diffuse Fully Consistent Talking Head Avatar with Temporal Guidance

Haijie Yang, Zhenyu Zhang, Hao Tang, Jianjun Qian, Jian Yang

In ACM MM 2024, Melbourne, Australia

PDF Code
ACM MM

CoIn: A Lightweight and Effective Framework for Story Visualization and Continuation

Ming Tao, Bao Bingkun, Hao Tang, Yaowei Wang, Changsheng Xu

In ACM MM 2024, Melbourne, Australia

PDF Code
TPAMI

Physical Adversarial Attack Neets Computer Vision: A Decade Survey

Hui Wei, Hao Tang, Xuemei Jia, Zhixiang Wang, Hanxun Yu, Zhubo Li, Shin'ichi Satoh, Luc Van Gool, Zheng Wang

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

PDF Code
ECCV

Motion Mamba: Efficient and Long Sequence Motion Generation with Hierarchical and Bidirectional Selective SSM

Zeyu Zhang, Akide Liu, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang*

In ECCV 2024, Milan, Italy

PDF Code
ECCV

3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance

Xiaoxu Xu, Yitian Yuan, Jinlong Li, Qiudan Zhang, Zequn Jie, Lin Ma, Hao Tang, Nicu Sebe, Xu Wang

In ECCV 2024, Milan, Italy

PDF Code
ECCV

StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion

Ming Tao, Bingkun Bao, Hao Tang, Yaowei Wang, Changsheng Xu

In ECCV 2024, Milan, Italy

PDF Code
ECCV

InstructGIE: Towards Generalizable Image Editing

Zichong Meng, Changdi Yang, Jun Liu, Hao Tang*, Pu Zhao*, Yanzhi Wang*

In ECCV 2024, Milan, Italy

PDF Code
ECCV

SCP-Diff: Photo-Realistic Semantic Image Synthesis with Spatial-Categorical Joint Prior

Huan-ang Gao, Mingju Gao, Jiaju Li, Wenyi Li, Rong Zhi, Hao Tang, Hao Zhao

In ECCV 2024, Milan, Italy

PDF Code
ECCV

Dataset Growth

Ziheng Qin, Zhaopan Xu, Yukun Zhou, Zangwei Zheng, Zebang Cheng, Hao Tang, Lei Shang, Baigui Sun, Xiaojiang Peng, Radu Timofte, Hongxun Yao, Kai Wang, Yang You

In ECCV 2024, Milan, Italy

PDF Code
CVPR

HandDiff: 3D Hand Pose Estimation with Diffusion on Image-Point Cloud

Wencan Cheng, Hao Tang, Luc Van Gool, Jong Hwan Ko

In CVPR 2024, Seattle, USA

PDF Code
CVPR

Versatile Navigation under Partial Observability via Value-guided Diffusion Policy

Gengyu Zhang, Hao Tang, Yan Yan

In CVPR 2024, Seattle, USA

PDF Code
CVPR

Towards Robust 3D Pose Transfer with Adversarial Learning

Haoyu Chen, Hao Tang, Ehsan Adeli, Guoying Zhao

In CVPR 2024, Seattle, USA

PDF Code
CVPR

On the Faithfulness of Vision Transformer Explanations

Junyi Wu, Weitai Kang, Hao Tang, Yuan Hong, Yan Yan

In CVPR 2024, Seattle, USA

PDF Code
CVPR

Token Transformation Matters: Towards Faithful Post-hoc Explanation for Vision Transformer

Junyi Wu, Bin Duan, Weitai Kang, Hao Tang, Yan Yan

In CVPR 2024, Seattle, USA

PDF Code
CVPR

SSR-Encoder: Encoding Selective Subject Representation for Subject-Driven Generation

Yuxuan Zhang, Jiaming Liu, Yiren Song, Rui Wang, Hao Tang, Jinpeng Yu, Huaxia Li, Xu Tang, Yao Hu, Han Pan, Zhongliang Jing

In CVPR 2024, Seattle, USA

PDF Code
CVPR

Distilling ODE Solvers of Diffusion Models into Smaller Steps

Sanghwan Kim, Hao Tang*, Fisher Yu

In CVPR 2024, Seattle, USA

PDF Code
CVPR
Workshop

Towards Online Real-Time Memory-based Video Inpainting Transformers

Guillaume Thiry, Hao Tang*, Radu Timofte, Luc Van Gool

In CVPR 2024, Seattle, USA

PDF Code
TPAMI

Graph Transformer GANs with Graph Masked Modeling for Architectural Layout Generation

Hao Tang, Ling Shao, Nicu Sebe, Luc Van Gool

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

PDF Code

2023

AAAI

G2P-DDM: Generating Sign Pose Sequence from Gloss Sequence with Discrete Diffusion Model

Pan Xie, Qipeng Zhang, Peng Taiying, Hao Tang*, Yao Du, Zexian Li

In AAAI 2024, Vancouver, Canada

PDF Code
NeurIPS

HotBEV: Hardware-oriented Transformer-based Multi-View 3D Detector for BEV Perception

Peiyan Dong, Zhenglun Kong, Xin Meng, Pinrui Yu, Yifan Gong, Geng Yuan, Hao Tang*, Yanzhi Wang

In NeurIPS 2023, New Orleans, USA

PDF Code
NeurIPS

PackQViT: Faster Sub-8-bit Vision Transformers via Full and Packed Quantization on the Mobile

Peiyan Dong, Lei Lu, Chao Wu, Cheng Lyu, Geng Yuan, Hao Tang*, Yanzhi Wang

In NeurIPS 2023, New Orleans, USA

PDF Code
NeurIPS

LART: Neural Correspondence Learning with Latent Regularization Transformer for 3D Motion Transfer

Haoyu Chen, Hao Tang, Radu Timofte, Luc Van Gool, Guoying Zhao

In NeurIPS 2023, New Orleans, USA

PDF Code
NeurIPS

Does Graph Distillation See Like Vision Dataset Counterpart?

Beining Yang, Kai Wang, Qingyun Sun, Cheng Ji, Xingcheng Fu, Hao Tang, Yang You, Jianxin Li

In NeurIPS 2023, New Orleans, USA

PDF Code
MIR

Practical Blind Image Denoising via Swin-Conv-UNet and Data Synthesis

Kai Zhang, Yawei Li, Jingyun Liang, Jiezhang Cao, Yulun Zhang, Hao Tang, Dengping Fan, Radu Timofte, Luc Van Gool

Springer Machine Intelligence Research (MIR), 2023

PDF Code
TCSVT

Towards High-quality HDR Deghosting with Conditional Diffusion Models

Qingsen Yan, Tao Hu, Yuan Sun, Hao Tang, Yu Zhu, Wei Dong, Luc Van Gool, Yanning Zhang

IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), 2023

PDF Code
TPAMI

Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic Image Synthesis

Hao Tang, Guolei Sun, Nicu Sebe, Luc Van Gool

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

PDF Code
ICCV

Learning Concordant Attention via Target-aware Alignment for Visible-Infrared Person Re-identification

Jianbing Wu, Hong Liu, Yuxin Su, Wei Shi, Hao Tang

In ICCV 2023, Paris, France

PDF Code
ICML

SpeedDETR: Speed-aware Transformers for End-to-end Object Detection

Peiyan Dong, Zhenglun Kong, Xin Meng, Peng Zhang, Hao Tang*, Yanzhi Wang, Chih-Hsien Chou

In ICML 2023, Hawaii, USA

PDF Code
IJCAI

Data Level Lottery Ticket Hypothesis for Vision Transformers

Xuan Shen, Zhenglun Kong, Minghai Qin, Peiyan Dong, Geng Yuan, Xin Meng, Hao Tang, Xiaolong Ma, Yanzhi Wang

In IJCAI 2023, Macao, China

PDF Code
IJCAI

RZCR: Zero-shot Character Recognition via Radical-based Reasoning

Xiaolei Diao, Daqian Shi, Hao Tang, Qiang Shen, Yanzeng Li, Lei Wu, Hao Xu

In IJCAI 2023, Macao, China

PDF Code
JSTSP

Measuring the Consistency and Diversity of 3D Face Generation

Kunlin Liu, Wenbo Zhou, Zhenyu Zhang, Yanhao Ge, Hao Tang, Weiming Zhang, Nenghai Yu

IEEE Journal of Selected Topics in Signal Processing (JSTSP), 2023

PDF Code
TGRS

Transductive Prototypical Attention Reasoning Network for Few-shot SAR Target Recognition

Haohao Ren, Sen Liu, Xuelian Yu, Lin Zou, Yun Zhou, Xuegang Wang, Hao Tang

IEEE Transactions on Geoscience and Remote Sensing (TGRS), 2023

PDF Code
PR

Multi-Hypothesis Representation Learning for Transformer-Based 3D Human Pose Estimation

Wenhao Li, Hong Liu, Hao Tang, Pichao Wang

Elsevier Pattern Recognition (PR), 2023

PDF Code
CVPR

Graph Transformer GANs for Graph-Constrained House Generation

Hao Tang, Zhenyu Zhang, Humphrey Shi, Bo Li, Ling Shao, Nicu Sebe, Radu Timofte, Luc Van Gool

In CVPR 2023, Vancouver, Canada

PDF Code
CVPR

Unsupervised Deep Probabilistic Approach for Partial Point Cloud Registration

Guofeng Mei, Hao Tang, Xiaoshui Huang, Weijie Wang, Juan Liu, Jian Zhang, Luc Van Gool, Qiang Wu

In CVPR 2023, Vancouver, Canada

PDF Code
CVPR

SMAE: Few-shot Learning for HDR Deghosting with Saturation-Aware Masked Autoencoders

Qingsen Yan, Song Zhang, Weiye Chen, Hao Tang, Yu Zhu, Jinqiu Sun, Luc Van Gool, Yanning Zhang

In CVPR 2023, Vancouver, Canada

PDF Code
CVPR

DeepMAD: Mathematical Architecture Design for Deep Convolutional Neural Network

Xuan Shen, Yaohua Wang, Ming Lin, Yilun Huang, Hao Tang, Xiuyu Sun, Yanzhi Wang

In CVPR 2023, Vancouver, Canada

PDF Code
CVPR

GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis

Ming Tao, Bingkun Bao, Hao Tang, Changsheng Xu

In CVPR 2023, Vancouver, Canada

PDF Code
CVPR

Pruning Parameterization with Bi-level Optimization for Efficient Semantic Segmentation on the Edge

Changdi Yang, Pu Zhao, Yanyu Li, Wei Niu, Jiexiong Guan, Hao Tang, Minghai Qin, Bin Ren, Xue Lin, Yanzhi Wang

In CVPR 2023, Vancouver, Canada

PDF Code
TCSVT

Go Closer To See Better: Camouflaged Object Detection via Object Area Amplification and Figure-ground Conversion

Haozhe Xing, Yan Wang, Xujun Wei, Hao Tang, Shuyong Gao, Wenqiang Zhang

IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), 2023

PDF Code
ICASSP

MLP-GAN for Brain Vessel Image Segmentation

Bin Xie, Hao Tang, Bin Duan, Dawen Cai, Yan Yan

In ICASSP 2023, Rhodes Island, Greece

PDF Code
ICASSP

PI-Trans: Parallel-ConvMLP and Implicit-Transformation Based GAN for Cross-View Image Translation

Bin Ren, Hao Tang, Yiming Wang, Xia Li, Wei Wang, Nicu Sebe

In ICASSP 2023, Rhodes Island, Greece

PDF Code
ICASSP

TinyCOD: Tiny and Effective Model for Camouflaged Object Detection

Haozhe Xing, Shuyong Gao, Hao Tang, Tsui Qin Mok, Yanlan Kang, Wenqiang Zhang

In ICASSP 2023, Rhodes Island, Greece

PDF Code
ICLR

Edge Guided GANs with Contrastive Learning for Semantic Image Synthesis

Hao Tang, Xiaojuan Qi, Guolei Sun, Dan Xu, Nicu Sebe, Radu Timofte, Luc Van Gool

In ICLR 2023, Kigali, Rwanda

PDF Code
TMM

Interaction Transformer for Human Reaction Generation

Baptiste Chopin, Hao Tang, Naima Otberdout, Mohamed Daoudi, Nicu Sebe

IEEE Transactions on Multimedia (TMM), 2023

PDF Code
AAAI

DE-Net: Dynamic Text-guided Image Editing Adversarial Networks

Ming Tao, Bingkun Bao, Hao Tang, Fei Wu, Longhui Wei, Qi Tian

In AAAI 2023, Washington DC, USA

PDF Code
AAAI
Oral

Peeling the Onion: Hierarchical Reduction of Data Redundancy for Efficient Vision Transformer Training

Zhenglun Kong, Haoyu Ma, Geng Yuan, Mengshu Sun, Yanyue Xie, Peiyan Dong, Xin Meng, Xuan Shen, Hao Tang, Minghai Qin, Tianlong Chen, Xiaolong Ma, Xiaohui Xie, Zhangyang Wang, Yanzhi Wang

In AAAI 2023, Washington DC, USA

PDF Code
AAAI Oral

HOTCOLD Block: Fooling Thermal Infrared Detectors with a Novel Wearable Design

Hui Wei, Zhixiang Wang, Xuemei Jia, Yinqiang Zheng, Hao Tang, Shin'ichi Satoh, Zheng Wang

In AAAI 2023, Washington DC, USA

PDF Code
AAAI

Towards Real-Time Segmentation on the Edge

Yanyu Li, Changdi Yang, Pu Zhao, Geng Yuan, Wei Niu, Jiexiong Guan, Hao Tang, Minghai Qin, Qing Jin, Bin Ren, Xue Lin, Yanzhi Wang

In AAAI 2023, Washington DC, USA

PDF Code

2022

IJCV

Bipartite Graph Reasoning GANs for Person Pose and Facial Image Synthesis

Hao Tang, Ling Shao, Philip HS Torr, Nicu Sebe

Springer International Journal of Computer Vision (IJCV), 2022

PDF Code
TIP

Quasi-equilibrium Feature Pyramid Network for Salient Object Detection

Yue Song, Hao Tang, Mengyi Zhao, Nicu Sebe, Wei Wang

IEEE Transactions on Image Processing (TIP), 2022

PDF Code
TCSVT

AO2-DETR: Arbitrary-Oriented Object Detection Transformer

Linhui Dai, Hong Liu, Hao Tang, Zhiwei Wu, Pinhao Song

IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), 2022

PDF Code
BMVC

SiNeRF: Sinusoidal Neural Radiance Fields for Joint Pose Estimation and Scene Reconstruction

Yitong Xia, Hao Tang, Radu Timofte, Luc Van Gool

In BMVC 2022, London, UK

PDF Code
TPAMI

Multi-Channel Attention Selection GANs for Guided Image-to-Image Translation

Hao Tang, Philip HS Torr, Nicu Sebe

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

PDF Code
TAFFC

Facial Expression Translation using Landmark Guided GANs

Hao Tang, Nicu Sebe

IEEE Transactions on Affective Computing (TAFFC), 2022

PDF Code
TGRS

Supervised Multi-scale Attention-guided Ship Detection in Optical Remote Sensing Images

Jianming Hu, Xiyang Zhi, Shikai Jiang, Hao Tang, Wei Zhang, Lorenzo Bruzzone

IEEE Transactions on Geoscience and Remote Sensing (TGRS), 2022

PDF Code
ECCV

3D-Aware Semantic-Guided Generative Model for Human Synthesis

Jichao Zhang, Enver Sangineto, Hao Tang, Aliaksandr Siarohin, Zhun Zhong, Nicu Sebe, Wei Wang

In ECCV 2022, Tel Aviv, Israel

PDF Code
ECCV

Mining Relations among Cross-Frame Affinities for Video Semantic Segmentation

Guolei Sun, Yun Liu, Hao Tang, Ajad Chhatkuli, Le Zhang, Luc Van Gool

In ECCV 2022, Tel Aviv, Israel

PDF Code
ECCV

Towards Interpretable Video Super-Resolution via Alternative Optimization

Jiezhang Cao, Jingyun Liang, Kai Zhang, Wenguan Wang, Qin Wang, Yulun Zhang, Hao Tang, Luc Van Gool

In ECCV 2022, Tel Aviv, Israel

PDF Code
ECCV

Compiler-Aware Neural Architecture Search for On-Mobile Real-time Super-Resolution

Yushu Wu, Yifan Gong, Pu Zhao, Yanyu Li, Zheng Zhan, Wei Niu, Hao Tang, Minghai Qin, Bin Ren, Yanzhi Wang

In ECCV 2022, Tel Aviv, Israel

PDF Code
ECCV

SPViT: Enabling Faster Vision Transformers via Soft Token Pruning

Zhenglun Kong, Peiyan Dong, Xiaolong Ma, Xin Meng, Wei Niu, Mengshu Sun, Xuan Shen, Geng Yuan, Bin Ren, Minghai Qin, Hao Tang, Yanzhi Wang

In ECCV 2022, Tel Aviv, Israel

PDF Code
TIP

Unsupervised High-Resolution Portrait Gaze Correction and Animation

Jichao Zhang, Jingjing Chen, Hao Tang, Enver Sangineto, Peng Wu, Yan Yan, Nicu Sebe, Wei Wang

IEEE Transactions on Image Processing (TIP), 2022

PDF Code
PR

Cross-view Panorama Image Synthesis with Progressive Attention GANs

Songsong Wu, Hao Tang, Xiaoyuan Jing, Jianjun Qian, Nicu Sebe, Yan Yan, Qinghua Zhang

Elsevier Pattern Recognition (PR), 2022

PDF Code
ACM MM

RCRN: Real-world Character Image Restoration Network via Skeleton Extraction

Daqian Shi, Xiaolei Diao, Hao Tang, Xiaomin Li, Hao Xing, Hao Xu

In ACM MM 2022, Lisbon, Portugal

PDF Code
ACM MM

CharFormer: A Glyph Fusion based Attentive Framework for High-precision Character Image Denoising

Daqian Shi, Xiaolei Diao, Lida Shi, Hao Tang, Yang Chi, Chuntao Li, Hao Xu

In ACM MM 2022, Lisbon, Portugal

PDF Code
IJCAI
Demo

Real-Time Portrait Stylization on the Edge

Yanyu Li, Xuan Shen, Geng Yuan, Jiexiong Guan, Wei Niu, Hao Tang, Bin Ren, Yanzhi Wang

In IJCAI Demo 2022, Vienna, Austria

PDF Code
TGRS

Looking Outside The Window: Wide-Context Transformer for The Semantic Segmentation of High-Resolution Remote Sensing Images

Lei Ding, Dong Lin, Shaofu Lin, Jing Zhang, Xiaojie Cui, Yuebin Wang, Hao Tang, Lorenzo Bruzzone

IEEE Transactions on Geoscience and Remote Sensing (TGRS), 2022

PDF Code
TMM

Continual Attentive Fusion for Incremental Learning in Semantic Segmentation

Guanglei Yang, Enrico Fini, Dan Xu, Paolo Rota, Mingli Ding, Hao Tang, Xavier Alameda-Pineda, Elisa Ricci

IEEE Transactions on Multimedia (TMM), 2022

PDF Code
CVPR
Oral

DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis

Ming Tao, Hao Tang, Fei Wu, Xiaoyuan Jing, Bingkun Bao, Changsheng Xu

In CVPR 2022, New Orleans, USA

PDF Code
CVPR

MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimation

Wenhao Li, Hong Liu, Hao Tang, Pichao Wang, Luc Van Gool

In CVPR 2022, New Orleans, USA

PDF Code
CVPR

Predict, Prevent, and Evaluate: Disentangled Text-Driven Image Manipulation Empowered by Pre-Trained Vision-Language Model

Zipeng Xu, Tianwei Lin, Hao Tang, Fu Li, Dongliang He, Nicu Sebe, Radu Timofte, Luc Van Gool, Errui Ding

In CVPR 2022, New Orleans, USA

PDF Code
CVPR

Physically-guided Disentangled Implicit Rendering for 3D Face Modeling

Zhenyu Zhang, Yanhao Ge, Ying Tai, Weijian Cao, Renwang Chen, Kunlin Liu, Hao Tang, Xiaoming Huang, Chengjie Wang, Zhifeng Xie, Dongjin Huang

In CVPR 2022, New Orleans, USA

PDF Code
CVPR

Learning to Restore 3D Face from In-the-Wild Degraded Images

Zhenyu Zhang, Yanhao Ge, Ying Tai, Xiaoming Huang, Chengjie Wang, Hao Tang, Dongjin Huang, Zhifeng Xie

In CVPR 2022, New Orleans, USA

PDF Code
TPAMI

Local and Global GANs with Semantic-Aware Upsampling for Image Generation

Hao Tang, Ling Shao, Philip HS Torr, Nicu Sebe

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

PDF Code
TMM

Cross-View Panorama Image Synthesis

Songsong Wu, Hao Tang, Xiaoyuan Jing, Haifeng Zhao, Jianjun Qian, Nicu Sebe, Yan Yan

IEEE Transactions on Multimedia (TMM), 2022

PDF Code
AAAI

Geometry-Contrastive Transformer for Generalized 3D Pose Transfer

Haoyu Chen, Hao Tang, Zitong Yu, Nicu Sebe, Guoying Zhao

In AAAI 2022, Vancouver, Canada

PDF Code
AAAI
Oral

Multi-Modal Perception Attention Network with Self-Supervised Learning for Audio-Visual Speaker Tracking

Yidi Li, Hong Liu, Hao Tang

In AAAI 2022, Vancouver, Canada

PDF Code

2021

TIP

Adversarial Shape Learning for Building Extraction in VHR Remote Sensing Images

Lei Ding, Hao Tang, Yahui Liu, Yilei Shi, Xiaoxiang Zhu, Lorenzo Bruzzone

IEEE Transactions on Image Processing (TIP), 2021

PDF Code
BMVC
Oral

Cascaded Cross MLP-Mixer GANs for Cross-View Image Translation

Bin Ren, Hao Tang, Nicu Sebe

In BMVC 2021, Virtual

PDF Code
BMVC

AniFormer: Data-driven 3D Animation with Transformer

Haoyu Chen, Hao Tang, Nicu Sebe, Guoying Zhao

In BMVC 2021, Virtual

PDF Code
BMVC

Highly Efficient Natural Image Matting

Yijie Zhong, Bo Li, Lv Tang, Hao Tang, Shouhong Ding

In BMVC 2021, Virtual

PDF Code
TIP

Layout-to-Image Translation with Double Pooling Generative Adversarial Networks

Hao Tang, Nicu Sebe

IEEE Transactions on Image Processing (TIP), 2021

PDF Code
TNNLS

AttentionGAN: Unpaired Image-to-Image Translation Using Attention-Guided Generative Adversarial Networks

Hao Tang, Hong Liu, Dan Xu, Philip HS Torr, Nicu Sebe

IEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2021

PDF Code
ICCV

Transformer-Based Attention Networks for Continuous Pixel-Wise Prediction

Guanglei Yang, Hao Tang, Mingli Ding, Nicu Sebe, Elisa Ricci

In ICCV 2021, Montreal, Canada

PDF Code
ICCV

Intrinsic-Extrinsic Preserved GANs for Unsupervised 3D Pose Transfer

Haoyu Chen, Hao Tang, Henglin Shi, Wei Peng, Nicu Sebe, Guoying Zhao

In ICCV 2021, Montreal, Canada

PDF Code
ACM MM
Oral

Cross-View Exocentric to Egocentric Video Synthesis

Gaowen Liu, Hao Tang, Hugo Latapie, Jason Corso, Yan Yan

In ACM MM 2021, Chengdu, China

PDF Code
TMM

Total Generate: Cycle in Cycle Generative Adversarial Networks for Generating Human Faces, Hands, Bodies, and Natural Scenes

Hao Tang, Nicu Sebe

IEEE Transactions on Multimedia (TMM), 2021

PDF Code

2020

BMVC

Bipartite Graph Reasoning GANs for Person Image Generation

Hao Tang, Song Bai, Philip H.S. Torr, Nicu Sebe

In BMVC 2020, Manchester, UK

PDF Code
ACM MM

Dual Attention GANs for Semantic Image Synthesis

Hao Tang, Song Bai, Nicu Sebe

In ACM MM 2020, Seattle, USA

PDF Code
ACM MM

Dual In-painting Model for Unsupervised Gaze Correction and Animation in the Wild

Jichao Zhang, Jingjing Chen, Hao Tang, Wei Wang, Yan Yan, Enver Sangineto, Nicu Sebe

In ACM MM 2020, Seattle, USA

PDF Code
TIP

Unified Generative Adversarial Networks for Controllable Image-to-Image Translation

Hao Tang, Hong Liu, Nicu Sebe

IEEE Transactions on Image Processing (TIP), 2020

PDF Code
ECCV

XingGAN for Person Image Generation

Hao Tang, Song Bai, Li Zhang, Philip H.S. Torr, Nicu Sebe

In ECCV 2020, Glasgow, UK

PDF Code
TNNLS

When Dictionary Learning Meets Deep Learning: Deep Dictionary Learning and Coding Network for Image Recognition with Limited Data

Hao Tang, Hong Liu, Wei Xiao, Nicu Sebe

IEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2020

PDF Code
TGRS

LANet: Local Attention Embedding to Improve the Semantic Segmentation of Remote Sensing Images

Lei Ding, Hao Tang, Lorenzo Bruzzone

IEEE Transactions on Geoscience and Remote Sensing (TGRS), 2020

PDF Code
CVPR

Local Class-Specific and Global Image-Level Generative Adversarial Networks for Semantic-Guided Scene Generation

Hao Tang, Dan Xu, Yan Yan, Philip H.S. Torr, Nicu Sebe

In CVPR 2020, Seattle, USA

PDF Code

2019

ACM MM
Oral

Cycle In Cycle Generative Adversarial Networks for Keypoint-Guided Image Generation

Hao Tang, Dan Xu, Gaowen Liu, Wei Wang, Yan Yan, Nicu Sebe

In ACM MM 2019, Nice, France

PDF Code
CVPR
Oral

Multi-Channel Attention Selection GAN with Cascaded Semantic Guidance for Cross-View Image Translation

Hao Tang, Dan Xu, Nicu Sebe, Yanzhi Wang, Jason J. Corso, Yan Yan

In CVPR 2019, Long Beach, USA

PDF Code

2018

ACM MM Best
Paper Candidate

GestureGAN for Hand Gesture-to-Gesture Translation in the Wild

Hao Tang, Wei Wang, Dan Xu, Yan Yan, Nicu Sebe

In ACM MM 2018, Seoul, South Korea

PDF Code
CVPR
Spotlight

Attention Guided Convolutional Neural Fields for Monocular Depth Estimation

Dan Xu, Wei Wang, Hao Tang, Hong Liu, Nicu Sebe, Elisa Ricci

In CVPR 2018, Salt Lake City, USA

PDF Code

2016

IJCAI Oral

A Novel Feature Matching Strategy for Large Scale Image Retrieval

Hao Tang, Hong Liu

In IJCAI 2016, New York, USA

PDF Code

2015

ACM MM

Gender Classification Using Pyramid Segmentation for Unconstrained Back-facing Video Sequences

Hao Tang, Hong Liu, Wei Xiao

In ACM MM 2015, Brisbane, Australia

PDF Code