Yong (Norris) Zhang | Publications

Selected Publications (Full List)

NAME¹ indicates co-first author. indicates corresponding author.

Arxiv

6. Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation

Zhe Kong, Feng Gao, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Xunliang Cai, Guanying Chen, Wenhan Luo

arxiv 2025.05

PDF Project Page
Arxiv

5. VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models

Tao Wu1, Yong Zhang¹, Xiaodong Cun1, Zhongang Qi, Junfu Pu, Huanzhang Dou, Guangcong Zheng, Ying Shan, Xi Li

arxiv 2024.12

PDF Project Page
Arxiv

4. AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Ziyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qiang Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang

arxiv 2024.11

PDF Project Page
Arxiv

3. StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos

Sjie Zhao, Wenbo Hu, Xiaodong Cun, Yong Zhang, Xiaoyu Li, Zhe Kong, Xiangjun Gao, Muyao Niu, Ying Shan

arxiv 2024.08

PDF Project Page
Arxiv

2. ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation

Shaoshu Yang, Yong Zhang, Xiaodong Cun, Ying Shan, Ran He

arxiv 2024.05

PDF Project Page
Arxiv

1. Videocrafter1: Open diffusion models for high-quality video generation

Haoxin Chen¹, Menghan Xia¹, Yinging He¹, Yong Zhang¹, Xiaodong Cun¹, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, Ying Shan

Arxiv 2023

PDF

Tech Report

SIGGRAPH

72. DAM-VSR: Disentanglement of Appearance and Motion for Video Super-Resolution

Zhe Kong, Le Li, Yong Zhang, Feng Gao, Shaoshu Yang, Tao Wang, Kaihao Zhang, Zhuoliang Kang, Xiaoming Wei, Guanying Chen, Wenhan Luo

SIGGRAPH 2025

PDF Project Page
SIGGRAPH

71. Mobius: Text to Seamless Looping Video Generation via Latent Shift

Xiuli Bi, Jianfei Yuan, Bo Liu, Yong Zhang, Xiaodong Cun, Chi-Man Pun, Bin Xiao

SIGGRAPH 2025

PDF Project Page
CVPR

70. DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos

Wenbo Hu, Xiangjun Gao, Xiaoyu Li, Sijie Zhao, Xiaodong Cun, Yong Zhang, Long Quan， Ying Shan

CVPR 2025 (Highlight)

PDF Project Page
CVPR

69. DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

Minghong Cai, Xiaodong Cun, Xiaoyu Li, Wenze Liu, Zhaoyang Zhang, Yong Zhang, Ying Shan, Xiangyu Yue

CVPR 2025

PDF Project Page
AAAI

68. CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities

Tao Wu, Yong Zhang, Xintao Wang, Xianpan Zhou, Guangcong Zheng, Zhongang Qi， Ying Shan, Xi Li

AAAI 2025

PDF Project Page
AAAI

67. CustomTTT: Motion and Appearance Customized Video Generation via Test-Time Training

Xiuli Bi, Jian Lu, Bo Liu, Xiaodong Cun, Yong Zhang, Weisheng Li, Bin Xiao

AAAI 2025

PDF Project Page

2025

NeurIPS

66. CV-VAE: A Compatible Video VAE for Latent Generative Video Models

Sijie Zhao, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Muyao Niu, Xiaoyu Li, Wenbo Hu, Ying Shan,

NeurIPS 2024

PDF Project Page
NeurIPS

65. LFME: A Simple Framework for Learning from Multiple Experts in Domain Generalization

Liang Chen, Yong Zhang, Yibing Song, Zhiqiang Shen, Lingqiao Liu

NeurIPS 2024

PDF Project Page
SIGGRAPH
ASIA

64. ToonCrafter: Generative Cartoon Interpolation

Jinbo Xing, Hanyuan Liu, Menghan Xia, Yong Zhang, Xintao Wang, Ying Shan, Tien-Tsin Wong

Siggraph Asia 2024

PDF Project Page
SIGGRAPH
Asia

63. StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter

Gongye Liu, Menghan Xia, Yong Zhang, Haoxin Chen, Jinbo Xing, Xintao Wang, Yujiu Yang, Ying Shan

Siggraph Asia 2024

PDF Project Page
ECCV

62. Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation

Yingqing He, Menghan Xia, Haoxin Chen, Xiaodong Cun, Yuan Gong, Jinbo Xing, Yong Zhang, Xintao Wang, Chao Weng Ying Shan, Qifeng Chen

ECCV 2024 Workshop

PDF
ECCV

61. Dynamicrafter: Animating open-domain images with video diffusion priors

Jinbo Xing, Menghan Xia, Yong Zhang, Haoxin Chen, Xintao Wang, Tien-Tsin Wong, Ying Shan

ECCV 2024 (Oral)

PDF Project Page
ECCV

60. Noise Calibration: Plug-and-play Content-Preserving Video Enhancement using Pre-trained Video Diffusion Models

Qinyu Yang, Haoxin Chen, Yong Zhang, Menghan Xia, Xiaodong Cun, Zhixun Su, Ying Shan

ECCV 2024

PDF Project Page
ECCV

59. Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

Lanqing Guo, Yingqing he, Haoxin Chen, Menghan Xia, Xiaodong Cun, Yufei Wang, Siyu Huang, Yong Zhang, Xintao Wang, Qifeng Chen, Ying Shan, Bihan Wen

ECCV 2024

PDF Project Page
ECCV

58. OMG: Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models

Zhe Kong, Yong Zhang, Tianyu Yang, Tao Wang, Kaihao Zhang, Bizhu Wu, Guanying Chen, Wei Liu, Wenhan Luo

ECCV 2024

PDF Project Page
ECCV

57. MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

Muyao Niu, Xiaodong Cun, Xintao Wang, Yong Zhang, Ying Shan, Yinqiang Zheng

ECCV 2024

PDF Project Page
TOG

56. Identity-Preserving Face Swapping via Dual Surrogate Generative Models

Ziyao Huang, Fan Tang, Yong Zhang, Juan Cao, Chengyu Li, Sheng Tang, Jintao Li, Tong-Yee Lee

Transactions on Graphics 2024

PDF Project Page
CVPR

55. VideoCrafter2 : Overcoming Data Limitations for High-Quality Video Diffusion Models

Haoxin Chen, Yong Zhang, Xiaodong Cun, Menghan Xia, Xintao Wang, Chao Weng, Ying Shan

CVPR 2024

PDF Project Page
CVPR

54. EvalCrafter: Benchmarking and Evaluating Large Video Generation Models

Yaofang Liu, Xiaodong Cun, Xuebo Liu, Xintao Wang, Yong Zhang, Haoxin Chen, Yang Liu, Tieyong Zeng, Raymond Chan, Ying Shan

CVPR 2024

PDF Project Page
CVPR

53. Make-Your-Anchor: A Diffusion-based 2D Avatar Generation Framework

Ziyao Huang, Fan Tang, Yong Zhang, Xiaodong Cun, Juan Cao, Jintao Li, Tong-yee Lee

CVPR 2024

PDF Project Page
ICLR

52. ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models

Yingqing He, Shaoshu Yang, Haoxin Chen, Xiaodong Cun, Menghan Xia, Yong Zhang, Xintao Wang, Ran He, Qifeng Chen, Ying Shan,

ICLR 2024 (Spotlight)

PDF Project Page
ICLR

51. Freenoise: Tuning-free longer video diffusion via noise rescheduling

Haonan Qiu, Menghan Xia, Yong Zhang, Yingqing He, Xintao Wang, Ying Shan, Ziwei Liu

ICLR 2024

PDF Project Page
IJCV

50. A Causal Inspired Early-BranchingStructure for Domain Generalization

Liang Chen, Yong Zhang, Yibing Song, Zhen Zhang, Linqiao Liu

IJCV 2024

PDF Project Page
TPAMI

49. Improving Fast Adversarial Training with Prior-Guided Knowledge

Xiaojun Jia, Yong Zhang, Xingxing Wei, Baoyuan Wu, Ke Ma, Jue Wang, Xiaochun Cao

TPAMI 2024

PDF

2024

NeurIPS

48. Inserting Anybody in Diffusion Models via Celeb Basis

Ge Yuan, Xiaodong Cun, Yong Zhang, Maomao Li, Xintao Wang, Ying Shan, Huicheng Zheng

NeurIPS 2023

PDF Project Page
NeurIPS

47. DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection

Zhiyuan Yan, Yong Zhang, Xinhang Yuan, Siwei Lyu, Baoyuan Wu

NeurIPS 2023

PDF Project Page
SIGGRAPH
ASIA

46. TaleCrafter: Interactive Story Visualization with Multiple Characters

Yuan Gong, Youxin Pang, Xiaodong Cun , Menghan Xia, Haoxin Chen, Longyue Wang, Yong Zhang , Xintao Wang, Ying Shan, Yujiu Yang

SIGGRAPH Asia Conference 2023

PDF Project Page
ICCV

45. FateZero: Fusing Attentions for Zero-shot Text-based Video Editing

Chenyang Qi, Xiaodong Cun, Yong Zhang, Chenyang Lei , Xintao Wang, Ying Shan, Qifeng Chen

IEEE International Conference on Computer Vision (ICCV) 2023 (Oral)

PDF Project Page
ICCV

44. ToonTalker: Cross-Domain Face Reenactment

Yuan Gong, Yong Zhang, Xiaodong Cun, Fei Yin, Yanbo Fan, Xuan Wang, Baoyuan Wu, Yujiu Yang

IEEE International Conference on Computer Vision (ICCV) 2023

PDF Project Page
ICCV

43. UCF: Uncovering Common Features for Generalizable Deepfake Detection

Zhiyuan Yan¹, Yong Zhang¹, Yanbo Fan, Baoyuan Wu

IEEE International Conference on Computer Vision (ICCV) 2023

PDF Project Page
ICCV

42. Domain Generalization via Rationale Invariance

Liang Chen, Yong Zhang, Yibing Song, Anton van den Hengel, Lingqiao Liu

IEEE International Conference on Computer Vision (ICCV) 2023

PDF Project Page
ICCV

41. Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation

Zunnan Xu, Zhihong Chen, Yong Zhang, Yibing Song, Xiang Wan, Guanbin Li

IEEE International Conference on Computer Vision (ICCV) 2023

PDF Project Page
SIGGRPAH

40. NOFA: NeRF-based One-shot Facial Avatar Reconstruction

Wangbo Yu, Yanbo Fan, Yong Zhang, Xuan Wang, Fei Yin, Yunpeng Bai, Yanpei Cao, Ying Shan, Yang Wu, Zhongqian Sun, Baoyuan Wu

SIGGRPAH (Conference Track) 2023

PDF
CVPR

39. Disentanglement of Pose and Expression for General Video Portrait Editing

Youxin Pang, Yong Zhang, Weize Quan, Yanbo Fan, Xiaodong Cun, Ying Shan, Dong-ming Yan

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2023

PDF Project Page
CVPR

38. Fine-Grained Face Swapping via Regional GAN Inversion

Zhian Liu¹, Maomao Li¹, Yong Zhang¹, Cairong Wang, Qi Zhang, Jue Wang, Yongwei Nie

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2023

PDF Project Page
CVPR

37. Improved Test-Time Adaptation for Domain Generalization

Liang Chen, Yong Zhang, Yibing Song, Ying Shan, Lingqiao Liu

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2023

PDF Project Page
CVPR

36. 3D GAN Inversion with Facial Symmetry Prior

Fei Yin, Yong Zhang, Xuan Wang, Tengfei Wang, Xiaoyu Li, Yuan Gong, Yanbo Fan, Xiaodong Cun, Ying Shan, Cengiz Oztireli, Yujiu Yang

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2023

PDF Project Page
CVPR

35. SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

Wenxuan Zhang, Xiaodong Cun, Xuan Wang, Yong Zhang, Xi Shen, Yu Guo, Ying Shan, Fei Wang

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2023

PDF Project Page
CVPR

34. Next3D: Generative Neural Texture Rasterization for 3D-Aware Head Avatars

Jingxiang Sun, Xuan Wang, Lizhen Wang, Xiaoyu Li, Yong Zhang, Hongwen Zhang, Yebin Liu

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2023 (Highlight)

PDF Project Page
CVPR

33. Generating Human Motion from Textual Descriptions with High Quality Discrete Representation

Jianrong Zhang, Yangsong Zhang, Xiaodong Cun, Shaoli Huang, Yong Zhang, Hongwei Zhao, Hongtao Lu, Xi Shen

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2023

PDF Project Page
CVPR

32. High-fidelity Facial Avatar Reconstruction from Monocular Video with Generative Priors

Yunpeng Bai, Yanbo Fan, Xuan Wang, Yong Zhang, Jingxiang Sun, Chun Yuan, Ying Shan

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2023

PDF Project Page
CVPR

31. High-fidelity Clothed Avatar Reconstruction from a Single Image

Tingting Liao, Xiaomei Zhang, Yuliang Xiu, Hongwei Yi, Xudong Liu, Guo-Jun Qi, Yong Zhang, Xuan Wang, Xiangyu Zhu, Zhen Lei

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2023

PDF Project Page
AAAI

30. CoordFill: Efficient High-Resolution Image Inpainting via Parameterized Coordinate Querying

Weihuang Liu, Xiaodong Cun, Chi-Man Pun, Menghan Xia, Yong Zhang, Jue Wang

AAAI Conference on Artificial Intelligence (AAAI) 2023 (Oral)

PDF Project Page

2023

NeurIPS

29. OST: Improving Generalization of DeepFake Detection via One-Shot Test-Time Training

Liang Chen, Yong Zhang, Yibing Song, Jue Wang, Lingqiao Liu

Thirty-Sixth Conference on Neural Information Processing Systems (NeurIPS) 2022.

PDF Project Page
NeurIPS

28. Boosting the Transferability of Adversarial Attacks with Reverse Adversarial Perturbation

Zeyu Qin, Yanbo Fan, Yi Liu, Li Shen, Yong Zhang, Jue Wang, Baoyuan Wu

Thirty-Sixth Conference on Neural Information Processing Systems (NeurIPS) 2022.

PDF Project Page
SIGGRAPH
Asia

27. VideoReTalking: Audio-based Lip Synchronization for Talking Head Video Editing In the Wild

Kun Cheng, Xiaodong Cun, Yong Zhang, Menghan Xia, Fei Yin, Mingrui Zhu, Xuan Wang, Jue Wang, Nannan Wang

SIGGRAPH Asia (Conference Track) 2022

PDF Project Page
TPAMI

26. Generalizable Black-Box Adversarial Attack with Meta Learning

Fei Yin¹, Yong Zhang¹, Baoyuan Wu¹, Yan Feng, Jingyi Zhang, Yanbo Fan, Yujiu Yang

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 2022

PDF Project Page
ECCV

25. StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via Pre-trained StyleGAN

Fei Yin, Yong Zhang, Xiaodong Cun, Mingdeng Cao, Yanbo Fan, Xuan Wang, Qingyan Bai, Baoyuan Wu, Jue Wang, Yujiu Yang

European Conference on Computer Vision (ECCV) 2022

PDF Project Page
ECCV

24. Prior-Guided Adversarial Initialization for Fast Adversarial Training

Xiaojun Jia, Yong Zhang, Xingxing Wei, Baoyuan Wu, Ke Ma, Jue Wang , Xiaochun Cao

European Conference on Computer Vision (ECCV) 2022

PDF Project Page
TIP

23. Boosting Fast Adversarial Training with Learnable Adversarial Initialization

Xiaojun Jia, Yong Zhang, Baoyuan Wu, Jue Wang, Xiaochun Cao

IEEE Transactions on image processing (TIP) 2022

PDF Project Page
CVPR

22. FENeRF: Face Editing in Neural Radiance Fields

Jingxiang Sun, Xuan Wang, Yong Zhang, Xiaoyu Li, Qi Zhang, Yebing Liu, Jue Wang

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2022

PDF Project Page
CVPR

21. LAS-AT: Adversarial Training with Learnable Attack Strategy

Xiaojun Jia¹, Yong Zhang¹, Baoyuan Wu, Ke Ma, Jue Wang, Xiaochun Cao

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2022 (Oral)

PDF Project Page
CVPR

20. High-Fidelity GAN Inversion for Image Attribute Editing

Tengfei Wang, Yong Zhang, Yanbo Fan, Jue Wang, Qifeng Chen

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2022

PDF Project Page
CVPR

19. Self-supervised Learning of Adversarial Examples: Towards Good Generalizations for DeepFake Detections

Liang Chen, Yong Zhang, Yibing Song, Lingqiao Liu, Jue Wang

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2022 (Oral)

PDF Project Page
TIP

18. Image Inpainting with Local and Global Refinement

Weize Quan, Ruisong Zhang, Yong Zhang, Zhifeng Li, Jue Wang, Dong-Ming Yan

IEEE Transactions on image processing (TIP) 2022

PDF Project Page

2022

TOG

17. Aesthetic-guided Outward Image Cropping

Lei Zhong, Feng-Heng Li, Hao-Zhi Huang, Yong Zhang, Shao-Ping Lu, Jue Wang

ACM Transactions on Graphics (TOG) 2021. (SIGGRPAH ASIA 2021)

PDF
ICCV

16. DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis

Shulan Ruan, Yong Zhang, Kun Zhang, Yanbo Fan, Fan Tang, Qi Liu, Enhong Chen

IEEE International Conference on Computer Vision (ICCV) 2021

PDF Project Page
ICCV

15. Meta-Attack: Class-agnostic and Model-agnostic Physical Adversarial Attack

Weiwei Feng, Baoyuan Wu, Tianzhu Zhang, Yong Zhang, Yongdong Zhang

IEEE International Conference on Computer Vision (ICCV) 2021

PDF Project Page
CVPR

14. Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation

Gengcong Yang, Jingyi Zhang, Yong Zhang, Baoyuan Wu, Yujiu Yang

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2021

PDF Project Page
CVPR

13.Generalizing Face Forgery Detection with High-frequency Features

Yuchen Luo¹, Yong Zhang¹, Junchi Yan, Wei Liu

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2021

PDF Project Page
ICLR

12. Targeted Attack Against Deep Neural Networks via Flipping Limited Weight Bits

Jiawang Bai, Baoyuan Wu, Yong Zhang, Yiming Li, Zhifeng Li, Shu-Tao Xia

International Conference on Learning Representations (ICLR) 2021

PDF Project Page

2021

ECCV

11. Sparse Adversarial Attack via Perturbation Factorization

Yanbo Fan, Baoyuan Wu, Tuanhui Li, Yong Zhang, Mingyang Li, Zhifeng Li, Yujiu Yang

European Conference on Computer Vision (ECCV) 2020

PDF Project Page
AAAI

10. Label Error Correction and Generation Through Label Relationships

Zijun Cui, Yong Zhang, Qiang Ji

The Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI) 2020

PDF

2020

ICCV

9. Context-Aware Feature and Label Fusion for Facial Action Unit Intensity Estimation With Partially Labeled Data

Yong Zhang, Haiyong Jiang, Baoyuan Wu, Yanbo Fan, Qiang Ji

IEEE International Conference on Computer Vision (ICCV) 2019

PDF
CVPR

8. Joint Representation and Estimator Learning for Facial Action Unit Intensity Estimation

Yong Zhang, Baoyuan Wu, Weiming Dong, Zhifeng Li, Wei Liu, Bao-Gang Hu, Qiang Ji

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2019

PDF Project Page
CVPR

7. Compressing Convolutional Neural Networks via Factorized Convolutional Filters

Tuanhui Li, Baoyuan Wu, Yujiu Yang, Yanbo Fan, Yong Zhang, Wei Liu

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2019

PDF Project Page
CVPR

6. Exact Adversarial Attack to Image Captioning via Structured Output Learning with Latent Variables

Yan Xu, Baoyuan Wu, Fumin Shen, Yanbo Fan, Yong Zhang, Heng Tao Shen Wei Liu

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2019

PDF Project Page

2019

CVPR

5. Weakly-Supervised CNN Learning for Facial Action Unit Intensity Estimation

Yong Zhang, Weiming Dong, Bao-Gang Hu, Qiang Ji

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2018

PDF Project Page
CVPR

4. Bilateral Ordinal Relevance Multi-instance Regression for Facial Action Unit Intensity Estimation

Yong Zhang, Rui Zhao, Weiming Dong, Bao-Gang Hu, Qiang Ji

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2018

PDF Project Page
CVPR

3. Classifier Learning With Prior Probabilities for Facial Action Unit Recognition

Yong Zhang, Weiming Dong, Bao-Gang Hu, Qiang Ji

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2018

PDF
TIP

2. Data-driven Synthesis of Cartoon Faces Using Different Styles

Yong Zhang, Weiming Dong, Chongyang Ma, Xing Mei, Ke Li, Feiyue Huang, Bao-Gang Hu, Oliver Deussen

IEEE Transactions on image processing (TIP), 2017

PDF
Siggraph Asia

1. Data-driven Face Cartoon Stylization

Yong Zhang, Weiming Dong, Oliver Deussen, Feiyue Huang, Ke Li, Bao-Gang Hu

ACM Siggraph Asia Techincal Briefs 2014

PDF

Selected Publications (Full List)

NAME1 indicates co-first author. indicates corresponding author.

6. Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation

5. VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models

4. AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

3. StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos

2. ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation

1. Videocrafter1: Open diffusion models for high-quality video generation

Tech Report

72. DAM-VSR: Disentanglement of Appearance and Motion for Video Super-Resolution

71. Mobius: Text to Seamless Looping Video Generation via Latent Shift

70. DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos

69. DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

68. CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities

67. CustomTTT: Motion and Appearance Customized Video Generation via Test-Time Training

2025

66. CV-VAE: A Compatible Video VAE for Latent Generative Video Models

65. LFME: A Simple Framework for Learning from Multiple Experts in Domain Generalization

64. ToonCrafter: Generative Cartoon Interpolation

63. StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter

62. Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation

61. Dynamicrafter: Animating open-domain images with video diffusion priors

60. Noise Calibration: Plug-and-play Content-Preserving Video Enhancement using Pre-trained Video Diffusion Models

59. Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

58. OMG: Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models

57. MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

56. Identity-Preserving Face Swapping via Dual Surrogate Generative Models

55. VideoCrafter2 : Overcoming Data Limitations for High-Quality Video Diffusion Models

54. EvalCrafter: Benchmarking and Evaluating Large Video Generation Models

53. Make-Your-Anchor: A Diffusion-based 2D Avatar Generation Framework

52. ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models

51. Freenoise: Tuning-free longer video diffusion via noise rescheduling

50. A Causal Inspired Early-BranchingStructure for Domain Generalization

49. Improving Fast Adversarial Training with Prior-Guided Knowledge

2024

48. Inserting Anybody in Diffusion Models via Celeb Basis

47. DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection

46. TaleCrafter: Interactive Story Visualization with Multiple Characters

45. FateZero: Fusing Attentions for Zero-shot Text-based Video Editing

44. ToonTalker: Cross-Domain Face Reenactment

43. UCF: Uncovering Common Features for Generalizable Deepfake Detection

42. Domain Generalization via Rationale Invariance

41. Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation

40. NOFA: NeRF-based One-shot Facial Avatar Reconstruction

39. Disentanglement of Pose and Expression for General Video Portrait Editing

38. Fine-Grained Face Swapping via Regional GAN Inversion

37. Improved Test-Time Adaptation for Domain Generalization

36. 3D GAN Inversion with Facial Symmetry Prior

35. SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

34. Next3D: Generative Neural Texture Rasterization for 3D-Aware Head Avatars

33. Generating Human Motion from Textual Descriptions with High Quality Discrete Representation

32. High-fidelity Facial Avatar Reconstruction from Monocular Video with Generative Priors

31. High-fidelity Clothed Avatar Reconstruction from a Single Image

30. CoordFill: Efficient High-Resolution Image Inpainting via Parameterized Coordinate Querying

2023

29. OST: Improving Generalization of DeepFake Detection via One-Shot Test-Time Training

28. Boosting the Transferability of Adversarial Attacks with Reverse Adversarial Perturbation

27. VideoReTalking: Audio-based Lip Synchronization for Talking Head Video Editing In the Wild

26. Generalizable Black-Box Adversarial Attack with Meta Learning

25. StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via Pre-trained StyleGAN

24. Prior-Guided Adversarial Initialization for Fast Adversarial Training

23. Boosting Fast Adversarial Training with Learnable Adversarial Initialization

22. FENeRF: Face Editing in Neural Radiance Fields

21. LAS-AT: Adversarial Training with Learnable Attack Strategy

20. High-Fidelity GAN Inversion for Image Attribute Editing

19. Self-supervised Learning of Adversarial Examples: Towards Good Generalizations for DeepFake Detections

18. Image Inpainting with Local and Global Refinement

2022

17. Aesthetic-guided Outward Image Cropping

16. DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis

15. Meta-Attack: Class-agnostic and Model-agnostic Physical Adversarial Attack

14. Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation

13.Generalizing Face Forgery Detection with High-frequency Features

12. Targeted Attack Against Deep Neural Networks via Flipping Limited Weight Bits

2021

11. Sparse Adversarial Attack via Perturbation Factorization

10. Label Error Correction and Generation Through Label Relationships

2020

9. Context-Aware Feature and Label Fusion for Facial Action Unit Intensity Estimation With Partially Labeled Data

8. Joint Representation and Estimator Learning for Facial Action Unit Intensity Estimation

NAME¹ indicates co-first author. indicates corresponding author.