DeepFakeX: A Comprehensive Multimodal Deepfake Dataset for Research and Analysis

Salman, Sonia; Shamsi, Jawwad Ahmed; Qureshi, Rizwan

doi:10.3390/data11060141

This is an early access version, the complete PDF, HTML, and XML versions will be available soon.

Open AccessArticle

DeepFakeX: A Comprehensive Multimodal Deepfake Dataset for Research and Analysis

by

Sonia Salman

¹

,

Jawwad Ahmed Shamsi

¹

and

Rizwan Qureshi

^2,3,*

¹

Department of Computer Science, National University of Computer and Emerging Sciences, Karachi 75030, Pakistan

²

Department of Computer Science, Salim Habib University, Karachi 74900, Pakistan

³

Center for Research in Computer Vision, University of Central Florida, Orlando, FL 32826, USA

^*

Author to whom correspondence should be addressed.

Data 2026, 11(6), 141; https://doi.org/10.3390/data11060141

Submission received: 20 April 2026 / Revised: 22 May 2026 / Accepted: 8 June 2026 / Published: 11 June 2026

Download Versions Notes

Abstract

The expanding capabilities of deep learning-based media synthesis have intensified concerns regarding the authenticity of digital content and the reliability of forensic analysis tools. In response to these challenges, this work introduces DeepFakeX, a collection of 800 synthetically generated videos available under controlled access for research purposes. The dataset encompasses four distinct categories of AI-driven synthesis: facial identity replacement, audio track substitution, neural voice cloning, and combined audiovisual alteration. Unlike existing deepfake datasets that predominantly focus on facial synthesis, DeepFakeX covers a broader range of manipulation modalities, reflecting the diversity of synthetic media encountered in real-world settings. All deepfakes were generated using state-of-the-art, publicly available tools. Standardized post-processing procedures were applied to each video to ensure uniformity in terms of quality, duration and encoding format. DeepFakeX also emphasizes diversity in gender, age, ethnicity, and language. Video contexts span speeches, informational videos, movie clips, news broadcasts, and interviews that reflect content scenarios commonly encountered in real-world online environments. The dataset includes videos in both English and Urdu. The dataset’s quality and structural variability were assessed through visual and audio analyses using the Structural Similarity Index Measure (SSIM), Mel-Frequency Cepstral Coefficients (MFCCs), and Principal Component Analysis (PCA). The evaluation results revealed substantial variability within each manipulation category, along with clearly distinguishable patterns specific to each modality. DeepFakeX has been developed to facilitate rigorous and transparent research in deepfake detection, cross-modal forensic analysis, and AI-driven media forensics. It is hosted on Zenodo under controlled access for research use.

Keywords: deepfake dataset; face swapping; voice cloning; audio synthesis; multimedia forensics; synthetic media

Share and Cite

MDPI and ACS Style

Salman, S.; Shamsi, J.A.; Qureshi, R. DeepFakeX: A Comprehensive Multimodal Deepfake Dataset for Research and Analysis. Data 2026, 11, 141. https://doi.org/10.3390/data11060141

AMA Style

Salman S, Shamsi JA, Qureshi R. DeepFakeX: A Comprehensive Multimodal Deepfake Dataset for Research and Analysis. Data. 2026; 11(6):141. https://doi.org/10.3390/data11060141

Chicago/Turabian Style

Salman, Sonia, Jawwad Ahmed Shamsi, and Rizwan Qureshi. 2026. "DeepFakeX: A Comprehensive Multimodal Deepfake Dataset for Research and Analysis" Data 11, no. 6: 141. https://doi.org/10.3390/data11060141

APA Style

Salman, S., Shamsi, J. A., & Qureshi, R. (2026). DeepFakeX: A Comprehensive Multimodal Deepfake Dataset for Research and Analysis. Data, 11(6), 141. https://doi.org/10.3390/data11060141

Article Menu

DeepFakeX: A Comprehensive Multimodal Deepfake Dataset for Research and Analysis

Abstract

Share and Cite

Article Metrics

Article Access Statistics

Further Information

Guidelines

MDPI Initiatives

Follow MDPI