Hierarchical Graph-Attention Multi-Agent Reinforcement Learning for Safe-Separation-and-Collision-Avoidance Coordination of Heterogeneous UAV Swarms

Zhang, Xudong; Bai, Junqiang; Chen, Kang; Chen, Xinzhuang

doi:10.3390/drones10070508

This is an early access version, the complete PDF, HTML, and XML versions will be available soon.

Open AccessArticle

Hierarchical Graph-Attention Multi-Agent Reinforcement Learning for Safe-Separation-and-Collision-Avoidance Coordination of Heterogeneous UAV Swarms

¹

Unmanned System Research Institute, Northwestern Polytechnical University, Xi’an 710129, China

²

College of Mathematics and Computer Science, Yan’an University, Yan’an 716000, China

^*

Author to whom correspondence should be addressed.

Drones 2026, 10(7), 508; https://doi.org/10.3390/drones10070508

Submission received: 15 May 2026 / Revised: 26 June 2026 / Accepted: 30 June 2026 / Published: 3 July 2026

(This article belongs to the Section Artificial Intelligence in Drones (AID))

Download Versions Notes

Abstract

Safe-separation-and-collision-avoidance unmanned aerial vehicle (UAV) swarms are increasingly used for inspection, emergency response, environmental monitoring, and search-and-rescue support in cluttered airspace where communication links may be delayed, degraded, or intermittently unavailable. These applications require heterogeneous vehicles to maintain situational awareness, allocate tasks, and avoid hazards under partial observability and changing team topology. To address these challenges, this paper proposes a Hierarchical Graph-Attention Multi-Agent Reinforcement Learning architecture (HG-MARL) for safe-separation-and-collision-avoidance heterogeneous UAV swarm coordination. The proposed framework decomposes the task into high-level resource allocation and low-level local-control execution, uses graph attention for changing swarm topology, and applies Transformer memory, action masking, potential-field reward shaping, and domain-randomized simulation training. In the multi-scenario simulation summaries, HG-MARL achieves 92.9%, 89.8%, and 82.6% task success in Scenarios A–C, respectively, improving upon MAPPO by 15.1, 21.4, and 20.1 percentage points. Summary-statistic Welch tests show that all six HG-MARL comparisons against MAPPO and QMIX yield

p < 0.01

with large effect sizes. Fair-control, reward-sensitivity, communication-degradation, safety-ablation, training-stability, latency, and transfer-oriented stress tests further support the contributions of the integrated architecture. The validation scope is simulator-based, with platform-level flight/HIL evaluation discussed as future work. These results suggest that HG-MARL is a promising simulation-validated framework for civilian UAV swarm coordination in collision-and-separation-critical and communication-degraded environments.

Keywords: multi-agent reinforcement learning; heterogeneous UAV swarm; safe-separation-and-collision-avoidance coordination; graph attention network; Transformer; domain randomization

Share and Cite

MDPI and ACS Style

Zhang, X.; Bai, J.; Chen, K.; Chen, X. Hierarchical Graph-Attention Multi-Agent Reinforcement Learning for Safe-Separation-and-Collision-Avoidance Coordination of Heterogeneous UAV Swarms. Drones 2026, 10, 508. https://doi.org/10.3390/drones10070508

AMA Style

Zhang X, Bai J, Chen K, Chen X. Hierarchical Graph-Attention Multi-Agent Reinforcement Learning for Safe-Separation-and-Collision-Avoidance Coordination of Heterogeneous UAV Swarms. Drones. 2026; 10(7):508. https://doi.org/10.3390/drones10070508

Chicago/Turabian Style

Zhang, Xudong, Junqiang Bai, Kang Chen, and Xinzhuang Chen. 2026. "Hierarchical Graph-Attention Multi-Agent Reinforcement Learning for Safe-Separation-and-Collision-Avoidance Coordination of Heterogeneous UAV Swarms" Drones 10, no. 7: 508. https://doi.org/10.3390/drones10070508

APA Style

Zhang, X., Bai, J., Chen, K., & Chen, X. (2026). Hierarchical Graph-Attention Multi-Agent Reinforcement Learning for Safe-Separation-and-Collision-Avoidance Coordination of Heterogeneous UAV Swarms. Drones, 10(7), 508. https://doi.org/10.3390/drones10070508

Article Menu

Hierarchical Graph-Attention Multi-Agent Reinforcement Learning for Safe-Separation-and-Collision-Avoidance Coordination of Heterogeneous UAV Swarms

Abstract

Share and Cite

Article Metrics

Article Access Statistics

Further Information

Guidelines

MDPI Initiatives

Follow MDPI