Dynamic Optimization of Incoming Quality Control Policies for Cost, Carbon, and Energy Reduction Using Bayesian Reinforcement Learning

Massetti, David; Raoofi, Mehdi; Miroglio, Tiziano; Mosca, Marco; Tonelli, Flavio

doi:10.3390/su18126094

This is an early access version, the complete PDF, HTML, and XML versions will be available soon.

Open AccessArticle

Dynamic Optimization of Incoming Quality Control Policies for Cost, Carbon, and Energy Reduction Using Bayesian Reinforcement Learning

by

David Massetti

^*

,

Mehdi Raoofi

,

Tiziano Miroglio

,

Marco Mosca

and

Flavio Tonelli

Department of Mechanical, Energy, Management and Transportation Engineering (DIME), University of Genoa, 16145 Genova, Italy

^*

Author to whom correspondence should be addressed.

Sustainability 2026, 18(12), 6094; https://doi.org/10.3390/su18126094 (registering DOI)

Submission received: 19 May 2026 / Revised: 7 June 2026 / Accepted: 9 June 2026 / Published: 13 June 2026

(This article belongs to the Special Issue Leveraging AI in Industry 4.0: Overcoming Challenges and Seizing Opportunities for Sustainable Operations Management)

Download Versions Notes

Abstract

The transition towards sustainable manufacturing necessitates complex optimization that integrates economic goals with environmental factors, such as energy consumption and greenhouse gas emissions. This research addresses the critical challenge of optimizing the Incoming Quality Control (IQC) policy for raw material batches. The primary objective is formulated as a multi-criteria control problem that jointly minimizes the weekly final product cost, carbon footprint, and energy consumption. To handle sequential decision making under uncertainty, we adopt a scalarized reinforcement learning (RL) reward that combines these objectives into a single value function and explores different trade-offs through alternative weight configurations. To effectively handle the uncertainty in incoming quality and the sequential decision making required for dynamic control, the optimization problem is modeled as a Bayesian Adaptive Markov Decision Process (BAMDP). To maintain computational tractability despite the continuous belief space inherent in the BAMDP formulation, we employ a Deep Q-Network (DQN) architecture acting as an approximate dynamic programming solver. The Bayesian framework represents model uncertainty explicitly, updates beliefs as new inspection evidence becomes available, and allows prior domain knowledge on supplier quality to be incorporated into the learning process. The BAMDP formulation is used to learn a set of adaptive inspection policies that adjust the IQC strategy over time to achieve conflicting goals: reducing inspection costs while maintaining standard quality, minimizing energy consumption, and lowering CO₂-equivalent emissions. The goal is to find robust policies that balance these trade-offs under different quality and demand conditions. This methodology aligns with the principles of Industry 5.0 by leveraging advanced artificial intelligence (AI) methods, such as reinforcement learning (RL), coupled with a stochastic simulation of the production system, based on a geometric/physical model of the component’s tolerance chains, to support decision-makers in designing and assessing sustainable IQC strategies. Comparative simulations on the case study, including a benchmark against ISO 2859-1 sampling plans, confirm that this dynamic and risk-aware optimization paradigm can reduce overall cost, energy use, and environmental impact across various quality conditions, while preserving outgoing quality.

Keywords: sustainable manufacturing; carbon reduction; Bayesian decision theory; multi-objective optimization (MOO); supply chain resilience; Industry 5.0

Share and Cite

MDPI and ACS Style

Massetti, D.; Raoofi, M.; Miroglio, T.; Mosca, M.; Tonelli, F. Dynamic Optimization of Incoming Quality Control Policies for Cost, Carbon, and Energy Reduction Using Bayesian Reinforcement Learning. Sustainability 2026, 18, 6094. https://doi.org/10.3390/su18126094

AMA Style

Massetti D, Raoofi M, Miroglio T, Mosca M, Tonelli F. Dynamic Optimization of Incoming Quality Control Policies for Cost, Carbon, and Energy Reduction Using Bayesian Reinforcement Learning. Sustainability. 2026; 18(12):6094. https://doi.org/10.3390/su18126094

Chicago/Turabian Style

Massetti, David, Mehdi Raoofi, Tiziano Miroglio, Marco Mosca, and Flavio Tonelli. 2026. "Dynamic Optimization of Incoming Quality Control Policies for Cost, Carbon, and Energy Reduction Using Bayesian Reinforcement Learning" Sustainability 18, no. 12: 6094. https://doi.org/10.3390/su18126094

APA Style

Massetti, D., Raoofi, M., Miroglio, T., Mosca, M., & Tonelli, F. (2026). Dynamic Optimization of Incoming Quality Control Policies for Cost, Carbon, and Energy Reduction Using Bayesian Reinforcement Learning. Sustainability, 18(12), 6094. https://doi.org/10.3390/su18126094

Note that from the first issue of 2016, this journal uses article numbers instead of page numbers. See further details here.

Article Metrics

Article metric data becomes available approximately 24 hours after publication online.

Article Menu

Dynamic Optimization of Incoming Quality Control Policies for Cost, Carbon, and Energy Reduction Using Bayesian Reinforcement Learning

Abstract

Share and Cite

Article Metrics

Further Information

Guidelines

MDPI Initiatives

Follow MDPI