Contrôle des systèmes énergétiques des bâtiments par apprentissage par renforcement

IFP Energies nouvelles (IFPEN) est un acteur majeur de la recherche et de la formation dans les domaines de l’énergie, du transport et de l’environnement. Depuis les concepts scientifiques en recherche fondamentale jusqu’aux solutions technologiques en recherche appliquée, l’innovation est au cœur de son action, articulée autour de quatre orientations stratégiques : climat, environnement et économie circulaire ; énergies renouvelables ; mobilité durable ; hydrocarbures responsables.

Dans le cadre de la mission d’intérêt général confiée par les pouvoirs publics, IFPEN concentre ses efforts sur l’apport de solutions aux défis sociétaux et industriels de l’énergie et du climat, au service de la transition écologique. Partie intégrante d’IFPEN, IFP School, son école d’ingénieurs, prépare les générations futures à relever ces défis.

Contrôle des systèmes énergétiques des bâtiments par apprentissage par renforcement

Les bâtiments représentent 30 % de la consommation énergétique mondiale (International Energy Agency, 2022). Pour rendre les systèmes énergétiques des bâtiments (BES, pour building energy system) plus écologiques, les bâtiments récents sont souvent équipés de systèmes de stockage d'énergie (ex. les batteries ou le stockage d'énergie thermique), de production d'énergie renouvelable (ex. le photovoltaïque), de pompes à chaleur.

En y ajoutant des systèmes numériques connectés permettant de collecter des données thermiques et énergétiques, des stratégies de contrôle appropriées du BES peuvent alors être mises en place pour permettre aux bâtiments d'apporter certains bénéfices au réseau électrique, tels que la réduction de la consommation d'énergie, des émissions de carbone, et des pics de charge.

Comme les méthodes de contrôle basées sur des modèles nécessitent des modèles traitables de dynamiques complexes des bâtiments, l'apprentissage par renforcement (RL) sans modèle est devenue une alternative intéressante (voir par ex. un review récent [1]).

Objectifs :

Nous considérons le problème de minimisation de la facture pour un BES équipé des batteries, d'une production photovoltaïque et d'un système de climatisation réversible (pompe à chaleur). L’objectif est de développer un algorithme de contrôle par RL pour maintenir le confort thermique tout en réduisant la consommation énergétique du bâtiment, et à terme ses pics de charge. L'algorithme pourra être d'abord développé et testé avec l'environnement CityLearn Gym [2], puis validé sur des données réelles d’un immeuble de bureaux sur le site IFPEN Solaize.

Dans un premier temps, le cadre d’agent unique est envisagé : une politique doit être apprise pour contrôler l’ensemble des ressources d’un bâtiment (dans CityLearn), ou une pièce/zone du bâtiment d’IFPEN. Notons que dans le cadre d’un contrôle optimal des batteries, nous avons développé un algorithme de RL qui permet de réduire les pics de charge [3]. Il serait intéressant d'adapter cet algorithme au problème de contrôle du BES. Les principaux enjeux seront l’extension à des espaces d’état et d’action de dimensions supérieures, et l’apprentissage par transfert d’un bâtiment (ou d’une pièce/zone) à un autre bâtiment (ou pièce/zone).

Dans un deuxième temps, le cadre du multi-agent peut être étudié : chaque bâtiment (dans Citylearn) ou pièce/zone (dans le bâtiment d’IFPEN) peut être considéré comme un agent, et les agents doivent apprendre à coopérer pour atteindre un objectif commun. Nous espérons étendre nos algorithmes d'apprentissage indépendants [4] validés sur le problème de contrôle de parc éolien au problème de contrôle du BES.

Bibliographie

[1] Weinberg, D., Wang, Q., Timoudas, T. O., & Fischione, C. (2023). A review of reinforcement learning for controlling building energy systems from a computer science perspective. Sustainable cities and society, 89, 104351.
[2] CityLearn environment: https://sites.google.com/view/citylearnchallenge/environment
[3] Weber, L., Bušić, A., & Zhu, J. (2023, December). Reinforcement learning based demand charge minimization using energy storage. In 2023 62nd IEEE Conference on Decision and Control (CDC) (pp. 4351-4357). IEEE.
[4] Monroc, C. B., Bušić, A., Dubuc, D., & Zhu, J. (2023, May). Actor critic agents for wind farm control. In 2023 American Control Conference (ACC) (pp. 177-183). IEEE.

Profil :

Etudiant en Master 2 de recherche ou étudiant en 3ème année d’école d’ingénieur

Bon niveau de programmation, notamment en Python
Connaissances en l’apprentissage par renforcement et les mathématiques associés (probabilités, optimisation, sciences de données, automatique)
Bon niveau d’anglais

Durée : 5 mois,
Période : à partir de février-avril 2025
Lieu : IFPEN – Rueil ou Solaize, sites accessibles en transport en commun.

Stage rémunéré

Candidature : Envoyer CV, relevés de note (L3 et M1), liste des cours suivis en M2, et lettre de recommandation si vous en avez une.

E-mail

Prénom

Nom

Message

Votre CV (PDF - Max : 5 Mo)

Votre lettre de motivation (PDF - Max : 5 Mo)

Continuer avec