Apprentissage fédéré

paradigme d'intelligence artificielle

En intelligence artificielle et en apprentissage machine, l'apprentissage fédéré (en anglais : federated learning ou collaborative learning) est un paradigme d'apprentissage dans lequel plusieurs machines entrainent collaborativement un modèle d'intelligence artificielle tout en gardant leurs données localement[1]. Ainsi, les machines impliquées dans l'apprentissage se contentent d'envoyer les modèles appris sur leurs données locales, et non les données elles-mêmes[2]. Ce paradigme s'oppose à l'apprentissage centralisé dans lequel toutes les données sont transmises à un serveur central chargé d'exécuter l'apprentissage du modèle.

Un objectif majeur de l'apprentissage fédéré est d'offrir un meilleur respect de la vie privée des utilisateurs[3], même si l'efficacité des protections actuelles peut être remise en question[4].

Définition

Schéma de principe de l'apprentisage fédéré centralisé.

En apprentissage automatique, on représente souvent les données d'apprentissage par une matrice. En apprentissage fédéré, chaque agent connait une partie de cette matrice. L'enjeu de l'apprentissage fédéré est d'entrainer un modèle d'apprentissage sans que les agents n'aient à transmettre leur part de la matrice. Beaucoup de modèles en apprentissage automatique sont obtenus en résolvant un problème d'optimisation. Les algorithmes d'apprentissage fédéré sont souvent une solution décentralisée à ces problèmes d'optimisation[5].

Un "modèle local" est un modèle d'apprentissage entrainé sur les données locales d'un agent. Le modèle global est le résultat de la combinaison de l'ensemble des modèles locaux[6]. Le déroulement standard d'un protocole d'apprentissage fédéré requiert l'échange de modèles locaux afin d'obtenir un modèle global satisfaisant le problème d'optimisation choisi.

Paradigmes d'apprentissage fédéré

Apprentissage inter-silo et apprentissage inter-appareil

L'apprentissage fédéré inter-silo (en anglais : cross-silo learning)[1] correspond à un apprentissage impliquant un nombre limité de serveurs puissants. Par exemple, la collaboration entre plusieurs hôpitaux proposée par Owkin[7],[8] correspond à un apprentissage inter-silo. D'un autre côté, l'apprentissage inter-appareil (en anglais : cross-device learning)[1] implique un large nombre d'appareils peu puissants : par exemple, des millions de smartphones. L'utilisation d'apprentissage fédéré pour le Gboard par Google[9],[10] correspond à un apprentissage inter-appareil.

Illustration de la différence entre apprentissage fédéré horizontal (à gauche) et apprentissage fédéré vertical (à droite)

Apprentissage horizontal et apprentissage vertical

Cette dualité caractérise la connaissance qu'a chaque agent de la matrice contenant les données d'apprentissage.

En apprentissage fédéré horizontal[11], chaque agent connait une ou plusieurs lignes de la matrice de données d'apprentissage. En d'autres termes, chaque agent possède l'ensemble des données d'un ou plusieurs individus. Par exemple, l'apprentissage fédéré utilisé par le Gboard est horizontal car chaque smartphone connait l'ensemble des données de son utilisateur.

En apprentissage fédéré vertical[11], chaque agent connait une ou plusieurs colonnes complètes de la matrice de données d'apprentissage. En d'autres termes, chaque agent a des informations partielles sur l'ensemble des individus. Par exemple, différents hôpitaux peuvent avoir des données complémentaires sur le même ensemble de patients.

Apprentissage fédéré centralisé et apprentissage fédéré décentralisé

Illustration de la différence entre apprentissage fédéré centralisé (à gauche) et apprentissage fédéré décentralisé (à droite)

L'apprentissage fédéré centralisé est le paradigme le plus étudié : les agents communiquent avec un serveur central unique qui orchestre l'apprentissage[1]. Dans les protocoles les plus simples, ce serveur est chargé d’agréger les modèles locaux et de diffuser le modèle global[5],[12].

L'apprentissage fédéré (complètement) décentralisé (appelé fully decentralized federated learning ou gossip learning en anglais) correspond à un paradigme où il n'existe pas de serveur central : les agents communiquent directement les uns avec les autres et diffusent leurs modèles locaux en pair-à-pair[13],[14].

Défis de l'apprentissage fédéré

Il y a 5 problèmes majeurs qui concentrent l'attention de la recherche en apprentissage fédéré[1]: la scalabilité des protocoles, la préservation de la vie privée, la résistance aux attaques, l'équité algorithmique et l'apprentissage personnalisé.

Scalabilité des protocoles

L'apprentissage fédéré (particulièrement l'apprentissage inter-appareils) apporte de fortes contraintes liées à la mise à l'échelle. Premièrement, plusieurs techniques[6],[15] visent à réduire le cout du protocole. Ces techniques permettent, par exemple, de rendre les couts abordables pour des appareils peu puissants tels que des smartphones.

Deuxièmement, la présence de milliers (voire millions) d'appareils introduit des problématiques liées à la distribution des données : il est fort probable que les données ne soient pas indépendantes et identiquement distribuées (i.i.d.). L'hypothèse i.i.d. est une hypothèse simplificatrice souvent utilisée pour obtenir des premiers résultats mais elle « n'est clairement presque jamais vérifiée en pratique »[1]. Ainsi, des chercheurs travaillent sur des algorithmes robustes à une distribution non i.i.d. des données[16],[17].

Préservation de la vie privée

L'apprentissage fédéré est souvent promu comme une technologie améliorant la confidentialité grâce à sa non-publication des données d'apprentissage[18]. Cependant, cette non-publication des données locales n'est pas suffisante pour préserver la vie privée. En effet, le modèle appris localement peut contenir des informations personnelles.

Plusieurs attaques arrivent à extraire des informations sensibles à partir des modèles entrainés[19] et démontrent le risque lié au déploiement d'apprentissage fédéré sans méthode pour renforcer la confidentialité. On distingue deux types d'attaques : les attaques par inférence d'appartenance (en anglais : membership inference attacks)[19] visant à inférer si un individu est présent dans les données d'apprentissage et les attaques de reconstruction (en anglais : reconstruction attacks)[20] visant à reconstruire les données d'apprentissage à partir du modèle.

Ainsi, il est nécessaire d'utiliser des techniques cryptographiques (p. ex., du chiffrement homomorphe)[21] ou de la confidentialité différentielle[22] afin de compléter la préservation de la vie privée.

Résistance aux attaques

Dans un protocole impliquant de nombreux agents, il est fort probable que certains d'entre eux soient malveillants. Mis à part les attaques portant atteinte à la vie privée, certaines attaques peuvent menacer la réussite du protocole d'apprentissage. Par exemple, les attaques visant à "empoisonner" le modèle global (c'est-à-dire biaiser le modèle pour en réduire sa qualité) sont le sujet de nombreux articles[23]. Cependant, il existe d'autres attaques comme les free-rider attacks[24] dans lesquelles l'attaquant profite du résultat de l'apprentissage sans participer activement à l'apprentissage. Certaines contre-mesures émergent, notamment pour les attaques d'empoisonnement [25],[26].

Équité algorithmique

L'équité algorithmique vise à corriger les biais des modèles d'apprentissage[27]. L'enjeu de ces recherches est d'éviter les discriminations dans les systèmes d'intelligence artificielle[28],[29]. Bien que l'équité algorithmique concerne l'apprentissage automatique dans son ensemble, des techniques spécifiques à l'apprentissage fédéré[30],[31] sont proposées afin de combiner algorithme décentralisé et équité algorithmique.

Apprentissage personnalisé

L'apprentissage personnalisé vise à entrainer des modèles spécifiques à chaque agent ou chaque groupe d'agent plutôt que d’entrainer un unique modèle global[1]. La personnalisation est surtout étudiée en apprentissage fédéré décentralisé[14] car ce paradigme empêche par construction la constitution d'un modèle global unique (à cause de l'absence d'agent centralisateur).

Applications

Bien que l'apprentissage fédéré ait bénéficié d'un intérêt récent lancé en 2016[5],[32], plusieurs applications concrètes de l'apprentissage fédéré ont déjà été décrites voire déployées.

Clavier intelligent

La première application concrète promue fut celle des chercheurs de Google à l'origine d'un article fondateur de l'apprentissage fédéré[5]. Cette application propose d'utiliser l'apprentissage fédéré afin d’entrainer le modèle de recommandation du clavier intelligent pour smartphone: le Gboard[9],[10]. Dans ce projet, les smartphones entrainent un modèle durant leur période de veille et les modèles locaux sont ensuite agrégés par un serveur central[9].

Médecine

L'apprentissage fédéré apporte des solutions aux problématiques de décentralisation et de confidentialité des données inhérentes à l'utilisation de données médicales[7],[8],[33],[34]. Ainsi, ce paradigme permettrait aux hôpitaux et aux laboratoires médicaux d’entrainer de meilleurs modèles d'apprentissage tout en restant en conformité avec les contraintes fortes imposées par des législations telles que le RGPD sur l'utilisation des données médicales. Plusieurs applications médicales spécifiques ont déjà été présentées telles que la détection du cancer de la prostate[35] ou le traitement de patients atteints du COVID-19[36].

Recommandation d'articles d'information

Dans la foulée de Google, l'entreprise Brave Software (développant le navigateur Brave) a également utilisé l'apprentissage fédéré pour résoudre un problème de recommandation. Brave News (le système de flux d'actualité de Brave) [10],[37] utilise l'apprentissage fédéré pour fournir des recommandations d'articles d'information respectueuses de la vie privée. Ce projet s'inscrit dans la politique globale de l'entreprise qui promet des technologies Web plus respectueuse de la vie privée[38].

Marketing

Les données personnelles sont au centre du modèle économique de nombreuses entreprises technologiques[39]. L'apprentissage fédéré peut être vu comme une solution permettant de concilier ces intérêts économiques avec les contraintes légales telles que le RGPD. Par exemple, Google a proposé le concept de Federated Learning of Cohorts afin de remplacer les cookies dans le système de publicité en ligne[40] et des chercheurs d'Orange ont utilisé l'apprentissage fédéré pour détecter préventivement les résiliations de contrat[41].

Ville intelligente

La ville intelligente peut également bénéficier d'apprentissage fédéré afin de traiter au mieux les données produites par les capteurs servant à optimiser les services des villes[42],[43].

Voiture autonome

Les voitures autonomes sont des systèmes complexes remplis de capteurs et fonctionnant à l'aide de nombreux modèles d'intelligence artificielle. Étant donné la quantité colossale de données produite par une voiture autonome, l'apprentissage fédéré est vu comme un passage nécessaire pour permettre une amélioration continue des modèles d'apprentissage sans avoir à surcharger le réseau en transmettant de grandes quantités de données[44].

Notes et références

Articles connexes

🔥 Top keywords: Wikipédia:Accueil principalCookie (informatique)Nouvelle-CalédonieSpécial:RechercheJudith GodrècheLes Douze Coups de midiGreta GerwigLa Chronique des BridgertonJean-Michel JarreFrancis Ford CoppolaYasukeN'Golo KantéÉmilie DequenneMaurice Barthélemy (acteur)Mohamed AmraKanakZaho de SagazanChatGPTAudrey FleurotMegalopolis (film)Joséphine JapyRobert FicoFichier:Cleopatra poster.jpgSlimane (chanteur)HPI (série télévisée)La Planète des singes (franchise)Kylian MbappéWillem DafoeAnya Taylor-JoySondages sur les élections européennes de 2024Prise d'otages d'OuvéaFrançois CivilConjecture de GoldbachMeryl StreepChiara MastroianniMarcello MastroianniCarlos TavaresFranceJordan Bardella