« Deep learning »  : dans les couches profondes de l’acquisition

Le « deep learning » ou apprentissage profond constitue la version la plus performante de l’apprentissage par la machine. Il fonctionne selon un agencement de connexions s’inspirant de la structure neuronale humaine. L’intérêt de mobiliser l’apprentissage profond réside dans sa capacité à traiter de très gros volumes de données et à en faire émerger des séries récurrentes qu’un traitement humain ou numérique classique ne pourrait pas distinguer. Il est actuellement testé dans des programmes de recherche notamment en génomique.

Il existe un logiciel qui aide les producteurs à mieux négocier le prix du lait. Res’previ, c’est le nom de ce logiciel développé par Eliance, fédération du conseil et service en élevage, modélise la quantité de lait produite sur les douze mois à venir en utilisant les données liées à l’alimentation et au lait déjà produit, issues du contrôle de performances des adhérents du réseau Eliance ainsi que des livraisons laitières récoltées par les organisations de producteurs et les coopératives. Ces données digérées par des machines sont mises à jour chaque mois, ce qui corrige la modélisation en temps réel. Il s’agit là d’un processus dit de « machine learning » par lequel les algorithmes identifient des motifs récurrents, ce que les spécialistes appellent des « patterns », afin d’apprendre et améliorer leurs performances. Il y a donc ici un certain niveau d’acquisition autogénéré par la machine. Les résultats sont au rendez-vous puisque la marge d’erreur n’est que de 0,5 à 1% d’écart avec les volumes de lait réellement livrés. Mais ces données restent néanmoins supervisées par des datascientists qui en visualisent l’affichage sur une plateforme web où ils ont également accès à différentes informations de tableau de bord. 

Des « stats » plus puissants en génomique

Les capacités de stockage et les puissances de calcul ont atteint des niveaux tels aujourd’hui que ces nouveaux outils issus de l’intelligence artificielle, « machine learning » (ML) voire « deep learning » (DL) abordent de nouveaux champs d’application. Des technologies éprouvées peuvent être revisitées par des modèles d’intelligence artificielle. C’est le cas par exemple des spectres moyens infrarouges (MIR) qui permettent d’acquérir des informations d’ordre physiologique, génétique, sanitaire, productif (qualité du lait, alimentation du bétail, etc.) lorsqu’on leur soumet des échantillons de lait.

Mais si les indicateurs ainsi obtenus ont déjà permis la création de nouveaux outils-métier, il apparaît aussi que les modèles statistiques utilisés sont, eux, voués à d’importantes évolutions. Il est possible en somme de les faire parler bien davantage: « Le projet européen Holicow, explique Yassine Ben Mohamed, datascientist, chef de projet au Datalab d’Eliance, va permettre l’acquisition massive de données de spectres MIR qui seront soumises à du machine learning non supervisé, c’est-à-dire qui utilise des algorithmes d’apprentissage automatiques qui analyseront et regrouperont des jeux de données non conditionnés au préalable par une intervention humaine. » Ce mode non-supervisé décide seul de ses valeurs de sortie en quelque sorte, alors qu’en version de « machine learning » classique, l’apprentissage cherche à se rapprocher de ce qui est attendu. Face à de grands volumes de données, ce mode est capable de mettre en évidence des modèles dits cachés, c’est-à-dire de dégager des récurrences que l’analyse humaine n’aurait pas la faculté de mettre évidence. Dans le cas présent, le travail des algorithmes se concentrera sur des indicateurs environnementaux tels que le stress thermique, mais aussi le bien-être animal, la fertilité, production et la transformation, en vue d’obtenir de nouveaux modèles d’IA au service de nouvelles applications sur le terrain. 

La puissance croissante des algorithmes s’illustre également par des méthodes d’apprentissage profond, le « deep learning » en anglais. Elles vont plus loin que le simple machine learning » car sont davantage capables d’associations complexes et autonomes, à la manière des facultés neuronales humaines dont elles imitent d’ailleurs la structure interconnective. Les réseaux profonds utilisent en effet un réseau multicouche – c’est en ce sens qu’on le qualifie de profond – qui n’a pas besoin là encore qu’on lui étiquette les données au préalable. L’apprentissage profond s’affranchit des simples associations statistiques linéaires grâce à ces couches de neurones dont les échanges successifs ont un effet reconfiguratif. Ce sont ces systèmes qui permettent par exemple la reconnaissance faciale ou donnent aux voitures autonomes la capacité de se diriger. Le « deep learning » a une propriété très recherchée :  il ne sature pas face aux grands volumes de données. 

Le « machine learning » n’est pas un nouveau venu dans l’univers du conseil et service en élevage. En matière de sélection, les valeurs génétiques des animaux sont classiquement calculées en fonction de modèles de prédiction élaborés par des biostatisticiens sur la base des données du génome. Il a déjà été démontré que le « machine learning » parvenait à des précisions équivalentes à celle de la méthode génomique traditionnelle mais sans jusqu’à présent créer de disruption dans les performances de prédiction. L’apprentissage profond, lui, pourrait permettre d’aller plus loin dans la précision de ces prédictions que ne le permettent les méthodes statistiques actuelles, la méthode statistique « BLUP », bien connue en génomique, ainsi que le principe d’inférence hypothètique de Bayes (1). Ces méthodes font, en effet, l’hypothèse que la structure génétique suit une distribution normale et que les polymorphismes et les caractères d’intérêt sont linéaires.

Ce qui est vrai dans de nombreux cas et renseigne bien à hauteur de certains niveaux de population mais reste insuffisant pour interpréter des mesures hétérogènes, des interactions non-linéaires ou des facteurs environnementaux. Depuis 2023, un travail de thèse (2) est en cours afin d’explorer l’intérêt du « deep learning » dans l’optimisation de la prédiction génomique, notamment dans le but de mieux maîtriser les effets de la contre-sélection (certains caractères sélectionnés en affaiblissent d’autres), de rendre plus précis les schémas d’accouplement ou encore les systèmes de croisement. 

(1)Calcul des probabilités des causes à partir des probabilités de leurs effets.

(2)DeepGP/Fatima Shockor, financement APIS-GENE

Facebook
Twitter
LinkedIn