Gradient Boosting Machines (GBMs) (Machines de renforcement du gradient (GBM))

Updated on 30 janvier 2025

Temps de lecture estimé: 12 min de temps de lecture

Machines à accélération de gradient (GBM)

Qu’est-ce que les machines de renforcement du gradient (GBM) ? #

Leboosting de gradient est un algorithme de boosting pour les tâches de régression et de classification qui utilise la descente de gradient pour minimiser les erreurs et faire des prédictions plus précises. Cet algorithme construit un ensemble en formant un apprenant de base (un modèle) dans l’ordre pour prédire les erreurs résiduelles du modèle précédent.

Les Gradient Boosting Machines (GBM) sont un ensemble de modèles qui utilisent le gradient boosting plutôt que d’autres algorithmes comme AdaBoost. La plupart des scientifiques des données les utilisent dans les compétitions d’apprentissage machine (ML) parce que l’algorithme de boosting de gradient produit des modèles très précis qui surpassent les autres algorithmes. Vous apprendrez comment il fonctionne dans la section suivante.

Les machines d’amplification du gradient (GBM) se composent de trois éléments principaux :

La fonction de perte : Elle mesure la différence entre les valeurs prédites et les valeurs réelles.
Apprentissage de base (ou « faible ») : Arbres de décision construits de manière séquentielle, chacun s’attachant à corriger les erreurs commises par l’arbre précédent.
Modèle additif : Combine les prédictions de tous les apprenants de base pour produire la prédiction finale.

Comment fonctionnent les machines de renforcement du gradient (GBM) ? #

Vous pouvez mettre en œuvre les GBM avec un ensemble d’apprenants de base qui peuvent être basés sur des arbres (arbres de décision) ou non basés sur des arbres (modèles linéaires, réseaux neuronaux, machines à vecteurs de support (SVM), et régression de crête à noyau).

Les ensembles d’arbres constituent la mise en œuvre la plus courante de cette technique. Deux caractéristiques distinctives du renforcement du gradient basé sur les arbres le distinguent des autres approches de modélisation :

Le développement d’un ensemble d’arbres de décision, chaque arbre étant formé séquentiellement pour prédire les résidus de l’arbre précédent afin de pouvoir compenser les erreurs.
Les arbres d’apprentissage de base, ou « apprenants faibles », sont des modèles de l’ensemble dont les prédictions sont légèrement meilleures qu’une supposition aléatoire. L’arbre peut être un classificateur ou un régresseur, en fonction de la tâche.

Examinons le processus de formation étape par étape :

Initialiser le modèle : Ajustez l’apprenant de base (arbre de décision) à votre ensemble de données (qui comprend des caractéristiques, X, et des étiquettes, y) pour faire une prédiction initiale. Il s’agit généralement d’une valeur constante, telle que la moyenne de la variable cible pour la régression ou la perte logarithmique pour la classification. Elle sert de base de référence pour l’amélioration des modèles suivants.
Ajouter itérativement des apprenants faibles : Ajouter un nouvel « apprenant faible » à chaque itération, généralement un arbre de décision peu profond. Ce nouvel apprenant se concentrera sur les erreurs ou les résidus laissés par les apprenants précédents.
Calculer les résidus : Pour chaque instance de l’ensemble de formation, calculez l’erreur résiduelle, qui est la différence entre la valeur réelle et la prédiction du modèle actuel.
Ajustez un apprenant faible aux résidus : Formez un nouvel apprenant faible (arbre de décision) à l’aide du même ensemble de données pour prédire ces résidus. L’étiquette (ou la cible) sur laquelle ce nouvel apprenant s’entraînera sera les erreurs du modèle précédent. En substance, cet apprenant tente de corriger les erreurs du modèle existant en prédisant les erreurs commises par le modèle précédent. Calculez les résidus du nouvel apprenant en comparant ses prédictions aux valeurs réelles de vos données.
Mettre à jour le modèle : Combinez le modèle existant à l’aide d’un système de « vote pondéré » avec ce nouvel apprenant. Cela se fait généralement en ajoutant au modèle existant les prédictions du nouvel apprenant, mises à l’échelle par un taux d’apprentissage (le paramètre de « rétrécissement » ou de « step-size »). Il convient de noter qu’un taux d’apprentissage faible signifie que le modèle se met à jour lentement, ce qui permet d’obtenir un modèle plus robuste mais nécessite davantage d’arbres. En revanche, un taux d’apprentissage plus élevé donne plus d’importance aux prédictions récentes, ce qui pourrait permettre à l’ensemble de s’adapter rapidement aux changements dans les données.
Optimisation de la fonction de perte : Utilisez une fonction de perte (comme l’erreur quadratique moyenne pour la régression ou la perte logistique pour la classification) pour mesurer la performance du modèle dans la prédiction des erreurs précédentes. La métrique est utilisée pour guider la formation de l’apprenant suivant, en minimisant la fonction de perte et en mettant à jour les résidus.
Régularisation : Pour éviter l’ajustement excessif, utilisez des techniques de régularisation telles que la limitation du nombre d’arbres (itérations), de la profondeur des arbres et du caractère aléatoire (par exemple, en sous-échantillonnant les caractéristiques ou les instances).
Répétez les étapes 2 à 8 jusqu’à convergence : Continuez à ajouter des apprenants faibles jusqu’à ce qu’un critère d’arrêt soit atteint. Il peut s’agir d’un nombre maximal d’arbres ou d’un seuil à partir duquel l’ajout d’arbres ne réduit pas de manière significative la fonction de perte.
Modèle final : Le modèle GBM final est la somme du modèle initial et de tous les apprenants faibles, chacun contribuant pour une petite part à la prédiction finale.

Pseudo-code pour les machines de renforcement du gradient (GBM)

Voici une représentation en pseudo-code du processus d’apprentissage d’une machine à gradient boosting (GBM).

Veuillez noter que ce pseudo-code est une représentation simplifiée et qu’il n’inclut pas tous les hyperparamètres, optimisations et détails des implémentations réelles de GBM telles que XGBoost ou LightGBM.

Implémentations des machines de renforcement du gradient (GBM) #

Le choix de l’implémentation du boosting de gradient est crucial pour l’optimisation des modèles d’apprentissage automatique. Les différents types de GBM offrent des performances, une évolutivité et une interprétabilité variables. Les considérations incluent l’utilisation de la mémoire, la gestion des caractéristiques catégorielles et les stratégies d’apprentissage hors cœur.

Voici les principaux types de GBM :

Gradient Boosting standard : Il s’agit de la forme de base du gradient boosting, où les classificateurs d’arbres de décision ou les régresseurs, en fonction des tâches, sont utilisés comme apprenants de base. Il ajoute séquentiellement des arbres, chacun corrigeant les résidus des précédents.
Renforcement stochastique du gradient : Il s’agit d’une extension du renforcement du gradient standard qui intègre le caractère aléatoire dans le processus d’apprentissage. Il échantillonne aléatoirement un sous-ensemble des données d’apprentissage sans remplacement avant de développer chaque arbre (apprenant faible). En formant chaque arbre sur un sous-ensemble différent de données, le SGB introduit un caractère aléatoire dans le modèle, ce qui permet de réduire la variance et d’éviter l’ajustement excessif.
XGBoost (Extreme Gradient Boosting) : Il s’agit d’une implémentation optimisée (c’est-à-dire « très efficace ») de l’augmentation du gradient. Elle intègre la régularisation L1 (Lasso) et L2 (Ridge) pour éviter le surajustement, la gestion des valeurs manquantes et l’élagage des arbres. En outre, il gère bien les grands ensembles de données et permet une formation rapide. Ceci est dû au fait qu’il optimise l’utilisation des ressources matérielles pendant l’exécution. Vous pouvez exécuter XGBoost en mode multithread sur une seule machine ou sur des grappes de calcul distribuées.
LightGBM : il utilise l’échantillonnage unilatéral basé sur le gradient(GOSS) et le regroupement exclusif de caractéristiques(EFB) pour optimiser la vitesse de formation et d’inférence. La combinaison de ces deux techniques facilite le fractionnement des données et accélère les calculs, ce qui permet de former des modèles sur des ensembles de données à grande échelle sur plusieurs clusters.
CatBoost: La meilleure implémentation pour traiter les variables catégorielles. Elle utilise un algorithme appelé « boosting ordonné » qui trie les caractéristiques et applique le boosting de gradient. CatBoost traite également les valeurs manquantes et convertit automatiquement les caractéristiques textuelles en représentations numériques, ce qui en fait un outil puissant pour les ensembles de données comportant de nombreuses caractéristiques catégorielles.

Chaque implémentation de GBM a ses points forts et convient à différents types de données et d’ensembles de problèmes. Le choix dépend souvent d’exigences spécifiques telles que la taille de l’ensemble de données, les types de caractéristiques, les ressources informatiques et la nécessité d’interpréter le modèle.

Avantages du renforcement du gradient #

Précision prédictive élevée : Le Gradient Boosting est connu pour sa grande précision prédictive, en raison de son traitement efficace des variables catégorielles, ce qui le rend particulièrement efficace pour résoudre des problèmes complexes et non linéaires. Il traite les valeurs manquantes et convertit automatiquement les caractéristiques textuelles en représentations numériques, ce qui accélère l’efficacité des calculs. Ces avantages contribuent à ses performances prédictives élevées.
Évolutif : Les algorithmes développent les apprenants de base en séquence, ce qui leur permet de s’adapter à de grands ensembles de données lors de la formation et de l’inférence.
Réduction des biais : Les algorithmes réduisent les biais dans les prédictions du modèle grâce à leur approche d’apprentissage d’ensemble, à la correction itérative des erreurs, aux techniques de régularisation et à la combinaison d’apprenants faibles.
Moins de prétraitement des données : Les GBM n’ont généralement pas besoin que vos données soient mises à l’échelle ou normalisées pour les apprendre pendant la formation.
Robustesse face aux valeurs aberrantes et aux données manquantes : Les GBM utilisent la descente de gradient pour identifier et minimiser l’impact des valeurs aberrantes, ce qui peut se traduire par des prédictions plus fiables. Les GBM traitent également les valeurs manquantes comme n’importe quelle autre valeur lorsqu’ils déterminent comment diviser une caractéristique. Ils conviennent donc aux ensembles de données contenant des valeurs manquantes ou des points de données bruyants et incohérents.
Sélection des caractéristiques et analyse de l’importance : L’algorithme utilise la régularisation pour pénaliser les caractéristiques qui ne contribuent pas à la précision prédictive du modèle. Il peut également utiliser une approche de pureté telle que l’indice de Gini pour quantifier l’importance d’un groupe de caractéristiques. Une fois que l’algorithme a construit les arbres boostés, vous pouvez récupérer les scores les plus importants pour chaque caractéristique de l’ensemble de données.

Défis et limites #

Sujet à l’overfitting (surajustement) : Parce qu’il ajuste de manière répétée de nouveaux modèles aux résidus des modèles précédents, ce qui peut conduire à accorder une importance excessive aux valeurs aberrantes ou au bruit dans les données. La séquence construit des modèles plus complexes et augmente le risque de surajustement si vous ne réglez pas les paramètres de régularisation.
Modèles « boîte noire », inexplicables : Les prédictions des modèles peuvent être difficiles à interpréter. En effet, bien que les GBM fournissent l’importance des caractéristiques, contrairement aux modèles linéaires, ils n’ont pas de coefficients ou de directionnalité. Ils indiquent seulement l’importance de chaque caractéristique par rapport aux autres. Cela limite leur utilisation à des applications dans des secteurs tels que la banque et les soins de santé.
Difficulté d’extrapolation : L’extrapolation permet à un modèle de prédire des résultats en dehors de sa plage de données d’apprentissage. Par exemple, une régression linéaire peut déduire des vitesses inférieures qu’une voiture roulant à 60 mph parcourt 120 miles en 2 heures, mais une machine à gradient boosting (GBM) a besoin de données spécifiques sur ce trajet de 2 heures pour effectuer une prédiction précise.
Exigences et limites en matière de données : Les GBM ont généralement besoin de suffisamment de données d’entraînement pour apprendre des modèles complexes et faire des prédictions précises de manière efficace.
Sensibilité aux hyperparamètres : Les performances de cet algorithme peuvent dépendre fortement des hyperparamètres choisis, et la recherche des valeurs optimales peut prendre du temps et nécessiter des expériences approfondies. Une mauvaise sélection des hyperparamètres peut conduire à un surajustement ou à un sous-ajustement du modèle, ce qui affecte son pouvoir prédictif.

Cas d’utilisation et applications des machines de renforcement du gradient (GBM) : #

Les GBM pour les applications de traitement du langage naturel (NLP)

Le renforcement du gradient est largement utilisé dans les tâches de traitement du langage naturel telles que l’analyse des sentiments, la classification des textes et la traduction automatique. Les GBM peuvent traiter et analyser de grands volumes de données textuelles, ce qui permet une analyse précise des sentiments pour comprendre les réactions des clients et améliorer les produits ou les services. De même, les GBM peuvent classer automatiquement des documents ou des articles en fonction de thèmes spécifiques.

Les GBM pour les applications d’analyse d’images

En utilisant des techniques de vision artificielle telles que la reconnaissance d’images et la détection d’objets, les algorithmes GBM peuvent analyser et interpréter des images, permettant ainsi des tâches telles que la détection d’objets, la reconnaissance d’images et la segmentation d’images. Cela peut être particulièrement utile dans diverses industries, telles que les soins de santé, les véhicules autonomes et les systèmes de surveillance, où l’analyse précise des images est cruciale pour la prise de décision et la résolution des problèmes. De plus, la combinaison du NLP et des techniques d’analyse d’images permet une analyse complète en extrayant des informations à partir de sources de données textuelles et visuelles.

Conclusion #

En conclusion, les Gradient Boosting Machines (GBM) sont de puissants algorithmes d’apprentissage automatique qui se sont révélés très efficaces dans diverses applications, notamment la reconnaissance et la segmentation d’images. Leur capacité à traiter des données complexes et à générer des prédictions précises les rend inestimables pour les soins de santé, les véhicules autonomes et les systèmes de surveillance. En outre, lorsqu’il est associé au traitement du langage naturel (NLP), le GBM peut fournir une analyse encore plus complète en extrayant des informations de sources de données textuelles et visuelles.

À propos
Articles récents

Mathieu

Ingénieur passionné d'intelligence artificielle et développeur Python. Fondateur de la newsletter "la-minute-ia.fr", je décrypte chaque semaine l'actualité de l'IA. Digital nomad dans l'âme, je partage mon temps entre développement, veille technologique et découverte du monde.

Les derniers articles par Mathieu (tout voir)