Ce docu n'a pas de note Les algorithmes de Machine Learning

Pour lancer un projet de Machine Learning, il est indispensable d’utiliser des algorithmes. Il s’agit de programmes qui sont capables d’apprendre en toute autonomie à partir des données. Les algorithmes se basent sur les données dont ils sont nourris pour prendre de meilleures décisions. Voici quelques-uns parmi les plus utilisés en Machine Learning.

Les algorithmes arbre de décision

Très populaires en Machine Learning, les algorithmes de l’arbre de décision fonctionnent en se basant sur un modèle de graphe. C’est par une racine, présentant toutes les observations, que commence l’arbre. Ensuite, une série de branches est distinguée. Les intersections de cette série sont appelées nœuds. Ces derniers se terminent par des feuilles correspondant aux différentes classes à prédire. La caractéristique de chaque arbre est sa profondeur, à savoir le nombre maximum de nœuds rencontrés avant l’atteinte d’une feuille. Au sein d’un arbre de décision, les données peuvent être divisées en deux ou en plusieurs jeux homogènes, une caractéristique bien mise en évidence dans la définition du Machine Learning. Aussi, tous les nœuds ont une condition. Et plus on descend, plus les conditions deviennent nombreuses.

Les algorithmes de régression linéaire

On a recours aux algorithmes de régression linéaire en vue de modéliser la relation entre une ou des variables prédictives et une variable cible en utilisant une fonction mathématique. La variable cible est dénommée variable dépendante. Il est possible par exemple de recourir à la régression linéaire lorsqu’on cherche à mesurer la hauteur de grands arbres après avoir seulement pris leur diamètre. Notez que les modèles de régression linéaire sont relativement simples. En outre, ils sont utilisables dans de nombreux domaines. Très souvent, les entreprises s’en servent pour prendre de meilleures décisions. Il est possible que la régression linéaire soit multivariée, ce qui est le cas quand de nombreuses variables interviennent dans la fonction de prédiction.

Les algorithmes de régression logistique

Le recours aux algorithmes de régression logistique permet de réaliser une classification binaire. Ils reçoivent des variables prédictives qualitatives et ordinales en entrée et mesurent ensuite la probabilité de la valeur de sortie en se basant sur la fonction sigmoïde. De façon concrète, les algorithmes de régression logistique étudient le rapport existant entre une variable principale et des variables explicatives. Il est possible par exemple d’utiliser la régression logistique pour faire une classification multi classe. Cela s’applique par exemple quand on souhaite classifier des vêtements en trois catégories, à savoir la chemise, le pantalon et le short.

L’algorithme gradient boosting

Le gradient boosting est un algorithme qui permet de renforcer un modèle dont les prédictions sont faibles. Diverses informations sont fournies sur chaque individu à partir d’une base de données, comme c’est le cas des activités pratiquées. L’âge de la moitié des individus est connu. On cherche ensuite à connaitre celui des autres en tenant compte de leurs activités. Par exemple, on peut supposer que le modèle choisi permet de prédire que deux individus ont un âge compris entre 15 et 30 ans, alors qu’en réalité, ces derniers ont entre 11 et 35 ans. A partir de l’algorithme de gradient boosting, il est possible d’améliorer le modèle en réalisant un autre basé sur l’écart entre la valeur à prédire et celle prédite.

L’algorithme K-Means

En Machine Learning, on utilise aussi dans certaines situations l’algorithme K-Means. Par exemple, pour administrer un traitement différent en fonction des profils d’une population cible, on commence par former des groupes au sein desquels un certain degré de similarité est attribué aux différents individus. Pour effectuer un tel regroupement, on peut recourir à l’algorithme K-Means. Il s’agit d’un algorithme d’apprentissage automatique non supervisé qui permet de se baser sur un ensemble de données et de K groupes de segmenter les différents éléments en ce même nombre de groupes. Ce regroupement est réalisé par la minimisation de la distance euclidienne entre le centre du cluster et un objet précis.

L’algorithme Support Vector Machine

Algorithme de classification binaire, le Support Vector Machine (SVM) permet de séparer un ensemble d’éléments en deux classes, comme la régression logistique. Mais la machine à vecteur de support choisit la plus nette séparation qui existe. A cet effet, les données sont séparées en de nombreuses classes grâce à la « marge maximale ». C’est ce qui explique le fait qu’on l’appelle Large Margins classifier. 

Lire aussi : Qu’est ce que la classification des données ?