Pour résoudre des problèmes de vision complexes, la méthode classique consiste à effectuer une modélisation théorique, souvent basée sur des équations mathématiques précises. Cependant, une telle approche peut s’avérer extrêmement gourmande en ressources (temps CPU, RAM) lorsqu’elle est exécutée par une machine en temps réel.
Nous allons explorer ici comment le machine learning offre une alternative performante. Pour notre étude de cas, nous avons choisi un problème de détection sélective de bord dans une image. L’objectif est de construire un modèle capable de reproduire les résultats d’un algorithme théorique, mais avec une vitesse d’exécution nettement supérieure.
Cas d’étude : la détection de bord sélective
L’enjeu n’est pas simplement de détecter tous les contours d’une image, ce qui est trivial avec une convolution classique, mais d’isoler un bord spécifique selon une condition.

Sur l’image ci-dessus, seul le bord indiqué par les flèches rouges doit être détecté. C’est le motif en bande qui permet de déterminer quel bord est pertinent. Pour réaliser cette fonction par programmation classique, il faut appliquer une suite de transformations linéaires et non-linéaires complexes, ce qui demande une expertise humaine importante.
Voici un survol de l’algorithme théorique de référence :

Première tentative : réseau de neurones convolutif (CNN)
Cette approche permet de “synthétiser” la tâche effectuée par l’algorithme théorique. L’avantage majeur est qu’il n’est pas nécessaire d’annoter manuellement des données pour l’apprentissage : on utilise les sorties de l’algorithme classique comme cibles pour le réseau de neurones.

Le réseau prend une image de 640×160 pixels en entrée et traverse 6 couches convolutives (669 paramètres). La stratégie de padding et de MaxPool est conçue pour réduire progressivement la hauteur de l’image jusqu’à obtenir un signal unidimensionnel de 1x640px.
Les résultats sur les images de validation sont concluants :

La courbe orange (prédiction) suit fidèlement la bleue (cible). En termes de performance, le réseau s’exécute en environ 20ms sur CPU, soit 4 fois plus vite que l’algorithme théorique. Sur GPU, le temps descend sous la milliseconde (> 1000 FPS). Cependant, le signal prédit reste bruité et manque de “netteté” par rapport à la référence.
Deuxième tentative : architecture avec Auto-Encodeur
Pour affiner le signal, nous intégrons un bloc auto-encodeur à la fin du réseau.

L’information traverse une zone restreinte (en vert) appelée le bottleneck. Cela force le réseau à compresser les données et à ne conserver que l’essentiel, ce qui permet d’éliminer naturellement le bruit et les valeurs parasites. Dans notre cas, le signal de 640 points est réduit à 16 points avant d’être reconstruit.
La nouvelle architecture se présente ainsi :
![]()
Après entraînement, les résultats sont spectaculaires :

Le signal est désormais parfaitement lisse. Bien que le nombre de paramètres soit passé à 21 805, l’impact sur le temps d’exécution est négligeable (environ 1ms supplémentaire).
Conclusion
Cette expérimentation démontre que le machine learning permet de surpasser les limites des algorithmes classiques en termes de performance pure. Là où une expertise théorique atteint ses limites en temps d’exécution réel, un modèle entraîné parvient à accomplir la même tâche avec une efficacité redoutable. Maîtriser ces outils permet aujourd’hui de résoudre des problématiques industrielles complexes avec une fluidité sans précédent.
À propos de l'auteur
L'expertise IE-Concept est portée par une équipe d'ingénieurs passionnés par les défis technologiques du monde industriel.
Découvrir notre équipe →