La vision par ordinateur est un domaine de l’intelligence artificielle dont les techniques permettent aux systèmes informatiques d’analyser et d’interpréter les données visuelles obtenues à l’aide de caméras ou d’autres dispositifs électroniques.

Vision par ordinateur : quand l’automatisation adopte les sens humains

30 avr. 2024

La vision par ordinateur, de plus en plus intégrée dans les équipements els que les robots de picking, commence à gagner du terrain dans les entreprises du monde entier. Selon DHL, la valeur de cette technologie sur le marché devrait atteindre 41,11 milliards d’euros d’ici à 2030. Au cours des cinq prochaines années, elle devrait continuer à se répandre au sein des entreprises de logistique ainsi que dans d’autres secteurs.

Qu’est-ce que la vision par ordinateur ?

La vision par ordinateur est un domaine de l’intelligence artificielle dont les techniques permettent aux systèmes informatiques d’analyser et d’interpréter les données visuelles obtenues à l’aide de caméras ou d’autres dispositifs électroniques. Après un traitement à l’aide d’algorithmes des données collectées, le système informatique peut prendre des mesures ou faire des recommandations et des suggestions. Avec l’intelligence artificielle, les machines peuvent « penser » ; avec la vision par ordinateur, elles peuvent « voir » et « comprendre » leur environnement.

De la même manière que l’humain apprend à distinguer les objets et à interpréter ce qu’il voit, la vision par ordinateur doit être entraînée. Toutefois, le processus d’apprentissage est plus rapide en raison des grandes capacités de traitement de la machine.

Comment fonctionne un système de vision par ordinateur ?

Les systèmes de vision par ordinateur reposent sur deux technologies principales :

  • Apprentissage profond (deep learning). Cette variante du machine learning utilise des algorithmes permettant aux machines d’apprendre par elles-mêmes le contexte des données visuelles. Elles deviennent ainsi capables de distinguer une image d’une autre de manière autonome, sans avoir à être programmées pour reconnaître chaque forme.
  • Réseau de neurones convolutif (CNN). Pour pouvoir reconnaître ce qu’il voit, un modèle d’apprentissage automatique doit décortiquer l’image en balisant chaque pixel. Ces balises servent alors à créer des convolutions, c’est-à-dire des opérations mathématiques sur deux fonctions afin d’en générer une troisième. Ensuite, le robot effectue des prédictions et teste leur exactitude à travers une série d’itérations, ce qui lui permet de reconnaître un objet comme le ferait l’humain.
L’apprentissage profond permet aux machines d’apprendre par elles-mêmes sans avoir à être entraînées à la reconnaissance d’un objet
Le deep learning permet aux machines d’apprendre par elles-mêmes, sans avoir à être entraînées à la reconnaissance d’un objet

Grâce à cet apprentissage, la vision par ordinateur analyse son environnement en trois étapes :

  1. Capture d’une image par un dispositif. Ce dispositif peut être un appareil photo ou une caméra vidéo.
  2. Envoi de l’image à un système d’interprétation. En utilisant un modèle de reconnaissance, le système compare l’image à d’autres images connues.
  3. Lorsqu’un utilisateur demande des informations, le programme fournit les résultats de son analyse.

Applications de la vision par ordinateur dans l’industrie

Les entreprises de secteurs tels que la logistique, la médecine, les transports ou les loisirs ont déjà intégré la vision par ordinateur dans leurs activités. Les caméras de sécurité, les contrôles routiers, les smartphones et d’autres dispositifs leur fournissent des quantités massives de données qu’elles exploitent à de diverses fins. Le service Google Translate, par exemple, permet de capturer un texte à l’aide d’une caméra et de le traduire instantanément dans une autre langue.

Mais la vision par ordinateur a aussi de nombreuses applications dans l’industrie 4.0 :

  • Réalité augmentée. Les informations recueillies par la vision numérique sont utilisées pour positionner des objets virtuels dans un environnement réel.
  • Véhicules autonomes. Les voitures autonomes s’aident de l’identification en temps réel pour détecter les événements qui se produisent sur la route et y réagir convenablement.
  • Fabrication. Il est possible de surveiller les machines pour s’assurer de leur bon fonctionnent et pour évaluer la qualité des produits et des emballages sur les chaînes de production.
  • Analyse spatiale. Elle consiste à identifier des personnes ou des objets dans l’espace et à enregistrer leurs mouvements.
  • Santé. L’analyse de l’imagerie médicale aide les médecins à identifier les pathologies et à établir des diagnostics plus rapides et plus précis.
  • Agriculture. La surveillance des champs à partir de satellites, de drones ou d’avions permet de contrôler les récoltes et de détecter d’éventuelles urgences ou des carences en nutriments. En ce sens, Patatas Meléndez sélectionne grâce à cette technologie les pommes de terre qu’elle expédie vers ses clients.
  • Extraction de texte. Le traitement automatique permet d’isoler des contenus pertinents parmi de grandes quantités de texte.

Qui est à l’origine de la vision par ordinateur ?

Selon Thomas Huang, chercheur et professeur émérite à l’université de l’Illinois, aux États-Unis, et l’une des figures de proue de la vision numérique, l’histoire de cette technologie remonte aux années 1960, lorsque Larry Roberts a traité dans sa thèse au Massachusetts Institute of Technology (MIT) la possibilité d’extraire des informations géométriques en 3D à partir de perspectives en 2D. À l’époque, l’IA est devenue un domaine de recherche et, en 1963, les ordinateurs ont commencé à transformer des images bidimensionnelles en images tridimensionnelles.

L’histoire de la vision par ordinateur remonte à la thèse de Larry Roberts au MIT dans les années 1960
L’histoire de la vision par ordinateur remonte à la thèse de Larry Roberts au MIT, dans les années 1960

La reconnaissance optique des caractères (OCR) est apparue en 1974, et la reconnaissance intelligente des caractères (ICR) a permis de déchiffrer des textes manuscrits à l’aide de réseaux de neurones. En 1982, le neuroscientifique David Marr a établi que la vision fonctionne de manière hiérarchique et a développé des algorithmes permettant aux machines de détecter les bords, les coins, les courbes et d’autres formes géométriques. En même temps, l’informaticien Kunihiko Fukushima a créé un réseau de cellules pour la reconnaissance des formes, appelé Neocognitron. Les progrès se sont poursuivis au début du 21e siècle et, en 2012, le modèle AlexNet avait un faible pourcentage d’erreurs.

Vision par ordinateur et logistique

Dans les secteurs de la logistique et de la gestion de la chaîne d’approvisionnement, la vision par ordinateur présente un grand potentiel et offre plusieurs applications, dont certaines sont liées à la robotique :

  • Expédition. La vision intelligente sert à calculer l’espace occupé par les articles dans les moyens de transport et les entrepôts, ainsi qu’à améliorer les données collectées par les systèmes de gestion d’entrepôt (WMS). Elle permet également de vérifier la lisibilité des étiquettes des produits.
  • Maintenance. L’IA recueillant des informations provenant de plusieurs équipements, elle peut détecter le besoin d’une réparation.
  • Opérations. L’intelligence artificielle optimise les itinéraires de picking des opérateurs et est également utile pour le contrôle d’accès. La vision par ordinateur détecte les personnes qui courent dans l’installation ou qui accèdent à une zone restreinte, afin de permettre une intervention rapide par le biais d’alertes.
  • Sécurité. La surveillance des mouvements des véhicules et des personnes dans les entrepôts et les parkings permet de prendre des mesures rapidement pour minimiser les risques. Les caméras détectent également le port correct ou non des EPI et les premiers signes de fatigue des conducteurs.

Vision par ordinateur et robots de picking

Un autre domaine dans lequel la vision numérique devrait révolutionner la logistique est celui des robots de picking, ou cobots pick and place. Ces équipements sont la solution idéale pour les centres logistiques gérant des volumes d’expédition quotidiens importants, puisqu’ils sont capables d’effectuer jusqu’à 1 000 prélèvements à l’heure pour préparer les commandes à grande vitesse. Ils fonctionnent sans interruption et déterminent le meilleur endroit pour prélever chaque produit à l’aide du logiciel de vision. Les algorithmes d’intelligence artificielle leur permettent quant à eux de prélever des articles inconnus sans entraînement préalable.

Chez Mecalux, nous nous efforçons de maintenir les entrepôts à la pointe de la technologie à travers des innovations telles que le picking assisté par la vision par ordinateur. Vous souhaitez faire passer votre entreprise à la vitesse supérieure et en savoir plus sur notre robot de picking et sur nos autres solutions ? N’hésitez pas à nous contacter, nous vous aiderons à faire le bon choix en fonction de vos besoins et nous vous accompagnerons dans votre démarche.