Comment la vision artificielle fait progresser l'automatisation
2023-03-10
La vision artificielle est un ensemble de technologies permettant à des équipements automatisés (industriels ou autres) d'avoir une compréhension de haut niveau de l'environnement immédiat à partir d'images. Sans logiciel de vision artificielle, les images numériques ne seraient rien d'autre que de simples ensembles de pixels non connectés ayant diverses valeurs de couleur et intensités de ton pour un tel équipement. La vision artificielle permet à des ordinateurs (généralement connectés aux commandes des machines) de détecter des bords et des formes dans ces images pour permettre à des routines de traitement de niveau supérieur d'identifier des objets d'intérêt prédéfinis. Dans ce sens, les images ne sont pas nécessairement limitées aux images photographiques dans le spectre visible, mais peuvent également inclure des images obtenues à l'aide de signaux infrarouges, laser, rayons X et ultrasons.
Figure 1 : L'utilisation de la vision artificielle pour des applications robotiques plus sophistiquées est en hausse. (Source de l'image : John6863373 | Dreamstime.com)
Une application assez courante de la vision artificielle en environnement industriel consiste à identifier une pièce spécifique dans un bac contenant un ensemble de pièces disposées de manière aléatoire (pêle-mêle). Dans ce cas, la vision artificielle peut aider les robots de manutention à saisir automatiquement la bonne pièce. Bien entendu, la reconnaissance de ces pièces par retour d'image serait relativement simple si toutes les pièces étaient bien rangées et orientées de la même manière sur un plateau. Cependant, des algorithmes de vision artificielle robustes peuvent reconnaître des objets situés à différentes distances de la caméra (et donc apparaissant sous différentes tailles au capteur d'imagerie) ainsi que dans différentes orientations.
Les systèmes de vision artificielle les plus sophistiqués ont permis l'émergence de nouveaux modèles bien plus sophistiqués que le prélèvement dans des bacs.
Figure 2 : La vision artificielle permet aux systèmes (industriels ou autres) d'obtenir une compréhension de haut niveau d'un environnement à partir d'images. (Source de l'image : Wikimedia)
Technologies liées à la vision artificielle
Le terme « vision artificielle » est parfois réservé pour faire référence à des méthodes mathématiques plus établies et plus efficaces d'extraction d'informations à partir d'images. Par contraste, le terme « vision par ordinateur » décrit généralement des systèmes plus modernes et plus exigeants en termes de calcul — y compris des approches de boîte noire utilisant l'apprentissage automatique (ML) ou l'intelligence artificielle (IA). Cependant, la vision artificielle peut également servir de terme générique englobant toutes les méthodes d'extraction d'informations de haut niveau à partir d'images. Dans ce contexte, la vision par ordinateur décrit ses théories de fonctionnement sous-jacentes.
Les technologies permettant d'extraire une signification de haut niveau des images abondent. Dans la communauté des chercheurs, ces technologies sont souvent considérées comme distinctes de la vision artificielle. En pratique, il s'agit pourtant de différentes manières de réaliser la vision artificielle... et dans de nombreux cas, elles se recoupent.
Le traitement d'image numérique est une forme de traitement des signaux numériques impliquant l'amélioration, la restauration, le codage et la compression des images. Les avantages par rapport au traitement d'image analogique sont la réduction du bruit et de la distorsion ainsi que la disponibilité d'un nombre beaucoup plus important d'algorithmes. L'une des premières utilisations de l'amélioration d'image a été la correction des premières images de la surface lunaire à courte distance. Pour ce faire, on a eu recours à la cartographie photogrammétrique ainsi qu'à des filtres antiparasites et à la correction des distorsions géométriques dues à l'alignement de la caméra d'imagerie sur la surface lunaire.
Figure 3 : Le contrôleur de circuit intégré DLPC350 fournit des signaux de déclenchement d'entrée et de sortie pour synchroniser les motifs affichés avec une caméra. Il fonctionne avec des matrices de micromiroirs (DMD) conçues pour conférer une vision artificielle 3D aux équipements industriels, médicaux et de sécurité. En fait, les applications incluent la numérisation 3D ainsi que des systèmes de métrologie. (Source de l'image : Texas Instruments)
L'amélioration d'image numérique consiste souvent à augmenter le contraste et peut également apporter des corrections géométriques pour l'angle de vue et la distorsion de l'objectif. La compression est typiquement obtenue en comparant un signal complexe à une combinaison de fonctions cosinus — un type de transformée de Fourier connu sous le nom de transformée en cosinus discrète ou DCT. Le format de fichier JPEG est l'application la plus populaire de la DCT. La restauration d'images peut également utiliser les transformées de Fourier pour supprimer le bruit et le flou.
La photogrammétrie utilise une sorte d'identification des caractéristiques pour extraire les mesures des images. Ces mesures peuvent inclure des informations 3D lorsque plusieurs images de la même scène sont obtenues à partir de positions différentes. Les systèmes de photogrammétrie les plus simples mesurent la distance entre deux points d'une image à l'aide d'une échelle. L'inclusion d'une référence d'échelle connue dans l'image est normalement nécessaire à cette fin.
La détection des caractéristiques permet aux ordinateurs d'identifier les bords et les coins ou les points d'une image. Il s'agit d'une première étape nécessaire à la photogrammétrie ainsi qu'à l'identification des objets et des mouvements. La détection des taches permet d'identifier les régions dont les bords sont trop lisses pour une détection des bords ou des coins.
La reconnaissance des formes est utilisée pour identifier des objets spécifiques. Dans sa forme la plus simple, il peut s'agir de rechercher une pièce mécanique spécifique et bien définie sur un convoyeur.
La reconstruction 3D détermine la forme 3D des objets à partir d'images 2D. Elle peut être obtenue par des méthodes photogrammétriques dans lesquelles la hauteur des caractéristiques communes (identifiées dans des images provenant de différents points d'observation) est déterminée par triangulation. La reconstruction 3D est également possible à partir d'une seule image 2D. Dans ce cas, le logiciel interprète (entre autres choses) les relations géométriques entre les bords ou les zones d'ombre.
Figure 4 : Les scanners 3D capturent des images 2D d'un objet pour en créer un modèle 3D. Dans certains cas, les modèles numériques sont ensuite utilisés pour l'impression de copies en 3D. (Source de l'image : Shenzhen Creality 3D Technology Co.)
Un humain peut facilement reconstruire mentalement un cube à partir d'une simple représentation linéaire — et une sphère à partir d'un cercle ombré. L'ombrage donne une indication des pentes des surfaces. Cependant, le processus d'une telle déduction est plus compliqué qu'il n'y paraît car l'ombrage est un paramètre unidimensionnel alors que la pente est bidimensionnelle. Cela peut conduire à des ambiguïtés — un fait démontré dans l'art lorsqu'il s'agit de représenter des objets physiquement impossibles.
Figure 5 : La détermination informatisée de la forme 3D d'une pièce à partir d'une image 2D pose de nombreux défis.
Comment les tâches de vision artificielle sont-elles ordonnées ?
De nombreux systèmes de vision artificielle combinent progressivement les techniques mentionnées ci-dessus en commençant par des opérations de bas niveau, puis en passant progressivement à des opérations de niveau supérieur. Au niveau le plus bas, tous les pixels d'une Image sont conservés en tant que données à large bande passante. Ensuite, chaque opération de la séquence identifie les caractéristiques de l'image et représente les informations d'intérêt avec des quantités de données relativement faibles.
Les opérations de bas niveau d'amélioration et de restauration d'image viennent en premier, suivies de la détection des caractéristiques. Lorsque plusieurs capteurs sont utilisés, les opérations de bas niveau peuvent donc être exécutées par des processus distribués dédiés à des capteurs individuels. Une fois les caractéristiques détectées dans les images individuelles, des mesures photogrammétriques de plus haut niveau peuvent être effectuées — tout comme l'identification d'objets ou d'autres tâches reposant sur les données combinées de plusieurs images et capteurs.
Calculs directs et algorithmes d'apprentissage
Dans le contexte de la vision artificielle, un calcul direct est un ensemble de fonctions mathématiques définies manuellement par un programmeur humain. Des entrées telles que les valeurs des pixels d'image pour produire des sorties telles que les coordonnées des bords d'un objet sont acceptées. En revanche, les algorithmes d'apprentissage ne sont pas directement écrits par des humains, mais sont plutôt entraînés via des jeux de données d'exemple associant les entrées aux sorties souhaitées. Ils fonctionnent donc comme des boîtes noires. La plupart de ces méthodes d'apprentissage automatique emploient désormais l'apprentissage profond basé sur des réseaux neuronaux artificiels pour effectuer leurs calculs.
Figure 6 : Les capteurs d'images série iVu permettent d'identifier les pièces en fonction de leur type, de leur taille, de leur emplacement, de leur orientation et de leur couleur. Les composants de vision artificielle peuvent accepter la configuration et la surveillance d'un écran intégré, d'une IHM à distance ou d'un PC. La caméra, le contrôleur, l'objectif et la lumière sont tous pré-intégrés. (Source de l'image : Banner Engineering Corp.)
L'apprentissage automatique simple pour les applications industrielles est souvent plus fiable et moins exigeant en termes de calcul s'il est basé sur le calcul direct. Bien sûr, il y a des limites à ce que l'on peut réaliser avec le calcul direct. Par exemple, il ne pourrait jamais effectuer la reconnaissance des formes avancée requise pour identifier des personnes par leur visage, et encore moins à partir d'un flux vidéo d'un espace public bondé. En revanche, l'apprentissage automatique gère habilement ce type d'applications. Il n'est donc pas étonnant que l'apprentissage automatique soit de plus en plus déployé pour des opérations de vision artificielle de niveau inférieur, notamment l'amélioration et la restauration d'images, ainsi que la détection de caractéristiques.
Améliorer les approches d'apprentissage (et non les algorithmes)
L'évolution de la technologie d'apprentissage profond a clairement montré que ce ne sont pas les algorithmes d'apprentissage eux-mêmes qui doivent être améliorés, mais la manière dont ils sont entraînés. L'une de ces routines d'entraînement améliorées est appelée « vision par ordinateur axée sur les données ». Ici, le système d'apprentissage profond accepte de très grands ensembles d'entraînement composés de milliers, de millions, voire de milliards d'images — puis stocke les informations résultantes que ses algorithmes extraient de chaque image. Les algorithmes apprennent efficacement en s'exerçant sur des exemples de travail et en se référant ensuite à un « livre de réponses » pour vérifier s'ils ont déterminé les bonnes valeurs.
Une vieille histoire remontant aux débuts de la reconnaissance de forme numérique sert de mise en garde. L'armée américaine avait l'intention d'utiliser la vision artificielle pour la reconnaissance des cibles, et des démonstrations réalisées par des sous-traitants de la défense ont permis d'identifier de manière fiable des chars d'assaut de fabrication américaine et russe. Les différents chars ont tous été correctement différenciés à partir des photographies aériennes du fournisseur, l'un après l'autre. Cependant, lors de nouveaux tests avec les images de la bibliothèque du Pentagone, le système a continuellement donné des réponses erronées. Le problème était que les images du sous-traitant de défense représentaient toutes des chars américains dans des déserts et des chars russes dans des champs verdoyants. Loin de reconnaître des chars différents, le système reconnaissait plutôt des arrière-plans de couleurs différentes. La morale ? Pour être utiles, les algorithmes d'apprentissage doivent être présentés avec des données d'entraînement soigneusement sélectionnées.
Conclusion : vision pour la sécurité des cellules de travail robotiques
La vision artificielle n'est plus une technologie de niche. C'est dans les applications industrielles qu'elle est le plus largement déployée. Dans ce domaine, l'évolution la plus spectaculaire est la manière dont la vision artificielle complète désormais les systèmes de sécurité des installations industrielles qui déclenchent des alarmes ou émettent des annonces sonores lorsque le personnel de l'usine pénètre dans une zone de travail sans casque, masque ou autre équipement de protection adéquat. La vision artificielle peut également compléter les systèmes qui signalent si des machines mobiles, telles que des chariots élévateurs, s'approchent trop près des personnes.
Ces systèmes de vision artificielle et d'autres systèmes similaires peuvent parfois remplacer les systèmes de protection autour des robots industriels pour permettre des opérations plus efficaces. Ils peuvent également remplacer ou améliorer les systèmes de sécurité basés sur des protections lumineuses qui arrêtent simplement les machines lorsqu'un ouvrier pénètre dans une cellule de travail. Lorsque le système de vision artificielle surveille le sol autour d'une cellule de travail, il est possible que les robots de ces cellules ralentissent progressivement à l'approche de personnes.
À mesure que les sites industriels évoluent pour accueillir des robots collaboratifs et d'autres équipements de cellule de travail autour desquels le personnel de l'usine peut se déplacer en toute sécurité (même pendant le fonctionnement de ces équipements), ces systèmes et d'autres basés sur la vision artificielle vont faire de plus en plus partie des processus industriels.
Avertissement : les opinions, convictions et points de vue exprimés par les divers auteurs et/ou participants au forum sur ce site Web ne reflètent pas nécessairement ceux de DigiKey ni les politiques officielles de la société.

