Avantages des modèles de transformateur pour la détection d'objets dans les applications de vision industrielle

Dans les applications de vision industrielle telles que la conduite autonome, la fabrication intelligente et la surveillance, une détection précise des objets est cruciale. Divers modèles d'IA ont été développés au fil des ans, notamment YOLO, Faster R-CNN, Mask R-CNN, RetinaNet et autres, pour détecter et interpréter des objets dans des images ou des vidéos. Cependant, les modèles de transformateurs sont apparus comme des solutions plus efficaces pour la détection d'objets.

Le système visuel humain peut identifier rapidement les objets en fonction de leur taille, de leur couleur et de leur profondeur, tout en filtrant les détails d'arrière-plan non pertinents. De même, un modèle d’IA devrait être capable de se concentrer sur des objets importants, de filtrer l’arrière-plan et de les classer avec précision. Cela nécessite de capturer les objets cibles et de faire des prédictions basées sur la formation du modèle.

Les systèmes de vision industrielle utilisent aujourd'hui des capteurs d'image et des lentilles qui alimentent un bloc spécialisé de traitement du signal d'image (ISP). La sortie de ce bloc est ensuite traitée par des accélérateurs ou des processeurs à usage général pour une analyse plus approfondie.

Les exigences en matière de détection d'objets varient en fonction de l'application. Dans les scénarios de surveillance et d'usine, la vision industrielle peut être utilisée pour compter les personnes ou détecter les défauts dans les lignes de production. Dans les applications automobiles, la vision industrielle est utilisée pour les systèmes avancés d'aide à la conduite (ADAS) tels que le freinage d'urgence automatique et l'assistance au maintien de voie.

Les modèles Transformer, notamment Oriented Object Detection with Transformer (O2DETR) et DEtection TRansformer (DETR), offrent plusieurs avantages par rapport aux modèles traditionnels comme Faster R-CNN. Ils ont des conceptions plus simples et utilisent une approche de détection d’objets de bout en bout en un seul passage. DETR, par exemple, utilise le codage et le décodage par transformateur, ainsi qu'un ensemble de pertes de prédictions pour renforcer la correspondance entre les prédictions et la vérité terrain.

Contrairement aux modèles traditionnels qui s'appuient sur des boîtes d'ancrage et une suppression non maximale, les modèles de transformateur comme DETR traitent les données en parallèle et peuvent gérer des objets qui se chevauchent sans ces étapes supplémentaires. Cela rend les modèles de transformateurs plus efficaces et plus précis pour la détection d'objets.

En conclusion, les modèles de transformateurs ont révolutionné la détection d'objets dans les applications de vision industrielle. Leur capacité à capturer des objets importants, à filtrer les détails de l’arrière-plan et à classer avec précision les objets en fait un choix privilégié par rapport aux modèles traditionnels. Les progrès en matière de développement matériel et logiciel ouvrent également la voie à des véhicules autonomes qui s’appuient sur des capteurs et des capacités avancées de vision industrielle.