PIGEON et PIGEOTTO, les modèles de géolocalisation d’images de l’Université de Stanford

0


La géolocalisation d’images à l’échelle mondiale représente un défi majeur en raison de la diversité des images provenant de toutes les régions du globe. Une équipe de l’Université de Stanford semble avoir surmonté ce problème avec un système de géolocalisation qui combine la création sémantique de géocellules, l’apprentissage préalable contrastif multitâche et une nouvelle fonction de perte. Afin de valider cette approche, ils ont entraîné PIGEON (Predicting Image Geolocations), un modèle d’IA qui analyse l’arrière plan d’une photo pour la localiser ainsi que PIGEOTTO, un second modèle très performant.

Malgré les progrès significatifs des approches basées sur les transformateurs de vision, les succès antérieurs en géolocalisation étaient souvent limités à des distributions spécifiques d’images de points de repère, avec une incapacité à généraliser vers des lieux non explorés.

Le premier modèle, PIGEON a été pré-entraîné avec le réseau neuronal CLIP (Contrastive Language-Image Pre-Training) d’OpenAI, et ensuite affiné sur un ensemble de données original de 400 000 images d’entraînement construit par les chercheurs sur des données de Geoguessr, un jeu où le joueur doit trouver l’emplacement d’une image Google Street View. PIGEON a pu identifier le pays où la photo a été prise avec une précision de 92%, localisant l’emplacement à 25 kilomètres près dans 40,4% des cas.

Le modèle a démontré son excellence en se classant dans le top 0,01% des joueurs lors d’expériences à l’aveugle contre des humains.

Le modèle a été confronté à Trevor Rainbolt, l’un des meilleurs joueurs professionnels mondiaux GeoGuessr, dans une série de six matchs. Comme on peut le voir dans la vidéo partagée sur youtube par ce dernier, l’IA a remporté l’ensemble des matchs.

PIGEOTTO, le deuxième modèle, a été entraîné sur un ensemble de données diversifié de plus de 4 millions de photos provenant de Flickr et de Wikipedia, excluant les données Street View. Ce modèle atteint des résultats de pointe sur un large éventail de benchmarks de géolocalisation d’images, surpassant l’état de l’art précédent jusqu’à 38,8 points de pourcentage au niveau du pays, réduisant l’erreur médiane de distance de plus de cinq fois.

Considérations éthiques

Les auteurs soulignent toutefois que la géolocalisation d’images peut être source d’avantages potentiels pour la société mais présente des risques liés à de mauvais usages. Selon eux, les applications bénéfiques comprennent la compréhension des changements de lieux au fil du temps, l’utilisation de la technologie dans des domaines tels que la conduite autonome, la navigation, l’éducation géographique et le journalisme.

Cependant, la précision croissante de la géolocalisation d’images, entraîne des préoccupations éthiques et de vie privée. Ils notent également le financement souvent lié à des organismes militaires dans la recherche actuelle, mettant en garde contre les utilisations potentielles à des fins militaires. Par précaution, ils ont décidé de ne pas rendre publics les poids du modèle, ne diffusant que le code pour validation académique.

Ils déclarent d’ailleurs :

“Bien qu’une limitation majeure des technologies de géolocalisation d’images actuelles (y compris la nôtre) soit qu’elles ne peuvent pas faire des prédictions fiables au niveau de la rue, les chercheurs devraient sérieusement prendre en compte le risque de mauvais usage potentiel de leur travail à mesure que ces technologies deviennent de plus en plus précises”.

Références de l’article

“PIGEON: PREDICTING IMAGE GEOLOCATIONS” arXiv:2307.05845v4

Auteurs et affiliations:

Lukas Haas, Michal Skreta, Chelsea Finn : Department of Computer Science
Stanford University

Silas Alberti : Department of Electrical Engineering Stanford University



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.