Catégories
Art et photographie

Des chercheurs de Google utilisent l'IA pour générer des modèles 3D à partir d'images Internet aléatoires: Digital Photography Review

Des chercheurs de Google Research et de l'équipe d'intelligence artificielle d'apprentissage en profondeur de Google Brain ont publié une nouvelle étude détaillant les champs de rayonnement neuronal pour les collections de photos sans contrainte (NeRF). Le système fonctionne en prenant des images sans contrainte «dans la nature» d'un endroit particulier – des images touristiques d'une attraction populaire, par exemple – et en utilisant un algorithme pour les transformer en un modèle 3D dynamique, complexe et de haute qualité.

Les chercheurs détaillent leur projet dans un nouvel article, expliquant que leur travail consiste à ajouter des «  extensions '' aux champs de rayonnement neuronal (NeRF) qui permettent à l'IA de reconstruire avec précision des structures complexes à partir d'images non structurées, c'est-à-dire prises sous des angles aléatoires avec différents éclairages et arrière-plans. .

Cela contraste avec NeRF sans les extensions, qui ne peut modéliser avec précision les structures qu'à partir d'images prises dans des paramètres contrôlés. L'avantage évident est que des modèles 3D peuvent être créés en utilisant le grand nombre de photos Internet qui existent déjà de ces structures, transformant ces collections en ensembles de données utiles.

Différentes vues du même modèle construites à partir d'images non structurées.

Les chercheurs de Google appellent leur IA plus sophistiquée «NeRF-W», utilisée pour créer des «représentations de scène photoréalistes et spatialement cohérentes» de points de repère célèbres à partir d'images contenant divers «facteurs de confusion». Cela représente une énorme amélioration de l'IA, la rendant beaucoup plus utile par rapport à une version qui nécessite des collections d'images soigneusement contrôlées pour fonctionner.

Parlant de la technologie sous-jacente, l'étude explique comment fonctionne NeRF, en déclarant:

«L'approche des champs de rayonnement neuronal (NeRF) modélise implicitement le champ de rayonnement et la densité d'une scène dans les poids d'un réseau de neurones. Le rendu de volume direct est ensuite utilisé pour synthétiser de nouvelles vues, démontrant un niveau de fidélité sans précédent sur une gamme de scènes difficiles.

Il y a cependant un gros problème, c'est que les systèmes NeRF ne fonctionnent bien que si la scène est capturée dans des paramètres contrôlés, comme mentionné. Sans un ensemble d'images structurées, la capacité de l'IA à générer des modèles «  se dégrade considérablement '', ce qui limite son utilité par rapport à d'autres approches de modélisation.

Les chercheurs expliquent comment ils s'appuient sur cette IA et la font progresser avec de nouvelles capacités, en disant dans leur étude:

La limitation centrale de NeRF que nous abordons dans ce travail est son hypothèse que le monde est géométriquement, matériellement et photométriquement statique – que la densité et le rayonnement du monde sont constants. NeRF exige donc que deux photographies prises à la même position et orientation doivent avoir des intensités de pixels identiques. Cette hypothèse est gravement violée dans de nombreux ensembles de données du monde réel, tels que des collections de photos Internet à grande échelle de sites touristiques bien connus …

Pour gérer ces scénarios complexes, nous présentons NeRF-W, une extension de NeRF qui assouplit les hypothèses strictes de cohérence de ce dernier.

Le processus comprend plusieurs étapes, y compris d'abord la modélisation par NeRF-W de l'apparence par image de différents éléments des photos, tels que la météo, l'éclairage, le niveau d'exposition et d'autres variables. L'IA apprend finalement «  une représentation d'apparence partagée pour toute la collection de photos '', ouvrant la voie à la deuxième étape.

Dans la deuxième partie, NeRF-W modélise le sujet global des images …

«… comme l'union d'éléments partagés et dépendants de l'image, permettant ainsi la décomposition non supervisée du contenu de la scène en composants statiques et transitoires. Cette décomposition permet la synthèse haute fidélité de nouvelles vues de points de repère sans les artefacts autrement induits par le contenu visuel dynamique présent dans l'imagerie d'entrée.

Notre approche modélise les éléments transitoires comme un champ de rayonnement volumétrique secondaire combiné à un champ d'incertitude dépendant des données, ce dernier capturant un bruit d'observation variable et réduisant davantage l'effet des objets transitoires sur la représentation statique de la scène.

En testant leur création, les chercheurs ont découvert que NeRF-W était capable de produire des modèles haute fidélité de sujets avec plusieurs points de vue détaillés en utilisant des images non structurées «  dans la nature ''. Malgré l'utilisation d'images plus compliquées avec de nombreuses variables, les modèles NeRF-W ont dépassé la qualité des modèles générés par les précédents systèmes NeRF de premier plan «  de loin pour toutes les mesures considérées '', selon les chercheurs.

Les utilisations potentielles de cette technologie sont nombreuses, y compris la possibilité de générer des modèles 3D de destinations populaires pour des applications de réalité virtuelle et de RA à partir d'images touristiques existantes. Cela élimine le besoin de créer des paramètres soigneusement contrôlés pour capturer les images, ce qui peut être difficile dans les destinations populaires où des personnes et des véhicules sont souvent présents.

Un PDF contenant l'étude complète peut être trouvé ici; certains modèles peuvent également être trouvés sur le GitHub du projet.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *