Inicio Ciencia y Tecnología Noticias Modelo de inteligencia artificial genera instantáneamente imágenes 3D a partir de muestra...

Noticias

Modelo de inteligencia artificial genera instantáneamente imágenes 3D a partir de muestra 2D

"LRM también es una solución muy práctica para aplicaciones posteriores, ya que puede producir una forma 3D en sólo cinco segundos sin optimización posterior".

Por

Alejandro Serrano

noviembre 13, 2023

Arquitectura general del modelo de inteligencia artificial LRM, un marco codificador-decodificador basado en transformador totalmente diferenciable para la reconstrucción de una sola imagen a NeRF. LRM aplica un modelo de visión previamente entrenado (DINO) para codificar la imagen de entrada (Sec. 3.1), donde las características de la imagen se proyectan en una representación triplana 3D mediante un decodificador transformador grande mediante atención cruzada (Sec. 3.2), seguido de un perceptrón multicapa para predecir el color y la densidad del punto para la representación volumétrica (Sección 3.3). Toda la red está entrenada de extremo a extremo con alrededor de un millón de datos 3D (Sección 4.1) con pérdidas simples de reconstrucción de imágenes (Sección 3.4). Crédito: arXiv (2023). DOI: 10.48550/arxiv.2311.04400

En el emergente y rápido mundo de la informática a gran escala, era solo cuestión de tiempo antes de que un logro revolucionario estuviera a punto de poner patas arriba el campo de las visualizaciones 3D. Adobe Research y la Universidad Nacional de Australia (ANU) han anunciado el primer modelo de inteligencia artificial capaz de generar imágenes 3D a partir de una única imagen 2D.

En un desarrollo que transformará la creación de modelos 3D, los investigadores aseguran que su nuevo algoritmo, que se entrena con muestras masivas de imágenes, puede generar dichas imágenes 3D en cuestión de segundos.

Una inteligencia artificial con una red neuronal altamente escalable

Yicong Hong, pasante de Adobe y exestudiante de posgrado de la Facultad de Ingeniería, Computación y Cibernética de la ANU, comenta que su gran modelo de reconstrucción (LRM) se basa en una red neuronal altamente escalable que contiene un millón de conjuntos de datos con 500 millones de parámetros. Dichos conjuntos de datos incluyen imágenes, formas 3D y vídeos.

«Esta combinación de un modelo de alta capacidad y datos de entrenamiento a gran escala permite que nuestro modelo de inteligencia artificial sea altamente generalizable y produzca reconstrucciones 3D de alta calidad a partir de diversas entradas de prueba«, indica Hong, autor principal de un informe sobre el proyecto.

«Hasta donde sabemos, [nuestro] LRM es el primer modelo de reconstrucción 3D a gran escala«, insiste Hong.

Una tecnología con un amplio abanico de aplicaciones

Se puede esperar que los sistemas de realidad aumentada y virtual, los juegos, la animación cinematográfica y el diseño industrial aprovechen esta tecnología transformadora de inteligencia artificial.

Los primeros programas de imágenes 3D funcionaron bien solo en categorías de temas específicos con formas preestablecidas. Hong explica que los avances posteriores en la generación de imágenes se lograron con programas como DALL-E y Stable Diffusion, que «aprovecharon la notable capacidad de generalización de los modelos de difusión 2D para permitir vistas múltiples«. Sin embargo, los resultados con esos programas se limitaron a modelos generativos 2D previamente entrenados.

Otros sistemas utilizaron optimización por forma para lograr resultados impresionantes, pero «a menudo son lentos y poco prácticos«, según Hong.

Solo cinco segundos de respuesta

Hong comenta que la evolución de los modelos de lenguaje natural dentro de redes de transformadores masivas que utilizaban datos a gran escala para maximizar las tareas de predicción de la siguiente palabra animó a su equipo a plantearse la pregunta: «¿Es posible aprender un 3D genérico previo para reconstruir un objeto a partir de ¿una sola imagen?» Su respuesta fue «Sí«.

«LRM puede reconstruir formas 3D de alta fidelidad a partir de una amplia gama de imágenes capturadas en el mundo real, así como imágenes creadas por modelos generativos«, afirma Hong. «LRM también es una solución muy práctica para aplicaciones posteriores, ya que puede producir una forma 3D en sólo cinco segundos sin optimización posterior«.

Una base de datos de millones de parámetros de imágenes

El éxito de este modelo de inteligencia artificial radica en su capacidad para aprovechar su base de datos de millones de parámetros de imágenes y predecir un campo de radiación neuronal (NeRF). Esa es la capacidad de generar imágenes 3D de apariencia realista basadas únicamente en imágenes 2D, incluso si esas imágenes son de baja resolución. NeRF tiene capacidades de síntesis de imágenes, detección de objetos y segmentación de imágenes.

Hace 60 años se creó el primer programa informático que permitía a los usuarios generar y manipular formas 3D simples. Sketchpad, diseñado por Ivan Sutherland como parte de su tesis de doctorado en el MIT, con un total de 64K de memoria. A lo largo de las décadas, los programas 3D crecieron a pasos agigantados con programas como AutoCAD, 3D Studio, SoftImage 3D, RenderMan y Maya.

El artículo de Hong, «LRM: Large Reconstruction Model for Single Image to 3D«, se subió al servidor de preimpresión arXiv el 8 de noviembre.

DEJA UNA RESPUESTA Cancelar respuesta

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Cookie	Duración	Descripción
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Por qué el valor de Lola Índigo como artista está en…

Wake Up Dead Man: el nuevo caso de Benoit Blanc ya…

¿Qué cómics han inspirado la película de Thunderbolts*?

28 Años Después llega a los cines este verano

Ya conocemos la fecha del DLC de Assassin´s Creed Shadows

Tamagotchi Plaza – Análisis

Donkey Kong Bananza: ajustes clave para reducir el mareo y mejorar la experiencia…

Ubisoft va a por todas con los micropagos.

«Sándwich» unas vacaciones a orillas del Atlántico

«El caso de la mujer del estanque»: intrigas costumbristas y un…

«La sangre de los antiguos reyes»: hechiceros, dragones y espadas mágicas

Reseña de «Impulsos carnales (Reinas y monstruos II) de J. T….

¿Cómo crear música personalizada fácilmente? — Con el generador de música…

Los mejores altavoces portátiles de 2025

VPN en dispositivos móviles para 2025

Gaming seguro para usuarios de Ubuntu: Lo que necesitas saber

Reseña sobre Los ojos de oro

Las invocaciones en Final Fantasy VII

No hay tumba

Este sigue siendo el camino – Reseña sobre el tomo 2…