Home / Tecnología / Cómo funcionan las nuevas fotos en 3D de Facebook: TechCrunch

Cómo funcionan las nuevas fotos en 3D de Facebook: TechCrunch

En mayo, Facebook se burló de una nueva característica llamada foto en 3D, y es lo que parece. Sin embargo, más allá de un breve video y el nombre, poco se ha dicho al respecto. Pero el equipo de fotografía computacional de la compañía acaba de publicar la investigación sobre cómo funciona la función y, después de haberla probado personalmente, puedo dar fe de que los resultados son realmente convincentes.

En caso de que no hayas visto el avance, las fotos en 3D vivirán en tus noticias como cualquier otra foto, excepto cuando te desvíes de ellas, presiones o presiones sobre ellas, o inclines el teléfono, responden como si la foto es en realidad una ventana en un pequeño diorama, con los correspondientes cambios de perspectiva. Funcionará para imágenes ordinarias de personas y perros, pero también para paisajes y paisajes.

Parece un poco burlón, y soy casi escéptico como ellos, pero el efecto me ha conquistado bastante rápido. La ilusión de profundidad es muy convincente y parece una pequeña ventana mágica que mira hacia un lugar y un tiempo en lugar de un modelo 3D, que, por supuesto, sí lo es. Así es como se ve en acción:

Hablé sobre el método para crear estas pequeñas experiencias con Johannes Kopf, un investigador de la oficina de Facebook en Seattle, donde se encuentran los departamentos de Cámara y Fotografía Computacional. . Kopf es coautor (con Peter Hedman de la Universidad de Londres) del documento que describe los métodos por los cuales las imágenes se mejoran en profundidad; lo presentarán a SIGGRAPH en agosto.

Curiosamente, el origen de las fotos en 3D no era una idea de cómo mejorar las instantáneas, sino cómo democratizar la creación de contenido de realidad virtual. Es todo sintético, dijo Kopf. Y ningún usuario ocasional de Facebook tiene las herramientas o la inclinación para construir modelos 3D y poblar un espacio virtual.

Una excepción se representa mediante imágenes panorámicas y 360, que suele ser lo suficientemente grande como para ser explorada de manera efectiva a través de VR. Pero la experiencia es ligeramente mejor que mirar la imagen impresa en papel de carnicero que flota a unos pocos metros de distancia. No es exactamente transformativo. Lo que falta es una sensación de profundidad, por lo que Kopf decidió agregarlo.

La ​​primera versión que vi los usuarios movió sus cámaras normales en un patrón que capturaba una escena completa; mediante un análisis cuidadoso de la paralaje (esencialmente como objetos a diferentes distancias cambian cantidades diferentes cuando la cámara se mueve) y el movimiento del teléfono, esa escena podría reconstruirse muy bien en 3D (completa con mapas normales, si sabes qué que son).

Pero deducir los datos de profundidad de las imágenes de enfoque rápido de una sola cámara es un proceso que consume CPU y, aunque es efectivo de alguna manera, también es bastante anticuado como técnica. Especialmente cuando muchas cámaras modernas tienen dos cámaras, como un pequeño par de ojos. Y son teléfonos de doble cámara que podrán crear fotos en 3D (incluso si hay planes para reducir las características de mercado).

Al capturar imágenes con ambas cámaras simultáneamente, puede observar diferencias de paralaje incluso para objetos en movimiento. Y debido a que el dispositivo está en la misma posición para ambos disparos, los datos de profundidad son mucho menos ruidosos, con menos crujidos numéricos para ingresar a la forma utilizable.

Así es como funciona. Las dos cámaras del teléfono adquieren un par de imágenes e inmediatamente el dispositivo hace su trabajo para calcular un "mapa de profundidad" a partir de ellas, una imagen que codifica la distancia calculada de todo en el marco. El resultado es similar a esto:

Apple, Samsung, Huawei, Google: todos tienen sus métodos para hacerlo en el horno de sus teléfonos, aunque hasta ahora se ha utilizado principalmente para crear un fondo borroso artificial. [19659002] El problema es que el mapa de profundidad creado no tiene una escala absoluta: por ejemplo, amarillo claro no significa 10 pies, mientras que rojo oscuro significa 100 pies. Una imagen tomada a unos pocos pies a la izquierda con una persona puede tener un color amarillo que indica 1 pie y el rojo indica 10. La escala es diferente para cada foto, lo que significa que si toma más de una, no digamos docenas o cien, hay una pequeña y coherente indicación de qué tan lejos está realmente un objeto dado, lo que hace que los puntos de unión realistas sean un dolor.

Este es el problema que Kopf, Hedman y sus colegas han tomado. En su sistema, el usuario toma más fotos de su entorno moviendo su teléfono; Capture una imagen (técnicamente dos imágenes y un mapa de profundidad resultante) cada segundo y comience a agregarla a su colección.

En el fondo, un algoritmo analiza tanto los mapas de profundidad como los pequeños movimientos de cámara capturados por los sistemas de detección de movimiento del teléfono. Así que los mapas de profundidad se masajean esencialmente en la forma correcta para alinearse con sus vecinos. Esta parte es imposible de explicar porque es la salsa matemática secreta que los investigadores han preparado. Si eres curioso y te gusta el griego, haz clic aquí.

No solo crea un mapa de profundidad fluido y preciso a través de exposiciones múltiples, sino que lo hace muy rápidamente: alrededor de un segundo por imagen, por eso el instrumento que crearon dispara a ese ritmo y por qué llaman al documento "Instant 3D Photography" ".

Entonces, las imágenes reales se unen, como normalmente sería una panorámica. Pero usando el nuevo y mejorado mapa de profundidad, este proceso puede acelerarse y reducirse a dificultad, dicen, en un orden de magnitud.

Debido a que diferentes imágenes capturan la profundidad de forma diferente, alinearlas puede ser difícil, como lo muestran los ejemplos de la izquierda y la central: muchas partes se excluirán o producirán datos de profundidad incorrectos. El de la derecha es el método de Facebook.

De modo que los mapas de profundidad se transforman en malla 3D (una especie de modelo bidimensional o caparazón), piénselo como una versión de papel maché del paisaje. Pero luego se examina la malla en busca de bordes obvios, como una barandilla en el primer plano que ocluye el paisaje en el fondo y "rasgado" a lo largo de estos bordes. Esto distancia los diversos objetos para que aparezcan en sus diversas profundidades y se muevan con cambios de perspectiva como si lo fueran.

Aunque esto efectivamente crea el efecto del horror que describí al principio, podrías haber adivinado que el primer piso habría parecido poco más que un recorte de papel, ya que, si fuera la cara de una persona atrapada directamente, no habría información en los lados o la parte posterior de la cabeza.

Este es el punto en el que llega el paso final para "alucinar" el resto de la imagen a través de una red neuronal convolucional. Es un poco como un relleno consciente del contenido, que adivina qué es lo próximo. Si hay pelo, bueno, ese pelo probablemente continuará. Y si es un tono de piel, probablemente también continúe. Así que recrea de manera convincente esas tramas a lo largo de una estimación de cómo se puede modelar el objeto, cerrando la brecha, de modo que cuando se cambia ligeramente la perspectiva, parece que realmente estás "cerca" del objeto.

El resultado final es una imagen que responde de forma realista a los cambios de perspectiva, haciéndolo visible en realidad virtual o como una foto de diorama 3D en el avance de noticias.

En la práctica, no es necesario que nadie haga algo diferente, como descargar un complemento o aprender un nuevo gesto. Desplazarse más allá de estas fotos cambia ligeramente la perspectiva, alertando a las personas sobre su presencia, y desde allí todas las interacciones se sienten naturales. No es perfecto: hay artefactos y rarezas en las imágenes unidas si se mira de cerca, y obviamente el kilometraje varía según el contenido alucinado, pero es divertido y atractivo, lo cual es mucho más importante.

El plan es implementar la función a mediados del verano. Por ahora, la creación de fotos en 3D se limitará a dispositivos con dos cámaras; esta es una limitación de la técnica, pero cualquiera podrá verlas.

Pero el documento también aborda la posibilidad de crear una cámara a través de otra red neuronal convolucional. Los resultados, que solo se tocaron brevemente, no son tan buenos como los sistemas de doble cámara, pero aún son respetables, mejores y más rápidos que otros métodos actualmente en uso. Así que aquellos de nosotros que todavía vivimos en la era oscura de las cámaras individuales tenemos algo que esperar.

Sobre Willian Delgado

Check Also

Anorak recolecta una serie A de £ 5 millones para su plataforma de asesoramiento de seguros de vida – TechCrunch

Anorak Technologies, la empresa emergente del Reino Unido que creó una plataforma de consejería de …

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

A %d blogueros les gusta esto: