Un grupo de científicos ha desarrollado un sistema de aprendizaje automático que permite "observar" una escena desde varios ángulos y deducir cómo sería esta desde otra perspectiva, lo que puede sentar las bases para crear máquinas capaces de aprender del mundo sin ayuda humana.
Un estudio que publica hoy Science presenta el sistema creado por expertos de Google DeepMind que es capaz de aprender cómo es la composición 3D de un entorno usando una pequeña cantidad de imágenes 2D de muestra tomadas de la escena y sin que sea necesaria supervisión humana.
El sistema, llamado Generative Query Network (red generadora de búsqueda ) "podría" sentar las bases para crear máquinas que puedan aprender del mundo "de forma autónoma usando sus propios sensores", indica la revista. Uno de los autores principales del estudio Ali Eslami explicó que los actuales sistemas de visión artificial trabajan con aprendizaje supervisado, que usa gran cantidad de conjuntos de datos etiquetados por humanos para decir a la máquina lo que contiene una imagen, un proceso que "requiere mucho tiempo y es muy costoso".
Sin embargo, el nuevo método de aprendizaje no necesita de esa intervención humana. La GQN consta de dos partes: una red de representación que elabora una imagen codificada de la escena a partir de las imágenes de muestra, y otra de producción, que genera imágenes probables de la escena desde puntos de vista nuevos y completa las partes de la secuencia que pudieran estar ocultas. Eslami señaló que desde los años sesenta se trabaja en dar a los ordenadores la capacidad de que "miren una imagen y la entiendan de la forma en que lo hacemos nosotros, que reconozcan cuántos objetos hay, dónde están situados en el espacio tridimensional y de qué tipo son".
Los niños aprenden principalmente a través de la observación y la interacción con el medio -recordó-, lo que sugiere que es la mejor manera de hacerlo, por lo que el estudio propone "una forma fácil de aprender a partir de la observación, de manera que se acostumbra a la red a ver una imagen y que prediga cómo será desde un punto de vista diferente". Los científicos "entrenaron" a GQN usando entornos simples generados por ordenador con diferentes configuraciones de objetos y luces.
Cuando posteriormente se le proporcionaron imágenes de una escena nueva, "la red fue capaz de generar imágenes de ella de forma predictiva desde cualquier punto de vista de su interior, una capacidad que se mantenía incluso si se cambia alguna característica de la escena". La GQN se presenta "como una forma prometedora" de controlar los dispositivos robóticos pues sus capacidades predictivas le permiten "observar" brazos robóticos, por ejemplo, desde diferentes ángulos usando solo una cámara fija, lo que implica que se necesitan menos datos no procesados para un posicionamiento y control precisos.
En un artículo que acompaña el estudio, Matthias Zwicker, de la estadounidense Universidad de Maryland señala que el nuevo sistema "supone un importante paso hacia adelante para crear máquinas que aprendan a entender los entornos espaciales usando un aprendizaje de transferencia (a través de simulaciones) no supervisado".
El experto indica, sin embargo, que este trabajo también tiene limitaciones, entre ellas que sus experimentos se limitan a simples escenas en 3D con unos pocos objetos geométricos básicos. Por lo que "no queda claro" hasta qué punto su enfoque podría llegar a comprender los entornos complejos del mundo real. En cualquier caso, consideró que esta nueva técnica introduce "una serie de contribuciones cruciales que probablemente lo harán posible en el futuro".