Ignacio González de los Reyes-Gavilán: Tecnología - Generative Deep Learning: Teaching Machines to Paint, Write, Compose and Play

GENERATIVE DEEP LEARNING
FICHA

	Título: GENERATIVE DEEP LEARNING: TEACHING MACHINES TO PAINT, WRITE, COMPOSE AND PLAY Autor: David Foster Editorial: O'Reilly Idioma: Inglés Páginas: 350 Publicación: 2019 Lectura: 2021

COMENTARIO EDITORIAL

(Fuente: Descripción de producto en Amazon)

El modelado generativo es un de los temas más calientes en Inteligencia Artificial. Ahora es posible enseñar a una máquina a destacar en empeños humanos como pintar y componer música. Con este práctico libro, los ingenieros de machine learning y los científicos de datos descubrirán cómo re-crear algunos de los ejemplos mas impresionantes de modelos de deep learning generativo, como los autocodificadores variacionales, las redes generativas adversarias (GAN), modelos de codificador-decodificador y modelos del mundo.

El autor, David Foster, desvela el funcionamiento interno de cada técnica, empezando con los fundamentos del deep learning antes de proceder con algunos de los algoritmos más avanzados en la materia.

Mediante consejos y trucos, entenderá cómo hacer que sus modelos aprendan de una manera más eficiente y se hagan más creativos. Descubra cómo los autocodificadores variacionalres pueden cambiar las expresiones faciales en fotografías. Construya ejemplos prácicos de redes adversarias desde el principio, incluyendo CycleGAN para transferencia de estilo, y MuseGAN para la generación de música. Cree modelos generativos recurrentes para la generación de texto y aprenda cómo mejorar modelos usando la atención. Entienda cómo los modelos generativos pueden ayudar a los agentes a conseguir tareas dentro del aprendizaje por refuerzo. Explore la arquitectura del Transformador (BERT, GPT-2) y los modelos de generación de imágenes como ProGAN y StyleGAN.

COMENTARIO PERSONAL

'Generative deep learning' es un libro técnico que explica las llamadas redes generativas (un subconjunto del deep learning) tanto en sus principios de funcionamiento como su aaplicación en diferentes campos de, llamemosle, creatividad como son la generación de textos, imágenes o música.

El libro, de una estructura muy clara, se compone de diez capítulos agrupados en dos partes, como sigue:

'I. INTRODUCTION TO GENERATIVE DEEP LEARNING' : Proporciona, de manera transversal, los conceptos fundamentales de los modelos generativos y, sobre todo, se explican las dos grandes opciones actuales: los autocodificadores variacionales y las redes adversarias, para lo cual ocupa los cuatro primeros capítulos:
- '1. Generative modeling' : Aborda en el alto nivel el campo del modelado generativo, estudiando el tipo de problemas que se quieren resolver desde una perspectiva probabilista.
- '2. Deep learning' : Proporciona una guía sobre deep learning con sus herramientas y técnicas incluyendo una pequeña introducción a Keras-
- '3. Variational autoencoders' : Se explica el primero de los grandes modelos generativos: los autocodificadores variacionales y se aplica a casos como la generación de caras o la modificación de imágenes existentes.
- '4. Generative adversarial networks' : Explica el segundo gran grupo de modelos generativos: las redes adversarias.

'II. TEACHING MACHINES TO PAINT, WRITE, COMPOSE AND PLAY' : Una segunda parte con una orientación más de aplicación dónde se explica el uso de los modelos vistos en la primera parte para la creación de imágenes, la escritura automática, la creación de música y los juegos.
- '5. Paint' : Se aborda el 'dibujado' artificial para lo cual se explican dos arquitecturas. En primer lugar CycleGAN que permite convertir una fotografía en un cuadro con un estilo determinado (y al contrario). Y luego se la técnica de de transferencia de estilo que permite modificar una fotografía para convertirla en un cuadro que da la impresión de haber sido pintado por un artista.
- '6. Write' : Se estudia ahora la escritura automática para lo cual se explica en primer lugar el funcionamiento de las redes recurrentes (RNN). También se explica un caso diferente: un generador de preguntas-respuestas basado en una arquitectura de codificador-decodificador.
- '7. Compose' : Se pasa ahora a la composición o generación de música, razonando que es un problema muy similar a los problemas de generación secuencial ya vistos con el texto pero con particularidades como son la existencia del tono o el ritmo. Se muestra cómo, en efecto, muchas de las técnicas usadas para la generación de texto son aplicables al caso de la música y se explica una arquitectura específica, MuseGAN que usa redes adversarias para la generación de música.
- '8. Play' : Basándose en un artículo de David Ha, se explica como la conjunción de redes generativas y aprendizaje supervisado puede llevarnos a soluciones capaces de trabajar en un mundo imaginado, un entorno que un agente usa, a modo de simulador, para su propio entrenamiento y se ejemplifica con un algoritmo que aprende a conducir un coche lo más rápido posible en una pista de carreras
- '9. The future of generative modeling' : Resume el paisaje actual del modelado generativo y repasa las técnicas vistas en el libro. Además, echa un vistazo al futuro especulando sobre cómo las tecnologías más avanzadas usadas hoy día podrían hacernos cambiar la forma en que concebimos la creatividad y si será posible o no llegar a conseguir algún día una inteligencia artificial creativa con unos resultados indistinguibles de los producidos por el ser humano.
- '10. Conclusion' : Un breve capítulo de cierre con algunas reflexiones casi personales y en donde expone una hipótesis: que el cerebro y por tanto eventualmente los agentes inteligentes reaccionan no sólo a su entorno sino al entendimiento de su propio funcionamiento.

A pesar de que la algoritmia de que trata el libro es avanzada y de cierta complejidad, lo cierto es que la explicación es bastante clara y asequible, complementada además con ejemplos de código fundamentalmente en Keras, que permiten a desarrolladores probar con ejemplos reales.

La verdad es que es un libro que he disfrutado, aparte de porque el tema me parece interesantísimo, también porque el autor lo explica de una forma que considero muy adecuada: técnica y realista pero bastante comprensible.

No se trata, evidentemente de un libro para cualquier tipo de público pero sí muy recomendable para cualquiera con una base técnica mediana y que desee conocer este tipo de soluciones de inteligencia artificial.