THE ART OF DATA SCIENCE
FICHA
Foto Título:            THE ART OF DATA SCIENCE
Autor:            Roger D. Peng y Elizabeth Matsui
Editorial:       Autoeditado en Leanpub
Idioma:         Inglés
Páginas:        162
Publicación:  2015
Lectura:         2016
COMENTARIO EDITORIAL
(Fuente: Traducción y adaptación propia de ficha en Leanpub)

El análisis de datos es un proceso difícil en gran parte porque poca gente puede describir exactamente cómo hacerlo. No es que no haya mucha gente haciendo análisis de datos de forma regular. Es que el proceso por el que se establece una pregunta, se exploran los datos, se dirige un modelado formal, se interpretan los resultados y se comunican los hallazgos es un proceso difícil de generalizar y abstraer. Fundamentalmente, el análisis de datos es un arte. No es todavía algo que se pueda fácilmente automatizar. El análisis de datos tiene muchas herramientas a su disposición, desde la regresión lineal hasta los árboles de clasificación a los bosques aleatorios, y estas herramientas han sido cuidadosamente implementadas sobre ordenador. Pero, al final, todo conduce a que una persona -el analista de datos- encuentre la forma de unir todas estas herramientas y aplicarlas a los datos para responder a una pregunta de interés para la gente.

Este libro describe el proceso del análisis de datos con el mínimo de detalle técnico imprescindible. Lo que se describe no es una fórmula específica de análisis de datos sino más bien un proceso general que puede ser aplicado en una gran variedad de situaciones. A través de nuestra larga experiencia tanto gestionando equipos de analistas como realizando nuestros propios análisis, hemos observado cuidadosamente lo que produce resultados coherentes y lo que fracasa en el empeño de producir hallazgos útiles en los datos. Este libro es un destilado de nuestra expriencia en un formato que es aplicable tanto a practicantes como gstores de la ciencia de datos.

COMENTARIO PERSONAL

He leído este libro como un acompañamiento del curso 'Managing Data Analysis' que la universidad Johns Hopkins imparte en Coursera. De hecho, el seguimiento del libro en los vídeos y textos del curso es muy, muy estrecho.

Lo que se plantea es un proceso ordenado de realizar el análisis de datos y, por cada actividad, se describe brevemente en qué consisten y las principales herramientas.

El libro se estructura en once capítulos. Los dos primeros son de carácter introductorio y, así, en 'Data Analysis as Art' se defiende la idea de que, dado que el análisis de datos no se puede constreñir a una fórmula o un proceso claramente delineado, estamos más ante un arte que una ciencia, mientras que en 'Epicycles of Analysis', el segundo capítulo, explica un modelo de trabajo iterativo en que, por cada fase del ciclo de análisis, tenemos un subciclo con tres partes en que primero establecemos unas expectativas, luego se recogen datos y finalmente se comparan las expectativas con los datos.

Los siguientes capítulos, describen el proceso:
  • 'Stating and Refining the Question': en que se concede mucha importancia a formular claramente la pregunta a que se quiere dar respuesta con el análisis, y que describe los tipos de preguntas posibles y sus implicaciones.

  • 'Exploratory Data Analysis': propone una serie de exploraciones iniciales sobre los datos orientadas en parte a comprobar su corrección y, en parte, a hacerse una idea preliminar delo que nos vamos a encontrar.

  • 'Using Models to Explore Your Data':, complementario del anterior, explica cómo usar modelos (lineal, curva normal, etc) para ayudar en ese análisis exploratorio.

  • 'Inference: A primer': proporciona algunas ideas sobre inferencia trabajando con aspectos como la población, el muestreo, etc
  • 'Formal Modeling': explica el concepto de modelado formal y la distinción entre un análisis asociativo (orientado a encontrar relaciones) y uno predictivo (orientado a predecir comportamientos)

  • 'Inference vs Prediction: Implications for Modelling Strategy': profundiza en las implicaciones de los dos tipos de análisis mencionados en el capítulo anterior.

  • 'Interpreting Your Results': da algunas pautas para la interpretación de los resultados, como son el revisar la pregunta que queríamos contestar, usar un modelo inicial, desarrollar el análisis y considerar las implicaciones de lo que se deduce.

  • 'Communications':nos habla de la comunicación de los resultados finales pero, sobre todo, de la comunicación menos formal que se establece dentro del equipo o con otras áreas durante el propio proceso de análisis.
Finaliza el libro con unas conclusiones finales en 'Concluding Thoughts'.

Me ha gustado mucho, por lo ordenado y claro, el proceso descrito aunque es cierto que no deja de ser un planteamiento algo superficial donde faltan las técnicas 'duras'. Y eso es un arma de doble filo: no describirlas hace el libro muchísimo más ameno, legible y para todos los públicos incluyendo a quienes, como yo, no buscan realmente una especialización sino sólo entender el campo del análsis de datos. Por otra parte, sin embargo, queda esa sensación de no dominar realmente la materia, sino haber rascado sólo en su superficie.

Con todo, es un libro, y un curso, que me han gustado y que me parecen buenos como introducción y como forma de poner orden en la materia.