Módulo 1 Introducción Análisis de Datos y BigData

BigData

Revolución 4.0

Lo que llamamos hoy la SOCIEDAD DEL CONOCIMIENTO es el resultado de la evolución de las industrias inmersas en revolución 4.0: empresas, sociedades y usuarios convergen a través de la evolución tecnológica y su activo principal: los datos.

Es la fase de la digitalización que está impulsada por el aumento de volumen de datos, la potencia en los sistemas computacionales y la conectividad. Esto conlleva a una realidad dinámica ongoing transformador de la economía global y paradigma de hacer las cosas. Y en sí es una transición hacia nuevos sistemas ciberfísicos que operan en forma de redes más complejas y que se construyen sobre la infraestructura de la revolución digital anterior.

Entre los pilares tecnológicos de la Industria 4.0 se destacan: la robótica, simulación, sistema de integración, Internet de las cosas, inteligencia artificial, ciberseguridad, computación en la nube, impresión 3D, realidad aumentada y BigData. Todos tienen en común: procesamiento de datos.

Industria 4.0

Introducción Big Data

Gracias al bajo costo y accesibilidad al almacenamiento a la nube comenzamos a entender que contábamos con datos digitales que resulta en información útil. En el 2010 la revista The Economics en 2010 habla por primera vez de diluvio de datos entendiendo en ese momentos que era el nuevo petróleo por su valor estratégico para la toma de decisiones Durante esa década, el concepto de BigData comienza a tener cada vez más importancia ya que iban evolucionando tres aspectos principales:

Conectividad
Movilidad
Redes Sociales

El diccionario Oxford de lengua inglesa define “Big data” como “Sets de datos extremadamente grandes que deben ser analizados computacionalmente para revelar patrones, tendencias y asociaciones, especialmente relacionadas al comportamiento humano y a las interacciones” (Oxford English Dictionary, 2013). Se caracteriza por grandes volúmenes de datos que se procesan a gran velocidad, volumen, variedad ( datos estructurados y no estructurados) procedente de diferentes fuentes, como: sensores, cámaras, móviles, entre otros.

Hitos del BigData

Para hacer una breve reseña de la historia del big data como concepto aplicable, se utilizará como base el compilado realizado por Ramesh Dontha (2017) a través de una publicación en el sitio de especialidad KDNuggets, en donde se elabora una síntesis simple pero completa de los aspectos más relevantes y los hitos de esta disciplina que la convirtieron en lo que hoy se conoce.

Desde 1944, se comenzó a debatir sobre la importancia de la “Explosión de la Información” a partir de una serie de especulaciones realizadas en la Universidad de Wesleyan por Fremont Ryder donde predecía que en la Universidad de Yale. Para el año 2040, existirían más de 200 millones de volúmenes debido a que en los siguientes años se realizarían tantas publicaciones o se generaría tanta información que se necesitaría de un gran espacio para almacenar tantos libros. Entonces, se advirtió la necesidad de encontrar un método más eficiente para hacer que todo ese conocimiento estuviera a disposición de la humanidad. Claramente, no fue necesario esperar hasta 2040 para ver cómo la “Explosión de los Datos” tomaba carácter propio y concreto.
Por su parte, en 1980, fue Charles Tilly en Inglaterra la primera persona conocida que utilizó el término “ big data” en una publicación académica de prestigio, ya que desde Oxford se comenzó a hablar de todos los datos que se generaría en la “era de la computación”.
En los años ’90, se hizo más común el término gracias a distintos académicos que se apoyaban en la fuerza que habían adquirido las computadoras y los servidores a nivel mundial, aunque en esa época todavía era bastante costoso el almacenamiento de la información.
En 2001, Doug Laney comienza a utilizar el término “ big data” y lo asocia a las famosas 3 V´s que mencionamos anteriormente (Volumen, Velocidad y Variedad), aunque fue hasta 2005 que Tom O´Reilly publica el libro ¿Qué es la Web 2.0?, y es allí donde se comienza a utilizar el término big data de la forma en que se usa actualmente.
En paralelo a la difusión de este libro, también en 2005, se crea Hadoop por parte de ingenieros de Yahoo como una respuesta al uso que Google comenzó a hacer de MapReduce para la indexación ágil de millones de sitios web en su buscador.
En 2008, Google rompe la barrera de 20 petabytes procesados por día y se intensifica la batalla por la generación, la manipulación, el almacenamiento y el uso del big data con las acepciones actuales y las implicancias modernas. En adelante, crece cada vez más la adopción de herramientas de Analytics, Business Intelligence y disciplinas similares que intensifican el uso de los datos de las compañías y de las instituciones para mejorar la toma de decisiones y para hacer más eficientes y económicamente viables sus esfuerzos de sistematización de la información.
Esto lleva a preguntarse si, en los próximos años, se logrará hacer uso de los datos para obtener conocimiento y para descubrir patrones y tendencias, y para segmentar elementos del pasado o para predecir el futuro, y cómo se hará.

Escalabilidad en BigData

Al hablar de escalabilidad no solo se hace referencia a un rápido crecimiento en volumen de almacenamiento y procesamiento de datos, sino también a la flexibilidad que permite que las capacidades se adapten cuando la demanda decrece.
Escalabilidad eficiente implica pensar tanto en picos altos como bajos y aprovechar ambos extremos para brindar experiencias de calidad a la hora de realizar análisis de datos, así como también ser costo-eficientes y tener la menor capacidad ociosa posible.

Para lograr escalabilidad es necesario identificar dónde se generan los cuellos de botella, y para ello hay tres puntos en los que son bastante comunes:

+Alto uso del CPU: suele ser el cuello de botella más común y visible, dado que disminuye el desempeño de los servidores de forma contundente y limita la capacidad y velocidad con que los equipos trabajan.

Memoria con poca disponibilidad: normalmente, al correr procesos complejos que saturan la memoria disponible en los equipos, se produce una eficiencia muy baja y los servidores o equipos con poca memoria no pueden correr todas las aplicaciones o procesos de análisis necesarios para lograr extraer el conocimiento requerido de los sets de datos. Este caso puede tener dos soluciones principales: añadir mayor memoria RAM o identificar si existe pérdida de memoria, dónde se encuentra y repararla.
Alto uso del disco: es un gran indicador de la necesidad de escalabilidad, puesto que está directamente relacionado al almacenamiento de datos. Si se llena el disco significa que se está almacenando mayor cantidad de información que la que el disco puede manejar.

Para escalar en la base de su infraestructura, se puede aumentar la capacidad de los equipos físicos propios o implementar espacio en la nube, pagando solo por lo utilizado.

Mantener infraestructura eficiente y escalable permite mejorar las capacidades y productividad de cualquier proyecto de big data.

Análisis de Datos

Introducción al Análisis de Datos

El análisis de datos es un proceso que consiste en inspeccionar,

1 Limpiar y transformar datos con el objetivo de resaltar información útil, para sugerir conclusiones y apoyo en la toma de decisiones. El análisis de datos tiene múltiples facetas y enfoques, que abarca diversas técnicas en una variedad de nombres, en diferentes negocios, la ciencia, y los dominios de las ciencias sociales. Los datos se coleccionan y analizan para indagar en cuestiones, probar conjeturas o refutar teorías.
2 Se centra en la inferencia estadística la cual permite tomar una decisión de forma sencilla con un grado de confianza determinado
3 Identificando, analizando tanto datos como patrones de comportamiento. Las técnicas de este análisis varían según las necesidades de la organización así como también las soluciones tecnológicas, tales como KNIME, R y tableros de viualización (como Power BI o Qlik View, Tableau o Sas Visual Analytics). Estos proyectan en tiempo real los datos en formato visual

Las etapas más importantes del proceso de análisis de datos son:

Captura de datos. Raw Data Colected
Limpieza de datos. Clean Dataset
Explorar datos. Exploratory Data Analysis
Comunicación. Visualize Report

Proceso de Análisis de datos Fuente Wikipedia

Descubriendo el mundo de los datos

Hoy encontramos datos abiertos y públicos en muchas fuentes digitales, algunos de ellos son:

Data.gov: http://www.data.gov/
IPUMS: censo US https://www.ipums.org
ICSR https://www.icpsr.umich.edu/web/pages/ICPSR/index.html
Harvard-MIT https://dataverse.harvard.edu/
Amazon dataverse http://aws.amazon.com/public-data-sets/
Salud http://www.dhsprogram.com/
World bank http://data.worldbank.org/
Base de datos públicos Rand http://www.rand.org/labor/data.html

Colección de Datos

También está la opción de recolectar los datos por uno mismo.

Los datos nos dicen algo acerca del mundo analizado. Los datos pueden ser:

Visualizaciones hermosas: que nos permiten interpretar algo sobre lo que vemos en la representación gráfica. Por ejemplo, en esta gráfica se representa los vínculos de una red social en donde cada punto es una persona y las líneas que unen los puntos son las interrelaciones de ese individuo.

Datos visuales

Visualizaciones Útiles: permiten generar insights, es decir, tomar información útil con los datos representados. Por ejemplo: polución en China.

Datos Utiles

Los datos son poderosos: permiten tomar medidas de regulación, por ejemplo, sistema de auditoría de contaminación en Gujarat, India.

Datos Poderosos

Pero también los datos pueden ser engañosos: con datos absolutamente reales mostrar correlación entre dos fuentes de datos, que a simple vista tienen fortaleza de relación, pero que en realidad no se vinculan. Por ejemplo, datos mostrados sobre correlación de autismo y comida orgánica, ( Dr. David Gorski)

Datos que Engañan

Entonces, cuando uno mira datos, necesita usar antecedentes y teoría. para saber qué mirar. Pero también hay que dejar que los datos hablen. De aquí que una primera lección para aprender de análisis de datos :

La correlación no siempre determina causalidad.

Introducción a R

Trabajaremos en R con el entorno gráfico de R Studio, y por esa razón, debemos de instalar ambos programas.

R es un entorno y lenguaje de programación enfocado al análisis estadístico, aunque puede ser utilizado también con una herramienta de cálculo numérico. Es una implementación de software libre del lenguaje S, forma parte del sistema GNU y se distribuye bajo la licencia GNU-GPL. A diferencia de los programas que habitualmente utilizamos, que tienen interfaz tipo ventana, R se maneja a través de una consola en la que se introduce código propio de su lenguaje para obtener resultados deseados.

Características de R:

Es un software completamente libre.
Puede ser utilizado en diferentes sistemas operativos como Windows, Linux y MacOS X.
Forma parte de un proyecto colaborativo y abierto, esto es que sus usuarios pueden publicar paquetes y extender su configuración básica.
Tiene un buen sistema de ayuda.
Es extensible y altamente flexible.
Cuenta con más de 4000 paquetes adicionales.

R y Rstudio

Para descargar el software vamos a acceder a la página: http://r-project.org/.

Una vez allí vamos a ir a: DOWNLOAD CRAN

El CRAN (Comprehensive R Archive Network) es una red mundial de servidores web que guardan idénticas y actualizadas versiones de código y documentación de R. Allí vamos a seleccionar uno cualquiera: Luego de seleccionar el “CRAN Mirror, seleccionar según el sistema operativo: ej: Download R for Windows

DOWNLOAD Windows Una vez descargado e instalado procedemos a descargar e instalar el R-Studio, ya que es una interfaz más amigable para trabajar. Este lo descargamos de la siguiente página:

https://www.rstudio.com/
Al ingresar a: http://www.rstudio.com/products/rstudio/download/ e les abre la siguiente pantalla en donde hay que cliquear en “Rstudio Desktop Open Source License FREE”

RStudio

Una vez descargado, ejecutamos el archivo .exe y procedemos a la instalación.

Primera Sesión

Al abrir el programa por primera vez nos vamos a encontrar con lo siguiente:

1 Ventana donde se visualizan los scripts, allí se va a escribir el código que posteriormente ejecutaremos.
2 Consola donde se ejecuta ese código.
3 Ventana donde se visualiza el historial de los que vamos ejecutando.
4 Ventana donde podemos ver y seleccionar directorios de trabajo, gráficos, ayudas, paquetes, etc.

RStudio Estructura

Tipos de archivos y scripts

Los tipos de archivos más utilizados con los que se trabaja son: .r

+Estos archivos son llamados scripts, allí escribimos el conjunto de instrucciones para posteriormente ejecutamos en la consola. La ventaja de estos archivos es que podemos introducir fácilmente modificaciones y podemos guardarlas para uso futuro.

.Rdata Estos son archivo donde se guarda el espacio de trabajo (Workspace), allí no solo se guarda el código con el que estamos trabajando sino que también se almacenan todos los objetos que se fueron creando a medida que se ejecuta este código.

Sintaxis básica

R tiene usa sintaxis muy simple pero con la que hay que tener algunos cuidados.

Este distingue mayúsculas y minúsculas por lo tanto “a” y “A” son símbolos distintos y se refieren por lo tanto a objetos distintos.
Las ordenes se separan mediante “;” o bien cambiando de línea.
Al comenzar y finalizar una orden, R muestra el símbolo “>”, si al terminar la línea la orden no esta completa este mostrara el símbolo “+” en la siguiente línea y seguirá ejecutando hasta que la orden esté completa. Cuando queremos hacer algún comentario y que este no se ejecute como una orden lo hacemos con el símbolo “#”.
Las funciones en R nos permiten realizar cálculos matemáticos estadísticos y manipular objetos, se especifican con el nombre de la función seguido de los argumentos que necesite para ejecutarse (función(arg1, arg2,…)).