21/9/2019

Agenda

Visualización: Introducción

  • Importancia de la visualización
  • Análisis descriptivo tabular vs visual
  • Los gráficos no sustituyen a las tablas, las complementan!
  • La Gramática de los Gráficos
  • Introducción a ggplot2

Importancia de la visualización

La idea de representar datos ha estado presente por décadas. En un contexto de negocios sirve para ayudar al tomador de decisión a superar dificultades o a identificar patrones para aprovechar oportunidades.

En décadas recientes los desarrollos computacionales han llevado a la visualización de datos a un nuevo nivel.

De acuerdo con Business Analyst Learnings la visualización es relevante porque ayuda al cerebro humano a procesar información que sería imposible de hacerlo sin el nivel de abstracción que proporcionan los gráficos.

Importancia de la visualización

De acuerdo con Inside Big Data lo que la visualización hace es clarificar lo que de otra manera sería demasiado complicado dada la gran cantidad de datos que se generan en esta era del big data.

La visualiación debería guiar la evidencia estadística! Algunas investigaciones han demostrado que conjuntos de datos con las mismas propiedades estadísticas tales como la media, desviación estándar y correlación pueden describir muestras totalmente distintas! El problema en este caso es que dados que los marcadores estadísticos son iguales (o muy similares) se podría llegar a la engañosa conclusión que las muestras son iguales (o muy similares). Sólo a partir de la visualización uno es capaz de detectar esas diferencias!

Importancia de la visualización

h_lines.x slant_down.x h_lines.y slant_down.y
nobs 142.0 142.0 142.0 142.0
NAs 0.0 0.0 0.0 0.0
Minimum 22.0 18.1 10.5 0.3
Maximum 98.3 95.6 90.5 99.6
Quartile 1 42.3 42.9 30.5 27.8
Quartile 3 66.8 64.5 70.3 68.4
Mean 54.3 54.3 47.8 47.8
Median 53.1 53.1 50.5 46.4
Sum 7705.1 7706.0 6791.9 6792.7
SE Mean 1.4 1.4 2.3 2.3
LCL Mean 51.5 51.5 43.4 43.4
UCL Mean 57.0 57.0 52.3 52.3
Variance 281.1 281.1 725.8 725.6
Stdev 16.8 16.8 26.9 26.9
Skewness 0.2 0.3 0.1 0.2
Kurtosis -0.4 -0.3 -1.2 -0.9

Importancia de la visualización

Importancia de la visualización

El estudio de Tal y Wansik (2014) sugiere que la ayuda visual basada en gráficos permite al individuo absorber la información más rápidamente, tener un mejor entendimiento de sus implicaciones y recordarlo por más tiempo.

Así, está claro que la visualización no es sólo crear gráficos bonitos, coloridos y llamativos, se trata de representación de estadísticas de manera que sea más fácil de entender y recordar.

Pese al poder de comunicación de ideas e información que permite la visualización, se debe evitar que el receptor del mensaje no llegue a conclusiones erradas, para ello, el emisor del mensaje debe saber qué gráfico utilizar en casa circunstancia.

Selección del tipo de gráfico

El analista/comunicador deberá emplear el método de visualización que mejor se ajuste a sus datos.

Si vas a comparar valores, se sugiere el uso de:

  • Gráficos de barra
  • Gráficos de pastel
  • Líneas
  • Gráficas de dispersión

Selección del tipo de gráfico

Si vas a analizar tendencias, se sugiere el uso de:

  • Líneas (series de tiempo)
  • Barras

Si vas a mencionar la composición de algo, podrías usar:

  • Barras apiladas
  • Gráfico de áreas

La grámatica de los gráficos

Introducción a ggplot2

Una breve reseña histórica: Nace el 10 de junio de 2007, su creador Hadley Wickham. Es un sistema de creación de gráfico para R. Fue la tesis doctoral de Wickham y está fundamentado en el libro The Grammar of Graphics de Leland Wilkenson.

¿Qué es la gramática de los gráficos?

Es la semántica que da sentido a la creación de los gráficos desde una perspectiva de formalidad y rigurosidad matemática.

Los graficos están compuestos por capas (layers), componentes estéticos (aesthetics) y por atributos geométricos (geoms), combinando estos componentes permite crear cualquier tipo de gráficos. La gramática de los gráficos da la pauta para tal creación (similitud con el lenguaje).

Gráficos con ggplot2

Recordemos los componentes:

  • capas (layers)
  • Componentes estéticos (aesthetics)
  • Atributos geométricos (geoms)

Usaremos la base de datos iris:

data(iris) # carga la base de datos iris
iris %>% 
  head
##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1          5.1         3.5          1.4         0.2  setosa
## 2          4.9         3.0          1.4         0.2  setosa
## 3          4.7         3.2          1.3         0.2  setosa
## 4          4.6         3.1          1.5         0.2  setosa
## 5          5.0         3.6          1.4         0.2  setosa
## 6          5.4         3.9          1.7         0.4  setosa

Gráficos con ggplot2

Creando el primer layer + aes

#library(tidyverse)
iris %>% 
 ggplot(aes(x= Sepal.Length, y=Sepal.Width)) # sólo crea el plano

Gráficos con ggplot2

Agregando componentes geométricos: puntos

iris %>% 
 ggplot(aes(x= Sepal.Length, y=Sepal.Width)) +  # crea el plano
   geom_point()                                 # agrega puntos

Gráficos con ggplot2

Agregando otra capa con componentes estéticos: color

iris %>% 
 ggplot(aes(x= Sepal.Length, y=Sepal.Width)) +  # crea el plano
  geom_point(aes(color=Species))                # agrega puntos y los pinta de color según la especie

Gráficos con ggplot2

Una capa más: facets

iris %>% 
 ggplot(aes(x= Sepal.Length, y=Sepal.Width)) +  # crea el plano
  geom_point(aes(color=Species)) +              # agrega puntos y los pinta de color según la especie
  facet_grid(Species~.)                         # separo por tipo de especie en filas

Gráficos con ggplot2

Una capa más: facets

iris %>% 
 ggplot(aes(x= Sepal.Length, y=Sepal.Width)) +  # crea el plano
  geom_point(aes(color=Species)) +              # agrega puntos y los pinta de color según la especie
  facet_grid(~Species)                         # separo por tipo de especie en columnnas

Gráficos con ggplot2

Una capa más: título, subtítulo y fuente

iris %>% 
 ggplot(aes(x= Sepal.Length, y=Sepal.Width)) +  # crea el plano
  geom_point(aes(color=Species)) +              # agrega puntos y los pinta de color según la especie
  facet_grid(~Species) +                        # separo por tipo de especie en columnnas
   labs(title = "Edgar Anderson's Iris Data",   # título
       subtitle = "Gráfico de ejemplo",         # subtítulo
       caption="Fuente: paquete datasets R")    # fuente

Gráficos con ggplot2

Una capa más: tema

iris %>% 
 ggplot(aes(x= Sepal.Length, y=Sepal.Width)) +  # crea el plano
  geom_point(aes(color=Species)) +              # agrega puntos y los pinta de color según la especie
  facet_grid(~Species) +                        # separo por tipo de especie en columnnas
   labs(title = "Edgar Anderson's Iris Data",   # título
       subtitle = "Gráfico de ejemplo",         # subtítulo
       caption="Fuente: paquete datasets R")+    # fuente
 theme(legend.position="top")

FIN!