Visualización: Introducción
- Importancia de la visualización
- Análisis descriptivo tabular vs visual
- Los gráficos no sustituyen a las tablas, las complementan!
- La Gramática de los Gráficos
- Introducción a ggplot2
21/9/2019
Visualización: Introducción
La idea de representar datos ha estado presente por décadas. En un contexto de negocios sirve para ayudar al tomador de decisión a superar dificultades o a identificar patrones para aprovechar oportunidades.
En décadas recientes los desarrollos computacionales han llevado a la visualización de datos a un nuevo nivel.
De acuerdo con Business Analyst Learnings la visualización es relevante porque ayuda al cerebro humano a procesar información que sería imposible de hacerlo sin el nivel de abstracción que proporcionan los gráficos.
De acuerdo con Inside Big Data lo que la visualización hace es clarificar lo que de otra manera sería demasiado complicado dada la gran cantidad de datos que se generan en esta era del big data.
La visualiación debería guiar la evidencia estadística! Algunas investigaciones han demostrado que conjuntos de datos con las mismas propiedades estadísticas tales como la media, desviación estándar y correlación pueden describir muestras totalmente distintas! El problema en este caso es que dados que los marcadores estadísticos son iguales (o muy similares) se podría llegar a la engañosa conclusión que las muestras son iguales (o muy similares). Sólo a partir de la visualización uno es capaz de detectar esas diferencias!
| h_lines.x | slant_down.x | h_lines.y | slant_down.y | |
|---|---|---|---|---|
| nobs | 142.0 | 142.0 | 142.0 | 142.0 |
| NAs | 0.0 | 0.0 | 0.0 | 0.0 |
| Minimum | 22.0 | 18.1 | 10.5 | 0.3 |
| Maximum | 98.3 | 95.6 | 90.5 | 99.6 |
| Quartile 1 | 42.3 | 42.9 | 30.5 | 27.8 |
| Quartile 3 | 66.8 | 64.5 | 70.3 | 68.4 |
| Mean | 54.3 | 54.3 | 47.8 | 47.8 |
| Median | 53.1 | 53.1 | 50.5 | 46.4 |
| Sum | 7705.1 | 7706.0 | 6791.9 | 6792.7 |
| SE Mean | 1.4 | 1.4 | 2.3 | 2.3 |
| LCL Mean | 51.5 | 51.5 | 43.4 | 43.4 |
| UCL Mean | 57.0 | 57.0 | 52.3 | 52.3 |
| Variance | 281.1 | 281.1 | 725.8 | 725.6 |
| Stdev | 16.8 | 16.8 | 26.9 | 26.9 |
| Skewness | 0.2 | 0.3 | 0.1 | 0.2 |
| Kurtosis | -0.4 | -0.3 | -1.2 | -0.9 |
El estudio de Tal y Wansik (2014) sugiere que la ayuda visual basada en gráficos permite al individuo absorber la información más rápidamente, tener un mejor entendimiento de sus implicaciones y recordarlo por más tiempo.
Así, está claro que la visualización no es sólo crear gráficos bonitos, coloridos y llamativos, se trata de representación de estadísticas de manera que sea más fácil de entender y recordar.
Pese al poder de comunicación de ideas e información que permite la visualización, se debe evitar que el receptor del mensaje no llegue a conclusiones erradas, para ello, el emisor del mensaje debe saber qué gráfico utilizar en casa circunstancia.
El analista/comunicador deberá emplear el método de visualización que mejor se ajuste a sus datos.
Si vas a comparar valores, se sugiere el uso de:
Si vas a analizar tendencias, se sugiere el uso de:
Si vas a mencionar la composición de algo, podrías usar:
Introducción a ggplot2
Una breve reseña histórica: Nace el 10 de junio de 2007, su creador Hadley Wickham. Es un sistema de creación de gráfico para R. Fue la tesis doctoral de Wickham y está fundamentado en el libro The Grammar of Graphics de Leland Wilkenson.
¿Qué es la gramática de los gráficos?
Es la semántica que da sentido a la creación de los gráficos desde una perspectiva de formalidad y rigurosidad matemática.
Los graficos están compuestos por capas (layers), componentes estéticos (aesthetics) y por atributos geométricos (geoms), combinando estos componentes permite crear cualquier tipo de gráficos. La gramática de los gráficos da la pauta para tal creación (similitud con el lenguaje).
Recordemos los componentes:
Usaremos la base de datos iris:
data(iris) # carga la base de datos iris iris %>% head
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species ## 1 5.1 3.5 1.4 0.2 setosa ## 2 4.9 3.0 1.4 0.2 setosa ## 3 4.7 3.2 1.3 0.2 setosa ## 4 4.6 3.1 1.5 0.2 setosa ## 5 5.0 3.6 1.4 0.2 setosa ## 6 5.4 3.9 1.7 0.4 setosa
Creando el primer layer + aes
#library(tidyverse) iris %>% ggplot(aes(x= Sepal.Length, y=Sepal.Width)) # sólo crea el plano
Agregando componentes geométricos: puntos
iris %>% ggplot(aes(x= Sepal.Length, y=Sepal.Width)) + # crea el plano geom_point() # agrega puntos
Agregando otra capa con componentes estéticos: color
iris %>% ggplot(aes(x= Sepal.Length, y=Sepal.Width)) + # crea el plano geom_point(aes(color=Species)) # agrega puntos y los pinta de color según la especie
Una capa más: facets
iris %>% ggplot(aes(x= Sepal.Length, y=Sepal.Width)) + # crea el plano geom_point(aes(color=Species)) + # agrega puntos y los pinta de color según la especie facet_grid(Species~.) # separo por tipo de especie en filas
Una capa más: facets
iris %>% ggplot(aes(x= Sepal.Length, y=Sepal.Width)) + # crea el plano geom_point(aes(color=Species)) + # agrega puntos y los pinta de color según la especie facet_grid(~Species) # separo por tipo de especie en columnnas
Una capa más: título, subtítulo y fuente
iris %>%
ggplot(aes(x= Sepal.Length, y=Sepal.Width)) + # crea el plano
geom_point(aes(color=Species)) + # agrega puntos y los pinta de color según la especie
facet_grid(~Species) + # separo por tipo de especie en columnnas
labs(title = "Edgar Anderson's Iris Data", # título
subtitle = "Gráfico de ejemplo", # subtítulo
caption="Fuente: paquete datasets R") # fuente
Una capa más: tema
iris %>%
ggplot(aes(x= Sepal.Length, y=Sepal.Width)) + # crea el plano
geom_point(aes(color=Species)) + # agrega puntos y los pinta de color según la especie
facet_grid(~Species) + # separo por tipo de especie en columnnas
labs(title = "Edgar Anderson's Iris Data", # título
subtitle = "Gráfico de ejemplo", # subtítulo
caption="Fuente: paquete datasets R")+ # fuente
theme(legend.position="top")