6/1/2021

Introducción a la visualización de datos

Contenidos

Visualización de datos

  • ¿Por qué visualizar datos?
  • Objetivo de visualización
    • Categorías
    • Relaciones
    • Tendencias
    • Mix

Paquete ggplot2

F.J Anscombe (1973), The American Statistician Journal

Utilicemos el ejemplo de este paper

Utilizando 4 bases de datos de juguete, calcular los principales estadísticos descriptivos de un análisis de regresión:

Regresión sobre los datos

Gráficamente

Conclusiones del ejercicio

  • La visualización de datos es útil porque nos permite explorar patrones que el cálculo de indicadores estadísticos muchas veces no permite
  • La visualización es una parte importante del proceso exploratorio de datos
    • “El mayor valor de una imagen es cuando nos obliga a observar lo que no esperábamos ver”. — John Tukey

Visualización de datos Do’s & Dont’s

Do’s

  • Mantener visualizaciones simples
  • Ojo con la elección de color
  • Considerar la intención de la visualización
  • Verificar que la visualización sea entendible

Do’s: Ejemplo

Dont’s

  • No tergiversar los datos intencionalmente
  • No presentar mucha información
  • No colocar datos erróneos en las visualizaciones para intentar que se vea mejor
  • No asumir que todos los métodos de visualizaciones son iguales

Dont’s: Ejemplo

Dont’s: Ejemplo

# Y ahora, ¿Qué sigue?

En el proceso de generar visualizaciones es crucial

  • Definir el objetivo: ¿Qué se quiere visualizar?
    • Categorías
    • Relaciones
    • Tendencias
    • Mix
  • Tipos de variables
    • Categóricas: Ordenadas/No Ordenadas
    • Numéricas
    • Texto
  • Número de Dimensiones

Categorías

Podemos pensar en la categorización como una forma de agrupar los valores de una variable por alguna característica, en general, el tipo de variable.

  • Si queremos mostrar cuántas observaciones tenemos dentro de una variable categórica existe el típico gráfico de conteo conocido como barplot

Categorías

En el caso de las variables numéricas, existe un caso particular de los barplot, conocido como histograma, en el cual se categoriza por un rango de valores dentro de la variable.

Categorías

Una forma de mostrar la distribución de los posibles valores que puede tomar una variable númerica, es utilizar un boxplot. Éste gráfico muestra en la caja el rango de valores entre el primer y el tercer cuartil. Los “bigotes” mínimo y máximo se calculan como el quintil 1 y 3, menos y más 1,5 por el Rango intercuartílico (Q3-Q1), respectivamente. Fuera de esto están los valores atípicos.

Categorías

Si lo que se quiere es mostrar cuánto del total de una variable categórica representa una categoría, una buena alternativa es un treemap, que divide en un rectángulo el valor proporcional que representa en la variable cada una de las categorías.

Fuente: https://es.datachile.io/geo/chile

Relaciones

  • Muchas veces nos va a interesar analizar la interacción entre variables.
  • El caso clásico de gráfico de relaciones es el scatterplot (o gráfico de puntos). En este se muestra el valor de dos variables numéricas o una numérica y otra categórica en un gráfico de dos dimensiones (gráfico x e y), cada valor de la variable con su respectivo valor en la otra dimensión.
  • Una forma de representar la relación de dos variables categóricas es utilizar el diagrama de Sankey. Éste muestra como se relacionan dos variables categóricas dado un “flujo”.

Relaciones

Tendencia

  • Las variables como el tiempo y el espacio son fundamentales en el desarrollo de muchas disciplinas, incluida la ciencia de datos. Por eso la relación entre ellas y otras variables se describe como tendencia y no como una relación común y corriente.
  • Para mostrar una tendencia temporal de una variable numérica, generalmente se utiliza el line plot (gráfico de línea), que es un caso particular del gráfico de puntos en el que se traza una línea entre cada punto consecutivo en el tiempo.

Tendencia

Tendencia

Los patrones que se pueden surgir entre la relación de una variable categórica o númerica y el espacio geográfico suelen generalmente representarse en un choropleth. Este gráfico tiene como estructura subyacente un mapa que tiene alguna división, donde cada división tomará un color distinto dependiendo de la categoría o si está dentro de un rango del valor de la variable.

Fuente: https://www.r-graph-gallery.com/choropleth-map.html

Mix

Nuestro objetivos podrían ser múltiples. Existen tipos de gráficos que nos permiten incorporar distintos elementos:

Visualizaciones en R: ggplot2

Las 3 B

  • Bueno: Se ha consolidado como uno de los principales paquetes de R, está en el percentil 99 de descargas y es el paquete de visualización de datos más utilizado.

  • Bonito: Destaca por su sentido de la estética, el uso de colores, formas y su versatilidad. La estética no solo cumple el rol de resaltar lo “bonito”, sino que aporta a la dimensionalidad en la visualización de datos.

  • Barato: Es un paquete muy eficiente en la codificación: con unas pocas lineas se pueden conseguir excelentes visualizaciones. Además, R es gratis!

ggplot2

  • Basado en las ideas de Wilkinson et al. (2005), extendidas por Wickham (creador del paquete), plantean la “grammar of graphics” (grámatica de las gráficas) como una herramienta que permite describir los elementos de un gráfico.
  • La idea central es que cualquier gráfico puede construirse usando estos tres componentes:
    • Datos
    • Coordenadas
    • Objetos Geométricos (geoms)
  • Podemos agregar más dimensiones a nuestras gráficas cambiando detalles estéticos como:
    • Tamaño
    • Color
    • Formas

ggplot2

ggplot(data= <datos>, aes(<ejes>, <color>, <forma> ))+
  <función_geom>()

ggplot2: Ejemplo 1

cuadratica<-data.table(x=c(1:10)^2,y=c(1:10))
ggplot(data=cuadratica,aes(x=x,y=y))+geom_point()

Vamos al laboratorio!