6/1/2021
Visualización de datos
Paquete ggplot2
Utilizando 4 bases de datos de juguete, calcular los principales estadísticos descriptivos de un análisis de regresión:
# Y ahora, ¿Qué sigue?
Podemos pensar en la categorización como una forma de agrupar los valores de una variable por alguna característica, en general, el tipo de variable.
En el caso de las variables numéricas, existe un caso particular de los barplot, conocido como histograma, en el cual se categoriza por un rango de valores dentro de la variable.
Una forma de mostrar la distribución de los posibles valores que puede tomar una variable númerica, es utilizar un boxplot. Éste gráfico muestra en la caja el rango de valores entre el primer y el tercer cuartil. Los “bigotes” mínimo y máximo se calculan como el quintil 1 y 3, menos y más 1,5 por el Rango intercuartílico (Q3-Q1), respectivamente. Fuera de esto están los valores atípicos.
Si lo que se quiere es mostrar cuánto del total de una variable categórica representa una categoría, una buena alternativa es un treemap, que divide en un rectángulo el valor proporcional que representa en la variable cada una de las categorías.
Los patrones que se pueden surgir entre la relación de una variable categórica o númerica y el espacio geográfico suelen generalmente representarse en un choropleth. Este gráfico tiene como estructura subyacente un mapa que tiene alguna división, donde cada división tomará un color distinto dependiendo de la categoría o si está dentro de un rango del valor de la variable.
Nuestro objetivos podrían ser múltiples. Existen tipos de gráficos que nos permiten incorporar distintos elementos:
Bueno: Se ha consolidado como uno de los principales paquetes de R, está en el percentil 99 de descargas y es el paquete de visualización de datos más utilizado.
Bonito: Destaca por su sentido de la estética, el uso de colores, formas y su versatilidad. La estética no solo cumple el rol de resaltar lo “bonito”, sino que aporta a la dimensionalidad en la visualización de datos.
Barato: Es un paquete muy eficiente en la codificación: con unas pocas lineas se pueden conseguir excelentes visualizaciones. Además, R es gratis!
ggplot(data= <datos>, aes(<ejes>, <color>, <forma> ))+ <función_geom>()
cuadratica<-data.table(x=c(1:10)^2,y=c(1:10)) ggplot(data=cuadratica,aes(x=x,y=y))+geom_point()