30 de Septiembre de 2020
Imagínense que en la siguiente tarea, se les entrega una base de datos que contiene información acerca de la edad de las personas y el consumo de Coca-Cola. Sí les pidiera caracterizar a los individuos con un solo indicador:
¿Qué indicador utilizarían?
Utilizando 4 bases de datos de juguete, calcular los principales estadísticos descriptivos de un análisis de regresión:
Podemos pensar en la categorización como una forma de agrupar los valores de una variable por alguna característica, en general, el tipo de variable.
En el caso de las variables numéricas, existe un caso particular de los barplot, conocido como histograma, en el cual se categoriza por un rango de valores dentro de la variable
Una forma de mostrar la distribución de los posibles valores que puede tomar una variable númerica, es utilizar un boxplot. Éste gráfico muestra en la caja el rango de valores entre el primer y el tercer cuartil. Los “bigotes” mínimo y máximo se calculan como el quintil 1 y 3, menos y más 1,5 por el Rango intercuartílico (Q3-Q1), respectivamente. Fuera de esto están los valores atípicos.
Si lo que se quiere es mostrar cuánto del total de una variable categórica representa una categoría, una buena alternativa es un treemap, que divide en un rectángulo el valor proporcional que representa en la variable cada una de las categorías.
Nuestro objetivos podrían ser múltiples. Existen muchos tipos de gráficos que nos permiten incorporar distintos elementos:
Bueno: Se ha consolidado como uno de los principales paquetes de R, está en el percentil 99 de descargas y es el paquete de visualización de datos más utilizado.
Bonito: Destaca por su sentido de la estética, el uso de colores, formas y su versatilidad. La estética no solo cumple el rol de resaltar lo “bonito”, sino que aporta a la dimensionalidad en la visualización de datos.
Barato: Es un paquete muy eficiente en la codificación: con unas pocas lineas se pueden conseguir excelentes visualizaciones. Además, R es gratis!
ggplot(data= <datos>, aes(<ejes>, <color>, <forma> ))+ <función_geom>()
cuadratica<-data.table(x=c(1:10)^2,y=c(1:10)) ggplot(data=cuadratica,aes(x=x,y=y))+geom_point()