Este taller introductorio tiene el objetivo de presentar aspectos fundamentales del valor de visualizar preliminarmente un conjunto de datos para determinar sus propiedades. Utilizaremos el dataset tradicional de Anscombe.
Referencias: Munzner Tamara (2013). Visualization Analysis & Design. CRC Press, Boca Raton FL
Importe el dataset anscombe.csv disponible en https://www.smartartifact.com/icesi/anscombe/data/anscombe.csv.
## 'data.frame': 44 obs. of 3 variables:
## $ Set: int 1 1 1 1 1 1 1 1 1 1 ...
## $ X : int 10 8 13 9 11 14 6 4 12 7 ...
## $ Y : num 8.04 6.95 7.58 8.81 8.33 ...
Es probable que al importar el tipo de dato de la columna Set aparece de tipo entero. Conviertala a factor para que sea una variable categorica
## 'data.frame': 44 obs. of 3 variables:
## $ Set: Factor w/ 4 levels "1","2","3","4": 1 1 1 1 1 1 1 1 1 1 ...
## $ X : int 10 8 13 9 11 14 6 4 12 7 ...
## $ Y : num 8.04 6.95 7.58 8.81 8.33 ...
A partir de este punto el objetivo es calcular el promedio, varianza y correlacion entre los valores de X y Y de cada grupo de datos del conjunto de datos. A continuacion se describe como: Cree un subconjunto para cada valor de Set
Calcule el promedio, varianza, y correlaciĂ³n para cada objeto y guĂ¡rdelos en una dataframe
## XProm YProm Xvar Yvar Corr
## 1 9 7.500909 11 4.127269 0.8164205
Repita el proceso para cada subconjunto y guarde los resultados en el dataframe SummaryStats
Veamos los conjuntos grĂ¡ficamente usando la libreria ggplot2. Descargue e importe la libreria ggplot2
Usaremos metodos de la libreria ggplot2 para crear facetas y trazar la regresion lineal
Un diagrama hecho en ggplot se puede descomponer con base en los valores de una de las columnas del conjunto de datos. En este caso usamos la columna Set
Se podrĂa hacer un boxplot de este conjunto de datos?