importo el dataset
# Importar los datos
anscombe <- read.csv2("anscombe.csv")
# Imprimir la estructura de datos
str(anscombe)
## 'data.frame': 44 obs. of 3 variables:
## $ Set: int 1 1 1 1 1 1 1 1 1 1 ...
## $ X : int 10 8 13 9 11 14 6 4 12 7 ...
## $ Y : num 8.04 6.95 7.58 8.81 8.33 ...
#el anterior codigo nos muestra la estrucutra de los datos
summary(anscombe)
## Set X Y
## Min. :1.00 Min. : 4 Min. : 3.100
## 1st Qu.:1.75 1st Qu.: 7 1st Qu.: 6.117
## Median :2.50 Median : 8 Median : 7.520
## Mean :2.50 Mean : 9 Mean : 7.501
## 3rd Qu.:3.25 3rd Qu.:11 3rd Qu.: 8.748
## Max. :4.00 Max. :19 Max. :12.740
A partir de este punto el objetivo es calcular el promedio, varianza y correlacion entre los valores de X y Y de cada grupo de datos del conjunto de datos. A continuacion se describe como: Cree un subconjunto para cada valor de Set
anscombe$Set<-as.factor(anscombe$Set)
ahora creamos subconjuntos de los datos
uno <- subset(anscombe, Set=="1")
dos <- subset(anscombe, Set=="2")
tres <- subset(anscombe, Set=="3")
cuatro <- subset(anscombe, Set=="4")
Calcule el promedio, varianza, y correlación para cada objeto y guárdelos en una dataframe
XProm <- mean(uno$X)
YProm <- mean (uno$Y)
Xvar <- var(uno$X)
Yvar <- var(uno$Y)
Corr <- cor(uno$X, uno$Y)
# Se guardan en un dataset
SummaryStats <- data.frame(XProm, YProm, Xvar, Yvar, Corr)
SummaryStats
## XProm YProm Xvar Yvar Corr
## 1 9 7.500909 11 4.127269 0.8164205
#Visualización del conjunto de datos
Usaremos metodos de la libreria ggplot2 para crear facetas y trazar la regresion lineal
library(ggplot2)
# Canvas sobre el que vamos a dibujar
#creo el objeto ggplot
grafica <- ggplot(anscombe,aes(X,Y, group=Set, color=Set))
#adiciono geometria de puntos
grafica <- grafica + geom_point()
#adiciono geometri de lineas
grafica <- grafica + geom_line()
#adiciono linea de tendencia
grafica <- grafica + geom_smooth( method = lm, se= FALSE)
#dibujo objeto de ggplot
grafica
otro tipo de grafica por facetas