Analisis Ascombe

importo el dataset

# Importar los datos
anscombe <- read.csv2("anscombe.csv")
# Imprimir la estructura de datos
str(anscombe)
## 'data.frame':    44 obs. of  3 variables:
##  $ Set: int  1 1 1 1 1 1 1 1 1 1 ...
##  $ X  : int  10 8 13 9 11 14 6 4 12 7 ...
##  $ Y  : num  8.04 6.95 7.58 8.81 8.33 ...
#el anterior codigo nos muestra la estrucutra de los datos 

summary(anscombe)
##       Set             X            Y         
##  Min.   :1.00   Min.   : 4   Min.   : 3.100  
##  1st Qu.:1.75   1st Qu.: 7   1st Qu.: 6.117  
##  Median :2.50   Median : 8   Median : 7.520  
##  Mean   :2.50   Mean   : 9   Mean   : 7.501  
##  3rd Qu.:3.25   3rd Qu.:11   3rd Qu.: 8.748  
##  Max.   :4.00   Max.   :19   Max.   :12.740

A partir de este punto el objetivo es calcular el promedio, varianza y correlacion entre los valores de X y Y de cada grupo de datos del conjunto de datos. A continuacion se describe como: Cree un subconjunto para cada valor de Set

anscombe$Set<-as.factor(anscombe$Set)

ahora creamos subconjuntos de los datos

uno <- subset(anscombe, Set=="1")
dos <- subset(anscombe, Set=="2")
tres <- subset(anscombe, Set=="3")
cuatro <- subset(anscombe, Set=="4")

Calcule el promedio, varianza, y correlación para cada objeto y guárdelos en una dataframe

XProm <- mean(uno$X)
YProm <- mean (uno$Y)
Xvar <- var(uno$X)
Yvar <- var(uno$Y)
Corr <- cor(uno$X, uno$Y)
# Se guardan en un dataset
SummaryStats <- data.frame(XProm, YProm, Xvar, Yvar, Corr)
SummaryStats
##   XProm    YProm Xvar     Yvar      Corr
## 1     9 7.500909   11 4.127269 0.8164205

#Visualización del conjunto de datos

Usaremos metodos de la libreria ggplot2 para crear facetas y trazar la regresion lineal

library(ggplot2)
# Canvas sobre el que vamos a dibujar
#creo el objeto ggplot
grafica <- ggplot(anscombe,aes(X,Y, group=Set, color=Set))
#adiciono geometria de puntos
grafica <- grafica + geom_point()
#adiciono geometri de lineas
grafica <- grafica + geom_line()
#adiciono linea de tendencia
grafica <- grafica + geom_smooth( method = lm, se= FALSE)
#dibujo objeto de ggplot
grafica

otro tipo de grafica por facetas