alt text

alt text

R Markdown

Visualización del dataset tradicional de Anscombe.

anscombe <- read.csv2("C:/Users/INGENIERIA/Downloads/anscombe.csv")
str(anscombe)
## 'data.frame':    44 obs. of  3 variables:
##  $ Set: int  1 1 1 1 1 1 1 1 1 1 ...
##  $ X  : int  10 8 13 9 11 14 6 4 12 7 ...
##  $ Y  : num  8.04 6.95 7.58 8.81 8.33 ...
anscombe$Set <- as.factor(anscombe$Set)
#str(anscombe)

Calculos

Promedio, varianza y correlacion entre los valores de X y Y de cada grupo de datos del conjunto de datos

uno <- subset(anscombe, Set=="1")
dos <- subset(anscombe, Set=="2")
tres <- subset(anscombe, Set=="3")
cuatro <- subset(anscombe, Set=="4")

XProm1 <- mean(uno$X)
YProm1 <- mean (uno$Y)
Xvar1 <- var(uno$X)
Yvar1 <- var(uno$Y)
Corr1 <- cor(uno$X, uno$Y)

XProm2 <- mean(dos$X)
YProm2 <- mean (dos$Y)
Xvar2 <- var(dos$X)
Yvar2 <- var(dos$Y)
Corr2 <- cor(dos$X, dos$Y)

XProm3 <- mean(tres$X)
YProm3 <- mean (tres$Y)
Xvar3 <- var(tres$X)
Yvar3 <- var(tres$Y)
Corr3 <- cor(tres$X, tres$Y)

XProm4 <- mean(cuatro$X)
YProm4 <- mean (cuatro$Y)
Xvar4 <- var(cuatro$X)
Yvar4 <- var(cuatro$Y)
Corr4 <- cor(cuatro$X, cuatro$Y)

# Se guardan en un dataset
SummaryStats <- data.frame(XProm1, YProm1, Xvar1, Yvar1, Corr1)
SummaryStats2 <- data.frame(XProm2, YProm2, Xvar2, Yvar2, Corr2)
SummaryStats3 <- data.frame(XProm3, YProm3, Xvar3, Yvar3, Corr3)
SummaryStats4 <- data.frame(XProm4, YProm4, Xvar4, Yvar4, Corr4)

#SummaryStats <- rbind(SummaryStats1, SummaryStats2, SummaryStats3, SummaryStats4)

#Visualización del conjunto de datos

#install.packages("ggplot2")

library(ggplot2)
# Canvas sobre el que vamos a dibujar
plotAns <- ggplot(anscombe,aes(X,Y, color = Set))
# Diagrama de lineas
plotAns <- plotAns + geom_line()
# Regresion lineal
plotAns <- plotAns + geom_smooth(method=lm, se=FALSE)
# promedio X
plotAns <- plotAns + geom_vline (aes ( xintercept = SummaryStats[1,1]))
# promedio Y
plotAns <- plotAns + geom_hline (aes ( yintercept = SummaryStats[1,2]))
plotAns
## `geom_smooth()` using formula 'y ~ x'

# Canvas sobre el que vamos a dibujar
plotAns <- ggplot(anscombe,aes(X,Y))
# Diagrama de dispersion
plotAns <- plotAns + geom_point()
# Regresion lineal
plotAns <- plotAns + geom_smooth(method=lm, se=FALSE)
# promedio X
plotAns <- plotAns + geom_vline (aes ( xintercept = SummaryStats[1,1]))
# promedio Y
plotAns <- plotAns + geom_hline (aes ( yintercept = SummaryStats[1,2]))
# facetas
plotAns <- plotAns + facet_grid(. ~ Set)
plotAns
## `geom_smooth()` using formula 'y ~ x'