packages

if(!require(tidyverse)){install.packages("tidyverse")}
if(!require(googlesheets4)){install.packages("googlesheets4")}
if(!require(googledrive)){install.packages("googledrive")}
if(!require(vioplot)){install.packages("vioplot")}
##
library(vioplot)
library(tidyverse)
library(googlesheets4)
library(googledrive)

Reading Data

ss <- "https://docs.google.com/spreadsheets/d/180rJU7y7aXlAqwSLtKdrlkLgFjwCwI76l6Uf7kii31U/edit?usp=sharing"
hoja = 1
rango = "C3:I48"
datos <- read_sheet(ss,
                sheet=hoja,
                range= rango,
                col_names = TRUE,
                col_types = "c")

Tipos de variable: Leyendo las columnas

str(datos)
tibble [45 × 7] (S3: tbl_df/tbl/data.frame)
 $ altura : chr [1:45] "165" "173" "170" "177" ...
 $ lbs    : chr [1:45] "175" "140" "130" "175" ...
 $ calzado: chr [1:45] "39" "39" "43" "40" ...
 $ mano   : chr [1:45] "18" "16" "17.5" "19.2" ...
 $ brazo  : chr [1:45] "25" "24" "28" "29.1" ...
 $ cuello : chr [1:45] "36" "33" "32" "40.2" ...
 $ sex    : chr [1:45] "Hombre" "Mujer" "Hombre" "Hombre" ...
datos[,c(1:6)] <- datos[,c(1:6)] %>%
  sapply(as.numeric)

datos <-  datos %>%
  mutate_if(is.character, as.factor)

str(datos)
tibble [45 × 7] (S3: tbl_df/tbl/data.frame)
 $ altura : num [1:45] 165 173 170 177 167 157 152 172 165 165 ...
 $ lbs    : num [1:45] 175 140 130 175 146 110 125 142 220 140 ...
 $ calzado: num [1:45] 39 39 43 40 40 36 37 39.5 41.5 39 ...
 $ mano   : num [1:45] 18 16 17.5 19.2 17.5 17 16 18 19 17 ...
 $ brazo  : num [1:45] 25 24 28 29.1 26 23 22 26 26 25 ...
 $ cuello : num [1:45] 36 33 32 40.2 35 35 35 39 44 40 ...
 $ sex    : Factor w/ 2 levels "Hombre","Mujer": 1 2 1 1 1 2 2 1 1 1 ...

Exploración gráfica

Aquí utilizamos el paquete básico (“base”) de R. Más adelante veremos más argumentos y otros comandos de otros paquetes (e.g., “ggplot2”) para modificar etiquetas, títulos, etc.

prom.altura <- mean(datos$altura) #promedio
mediana.altura <- median(datos$altura) #mediana
desv.estandar <- sd(datos$altura)
prom.altura
[1] 168.5889
desv.estandar
[1] 7.710153
par(mfrow=c(1,2)) #parámetros para mostrar figuras en dos columnas
plot(datos$altura, pch= 19) #el color según el sexo del individuo
abline(h= prom.altura, lty= 4, lwd= 2, col= "red3") #el promedio en rojo
#abline(h= prom.altura + desv.estandar, lty= 4, lwd=1) #promedio + desviación típica 
#abline(h= prom.altura - desv.estandar, lty= 4, lwd=1) #promedio - desviación típica 
#Histograma
hist(datos$altura, breaks = 10, labels = TRUE, 
     ylim= c(0,14)) #distribución de frecuencias
abline(v= prom.altura, lty= 4, lwd=2, col= "red3") #el promedio en rojo
abline(v= mediana.altura, lty= 2, lwd=2) #le mediana en negro

#abline(v= prom.altura + desv.estandar, lty= 4, lwd=1) #promedio + desviación típica 
#abline(v= prom.altura - desv.estandar, lty= 4, lwd=1) #promedio - desviación típica 

En el primer gráfico mostramos gráficamente el promedio en línea de color rojo. En el histograma vemos la distribución de frecuencias, el promedio en rojo y la mediana en negro.

Visualizando la desviación típica

Si la definimos como “el promedio de las diferencias que existe entre los valores de la variable y su promedio”.

par(mfrow=c(1,2)) #parámetros para mostrar figuras en dos columnas

plot(datos$altura, pch= 19, 
     main= "Diferencias" ) 
abline(h= prom.altura, lty= 4, lwd= 2, col= "red3") #el promedio en rojo
segments(x0= seq_along(datos$altura), 
         y0= datos$altura, 
         x1= seq_along(datos$altura), 
         y1= mean(datos$altura))

plot(datos$altura, pch= 19,
     main = "Promedio +/- d.e." )
abline(h= prom.altura, lty= 4, lwd= 2, col= "red3")
abline(h= prom.altura + desv.estandar, lty= 4, lwd=1) #promedio + desviación típica 
abline(h= prom.altura - desv.estandar, lty= 4, lwd=1) #promedio - desviación típica

Promedio de las diferencias

par(mfrow=c(1,2)) #parámetros para mostrar figuras en dos columnas

plot(datos$altura, pch= 19)
abline(h= prom.altura, lty= 4, lwd= 2, col= "red3")
abline(h= prom.altura + desv.estandar, lty= 4, lwd=1) #promedio + desviación típica 
abline(h= prom.altura - desv.estandar, lty= 4, lwd=1) #promedio - desviación típica



plot(x= seq_along(datos$altura)[datos$altura>prom.altura],
     y=datos$altura[datos$altura>prom.altura], pch= 19, 
     ylim = c(150,185), xlab = "Index", ylab = "altura",
     col= "gray") 
points(x= seq_along(datos$altura)[datos$altura<prom.altura],
     y=datos$altura[datos$altura<prom.altura], pch= 19,
     col= "gray") 
segments(x0= seq_along(datos$altura)[datos$altura>prom.altura], 
         y0= datos$altura[datos$altura>prom.altura], 
         x1= seq_along(datos$altura)[datos$altura>prom.altura], 
         y1= mean(datos$altura) + desv.estandar)
segments(x0= seq_along(datos$altura)[datos$altura<prom.altura], 
         y0= datos$altura[datos$altura<prom.altura], 
         x1= seq_along(datos$altura)[datos$altura<prom.altura], 
         y1= mean(datos$altura) - desv.estandar)
abline(h= prom.altura, lty= 4, lwd= 2, col= "red3") #el promedio en rojo
abline(h= prom.altura + desv.estandar, lty= 4, lwd=1) #promedio + desviación típica 
abline(h= prom.altura - desv.estandar, lty= 4, lwd=1) #promedio - desviación típica

par(mfrow=c(1,2)) #parámetros para mostrar figuras en dos columnas

plot(x= seq_along(datos$altura)[datos$altura>prom.altura],
     y=datos$altura[datos$altura>prom.altura], pch= 19, 
     ylim = c(150,185), xlab= "Index", ylab = "altura",
     col= "gray") 
points(x= seq_along(datos$altura)[datos$altura<prom.altura],
     y=datos$altura[datos$altura<prom.altura], pch= 19,
     col= "gray") 
segments(x0= seq_along(datos$altura)[datos$altura>prom.altura], 
         y0= datos$altura[datos$altura>prom.altura], 
         x1= seq_along(datos$altura)[datos$altura>prom.altura], 
         y1= mean(datos$altura) + desv.estandar)
segments(x0= seq_along(datos$altura)[datos$altura<prom.altura], 
         y0= datos$altura[datos$altura<prom.altura], 
         x1= seq_along(datos$altura)[datos$altura<prom.altura], 
         y1= mean(datos$altura) - desv.estandar)
abline(h= prom.altura, lty= 4, lwd= 2, col= "red3") #el promedio en rojo
abline(h= prom.altura + desv.estandar, lty= 4, lwd=3) #promedio + desviación típica 
abline(h= prom.altura - desv.estandar, lty= 4, lwd=3) #promedio - desviación típica

###################
plot(x= seq_along(datos$altura)[datos$altura>prom.altura],
     y=datos$altura[datos$altura>prom.altura], pch= 19, 
     ylim = c(150,185), xlab = "Index", ylab = "altura",
     type = "n") 

abline(h= prom.altura, lty= 4, lwd= 2, col= "red3") #el promedio en rojo
abline(h= prom.altura + desv.estandar, lwd= 3, lty= 3, ) #promedio + desviación típica 
abline(h= prom.altura - desv.estandar, lty= 3, lwd= 3) #promedio - desviación típica
text(x= 20, y= prom.altura+2, 
     labels = paste("promedio = ",as.character(round(prom.altura ,1))) 
      )
text(x= 20, y= prom.altura + desv.estandar +2, 
     labels = paste(as.character(round(prom.altura + desv.estandar,1))) 
      )
text(x= 20, y= prom.altura - desv.estandar +2, 
     labels = paste(as.character(round(prom.altura - desv.estandar,1))) 
      )

El promedio de un grupo usualmente se expresa como el promedio +/- d.e.. En este caso, 168.6 +/- 7.7

