Objetivo

Realizar cálculos para determinar medidas de localización y tendencia central como la media, mediana, moda con un conjunto de datos de personas

Descripción

Con un conjunto de datos de personas y con variables de interés como la edad, peso y estatura, determinar medidas de localización y tendencia central, se pide mostrar los datos, identificar las medidas visualizar gráficamente e interpretar las medidas.

1.-Cargar librerias o paquetes

library(resumeRdesc)
library(readr)
library(ggplot2)

2. Cargar los datos.

set.seed(1211)
edades <- sample(15:65, 100, replace = TRUE)
pesos <- sample(40:100, 100, replace = TRUE)
estaturas <- sample(140:205, 100, replace = TRUE) /100
personas <- data.frame(edades, pesos, estaturas)
names(personas) <- c("edad", "peso", "estatura")
personas
##     edad peso estatura
## 1     61   64     1.55
## 2     22   82     1.50
## 3     19   73     1.46
## 4     22   47     1.96
## 5     23   94     1.95
## 6     39   46     1.43
## 7     31   63     2.05
## 8     31   46     1.51
## 9     35   58     1.40
## 10    49   62     1.62
## 11    25   50     1.91
## 12    42   77     1.69
## 13    52   72     1.79
## 14    24   72     1.49
## 15    56   92     1.88
## 16    52   97     2.05
## 17    55   70     2.03
## 18    64   67     1.84
## 19    23   69     1.44
## 20    40   83     1.65
## 21    24   78     1.74
## 22    55   70     2.04
## 23    57   61     1.83
## 24    60   40     1.80
## 25    21   59     1.53
## 26    62  100     1.73
## 27    32   95     1.76
## 28    15   79     1.92
## 29    34   79     1.79
## 30    58   58     1.83
## 31    53   47     1.73
## 32    40   53     1.93
## 33    59   61     1.69
## 34    24   52     1.96
## 35    26   80     2.05
## 36    25   77     1.90
## 37    17   92     1.44
## 38    34   62     1.41
## 39    48   58     2.03
## 40    51   45     1.45
## 41    65   40     1.53
## 42    59   61     1.58
## 43    59   50     1.99
## 44    38   91     1.45
## 45    43   88     1.59
## 46    28   51     1.65
## 47    22   49     1.98
## 48    38   77     1.46
## 49    33   41     1.48
## 50    60   43     1.54
## 51    29   60     1.75
## 52    23   89     1.53
## 53    64   70     1.93
## 54    16   68     1.81
## 55    27   78     1.72
## 56    15   40     1.84
## 57    18   64     1.50
## 58    22   85     1.89
## 59    63   87     1.42
## 60    26   83     1.44
## 61    51   44     1.43
## 62    27   97     1.50
## 63    43   87     1.63
## 64    56   63     1.55
## 65    52   61     2.03
## 66    34   72     1.67
## 67    41   55     1.75
## 68    42   59     1.52
## 69    15   87     1.66
## 70    17   43     1.88
## 71    45   44     1.51
## 72    61   93     1.41
## 73    63   42     1.42
## 74    50   86     1.50
## 75    23   53     1.77
## 76    26   84     1.98
## 77    16   57     1.55
## 78    53   57     1.68
## 79    57   91     1.45
## 80    19   90     1.96
## 81    53   83     1.71
## 82    20   52     1.71
## 83    28   77     1.59
## 84    25   68     1.88
## 85    35   50     1.96
## 86    42   86     1.48
## 87    39   88     1.62
## 88    37   91     1.69
## 89    15   75     1.61
## 90    30   89     1.79
## 91    22   82     1.42
## 92    57   78     1.45
## 93    18   84     1.57
## 94    16   86     1.88
## 95    38   67     1.87
## 96    56   91     1.60
## 97    63   70     1.50
## 98    34   41     1.90
## 99    16   90     1.51
## 100   21   99     1.92

3. La media

La mejor forma en R de determinar la media de un conjunto de datos ya sea de una muestra o de una población es mediante al función mean()

  • Edad
media.edad <- mean(personas$edad)
media.edad
## [1] 37.64
  • Peso.
media.peso <- mean(personas$peso)
media.peso
## [1] 69.57
  • Estatura.
media.estatura <- mean(personas$estatura)
media.estatura
## [1] 1.6935

4. La mediana.

orden.personas.edad <- sort(personas$edad)
posicion <- ceiling(100 /2)
orden.personas.edad
##   [1] 15 15 15 15 16 16 16 16 17 17 18 18 19 19 20 21 21 22 22 22 22 22 23 23 23
##  [26] 23 24 24 24 25 25 25 26 26 26 27 27 28 28 29 30 31 31 32 33 34 34 34 34 35
##  [51] 35 37 38 38 38 39 39 40 40 41 42 42 42 43 43 45 48 49 50 51 51 52 52 52 53
##  [76] 53 53 55 55 56 56 56 57 57 57 58 59 59 59 60 60 61 61 62 63 63 63 64 64 65

La posición.

cat("Valor de la posición ",posicion, " del conjunto de datos (Vector) edades es: ", orden.personas.edad[posicion])   
## Valor de la posición  50  del conjunto de datos (Vector) edades es:  35

La posición cuando son par.

cat("Valor de la posición ",posicion + 1, " del conjunto de datos (Vector) edades es: ", orden.personas.edad[posicion + 1]) 
## Valor de la posición  51  del conjunto de datos (Vector) edades es:  35
  • Operacion simplificada
mediana.edad <- sum(orden.personas.edad[posicion], orden.personas.edad[posicion + 1]) / 2
mediana.edad
## [1] 35

La función median() determina la mediana de un conjunto de datos.

  • Edad.
mediana.edad <- median(personas$edad)
mediana.edad
## [1] 35
  • Peso.
mediana.peso <- median(personas$peso)
mediana.peso
## [1] 70
  • Estatura.
mediana.estatura <- median(personas$estatura)
mediana.estatura
## [1] 1.685

5. La moda.

moda.edad <- Mode(personas$edad)
moda.edad
## [1] 22
moda.peso <- Mode(personas$peso)
moda.peso
## [1] 61 70 77 91
moda.estatura <- Mode(personas$estatura)
moda.estatura
## [1] 1.5

6. Visualizar datos.

Utilizar la librería ggplot2.

  • Grafica de barras (Edad)
ggplot(data = personas, aes(x = edad)) +
  geom_bar()

  • Histograma (Edad)
ggplot(data = personas, aes(x = edad)) +
  geom_histogram(bins = 30)

  • Histograma con medidas de localización (Edad).
ggplot(personas, aes(x=edad)) + 
  geom_histogram(aes(fill=..count..), bins=20, color="white") +
  geom_vline(aes(xintercept=mean(edad)), color="yellow") +
  geom_vline(aes(xintercept=median(edad)), color= "orange")

  • Gráfico completo (Edad)
ggplot(aes(x = edad), data = personas) +
 geom_histogram(color = 'black',
                fill = 'green',
                alpha = 0.2) +
 labs(title = "Histograma de Edad") +
  geom_vline(aes(xintercept = median(edad),
                  color = "mediana"),
              linetype = "dashed",
              size = 1) +
   geom_vline(aes(xintercept = mean(edad),
                  color = "media"),
              linetype = "dashed",
              size = 1) +
  geom_vline(
     aes(xintercept = moda.edad[1],
         color = "moda"),
     linetype = "dashed",
     size = 1
   )
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

  • Gráfico completo (Peso)
ggplot(aes(x = peso), data = personas) +
 geom_histogram(color = 'red',
                fill = 'orange',
                alpha = 0.2) +
 labs(title = "Histograma de Peso") +
  geom_vline(aes(xintercept = median(peso),
                  color = "mediana"),
              linetype = "dashed",
              size = 1) +
   geom_vline(aes(xintercept = mean(peso),
                  color = "media"),
              linetype = "dashed",
              size = 1) +
  geom_vline(
     aes(xintercept = moda.peso[1],
         color = "moda"),
     linetype = "dashed",
     size = 1
   )
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

  • Gráfico completo (Estatura)
ggplot(aes(x = estatura), data = personas) +
 geom_histogram(color = 'blue',
                fill = 'yellow',
                alpha = 0.2) +
 labs(title = "Histograma de Estatura") +
  geom_vline(aes(xintercept = median(estatura),
                  color = "mediana"),
              linetype = "dashed",
              size = 1) +
   geom_vline(aes(xintercept = mean(estatura),
                  color = "media"),
              linetype = "dashed",
              size = 1) +
  geom_vline(
     aes(xintercept = moda.estatura[1],
         color = "moda"),
     linetype = "dashed",
     size = 1
   )
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

7 Conclución

En estadistica las medidas de tendencia central son medidas estadísticas que pretenden resumir en un solo valor a un conjunto de valores. Representan un centro en torno al cual se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central más utilizadas son: media, mediana y moda. Y estas se pueden utilizar con la librería llamada “resumeRdesc” que nos permite calcular este tipo de datos.