CASO 4. Medidas de Tendencia Central o LocalizaciOn. MEDIA MEDIA Y MODA

1. Cargar librerías

library(readr)
library(ggplot2)
library(resumeRdesc)

2. Cargar o construir los datos

Deteminar o sembrar una semilla de inicio para generar los mismos números de la muestra sample()

set.seed(2020)

Simular los datos
n Total de observaciones de la muestra
edades de un rango entre 15 y 65 años
pesos de un rango entre 40 y 100 kgs.
estaturas de un rango entre 1.40 y 2.05 metros
Construir un conjunto de datos llamado personas
Modificar el nombre del conjuto de datos personas con ‘edad’, ‘peso’ y ‘estatura’ con la función name()
Mostrar el conjunto de datos personas

n <- 100   # Total de observaciones
edades <- sample(10:90, n, replace = TRUE)
pesos <- sample(40:120, n, replace = TRUE)
estaturas <- sample(140:210, n, replace = TRUE) /100

personas <- data.frame(edades, pesos, estaturas)
names(personas) <- c("edad", "peso", "estatura")

personas

##     edad peso estatura
## 1     37   94     1.59
## 2     31   92     1.62
## 3     74   75     2.10
## 4     26   87     1.67
## 5     45   80     2.08
## 6     51   68     1.91
## 7     79   41     1.78
## 8     58   71     1.92
## 9     65  120     1.84
## 10    81   56     1.87
## 11    51   76     1.55
## 12    89   49     1.65
## 13    38   50     1.81
## 14    12   90     1.67
## 15    75  120     1.89
## 16    13   52     2.04
## 17    87   49     1.81
## 18    87   94     1.73
## 19    85  113     1.84
## 20    57   98     1.45
## 21    56  114     1.90
## 22    87   86     1.42
## 23    16  106     1.86
## 24    27   64     1.65
## 25    61   70     1.93
## 26    57   62     1.95
## 27    53   84     1.77
## 28    19   87     1.73
## 29    79  107     1.43
## 30    52   99     1.82
## 31    86   80     1.81
## 32    41   76     1.80
## 33    22   98     1.69
## 34    75   42     1.71
## 35    89   97     1.95
## 36    86   93     1.70
## 37    10  104     1.77
## 38    47   68     1.66
## 39    12  117     1.86
## 40    38   57     1.50
## 41    34   75     1.41
## 42    54   58     1.40
## 43    52   64     1.46
## 44    78   97     1.58
## 45    67   77     2.09
## 46    75   43     1.92
## 47    34  113     1.84
## 48    44   65     1.51
## 49    33   60     1.93
## 50    59   64     1.50
## 51    42   72     1.98
## 52    16  118     1.67
## 53    17   70     1.69
## 54    65  115     1.69
## 55    22   70     1.51
## 56    78   40     2.10
## 57    77   90     2.10
## 58    28   43     1.97
## 59    32   42     2.09
## 60    77   59     2.09
## 61    51   98     1.99
## 62    10   63     1.78
## 63    56   59     1.97
## 64    40   83     1.42
## 65    69   68     1.85
## 66    25   40     1.41
## 67    79   83     1.53
## 68    64   83     2.10
## 69    35   61     1.69
## 70    19   96     1.91
## 71    37   51     2.10
## 72    74   51     1.69
## 73    26  100     1.62
## 74    49   49     1.87
## 75    24   52     1.62
## 76    53   66     1.95
## 77    59   96     1.83
## 78    86   41     1.70
## 79    14   88     1.96
## 80    57   83     1.49
## 81    29  107     1.71
## 82    61   50     1.74
## 83    23   90     1.44
## 84    22   80     1.58
## 85    37   41     1.86
## 86    90   93     1.95
## 87    50   59     1.58
## 88    69   46     1.61
## 89    49  101     1.92
## 90    36  111     1.54
## 91    68   53     2.09
## 92    44   64     1.83
## 93    11   75     1.59
## 94    86   62     1.61
## 95    17  113     1.74
## 96    70   90     1.62
## 97    41  103     1.44
## 98    77   52     1.49
## 99    48   66     2.04
## 100   55   66     1.57

3. La media

Variable de interés es edad

media <- mean(personas$edad)
media

## [1] 50.48

Variable de interés es peso

media <- mean(personas$peso)
media

## [1] 76.54

Variable de interés es estatura

media <- mean(personas$estatura)
media

## [1] 1.7569

4. La mediana

La variable de interés es peso
Se determina el valor la posición de enmedio del total de los datos ordenados
Si el número de observaciones es impar, la mediana es el valor de la posición de enmedio exactamente 51 cuando n sea = 101
Si el número de observaciones es par, la mediana es valor promedio que está en las posiciones de las dos observaciones de enmedio. promedio.de.las.posiciones( 50 y 51 ) de la variable edad cuando n = 100
Se utiliza la variable mediana.edad

mediana.edad <- median(personas$edad)
mediana.edad

## [1] 51

Se utiliza la variable mediana.edad

mediana.peso <- median(personas$peso)
mediana.peso

## [1] 75

Se utiliza la variable mediana.estatura

mediana.estatura <- median(personas$estatura)
mediana.estatura

## [1] 1.755

5. La moda

Por medio de la función table() determinar las frecuencia de cada valor de peso.
Ordenar las frecuencias descendente para identificar de mejor manera las * frecuencias de cada valor de peso y dejar el resultado en la misma variable (Vector) frecuencia.
El valor de la posición 1 es la de mayor frecuencia si es que se ordenó descendentemente.
edad

moda.e <- Mode(personas$edad)
moda.e

## [1] 86

peso

moda.p <- Mode(personas$peso)
moda.p

## [1] 64 83 90

estatura

moda.es <- Mode(personas$estatura)
moda.es

## [1] 1.69 2.10

6. Visualizar datos

ggplot(data = personas, aes(x = edad)) +
  geom_bar()

ggplot(data = personas, aes(x = peso)) +
  geom_bar()

ggplot(data = personas, aes(x = estatura)) +
  geom_bar()

Histograma de edad con medidas de localización

ggplot(personas, aes(x=edad)) + 
  geom_histogram(aes(fill=..count..), bins=20, color="white") +
  geom_vline(aes(xintercept=mean(edad)), color="red") +
  geom_vline(aes(xintercept=median(edad)), color= "darkgreen")

ggplot(personas, aes(x=peso)) + 
  geom_histogram(aes(fill=..count..), bins=20, color="white") +
  geom_vline(aes(xintercept=mean(peso)), color="red") +
  geom_vline(aes(xintercept=median(peso)), color= "darkgreen")

ggplot(personas, aes(x=estatura)) + 
  geom_histogram(aes(fill=..count..), bins=20, color="white") +
  geom_vline(aes(xintercept=mean(estatura)), color="red") +
  geom_vline(aes(xintercept=median(estatura)), color= "darkgreen")

Gráfico mas completo

ggplot(aes(x = edad), data = personas) +
 geom_histogram(color = 'green',
                fill = 'green',
                alpha = 0.2) +
 labs(title = "Histograma de edad") +
  geom_vline(aes(xintercept = median(edad),
                  color = "mediana"),
              linetype = "dashed",
              size = 1) +
   geom_vline(aes(xintercept = mean(edad),
                  color = "media"),
              linetype = "dashed",
              size = 1) +
  geom_vline(
     aes(xintercept = moda.e[1],
         color = "moda"),
     linetype = "dashed",
     size = 1
   )

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

* Gráfico mas completo

ggplot(aes(x = peso), data = personas) +
 geom_histogram(color = 'green',
                fill = 'green',
                alpha = 0.2) +
 labs(title = "Histograma de Peso") +
  geom_vline(aes(xintercept = median(peso),
                  color = "mediana"),
              linetype = "dashed",
              size = 1) +
   geom_vline(aes(xintercept = mean(peso),
                  color = "media"),
              linetype = "dashed",
              size = 1) +
  geom_vline(
     aes(xintercept = moda.p[1],
         color = "moda"),
     linetype = "dashed",
     size = 1
   )

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

* Gráfico mas completo

ggplot(aes(x = estatura), data = personas) +
 geom_histogram(color = 'green',
                fill = 'green',
                alpha = 0.2) +
 labs(title = "Histograma de estatura") +
  geom_vline(aes(xintercept = median(estatura),
                  color = "mediana"),
              linetype = "dashed",
              size = 1) +
   geom_vline(aes(xintercept = mean(estatura),
                  color = "media"),
              linetype = "dashed",
              size = 1) +
  geom_vline(
     aes(xintercept = moda.es[1],
         color = "moda"),
     linetype = "dashed",
     size = 1
   )

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

7.Interpretar y comunicar datos 80 A 100 PALABRAS

Si una distribución está sesgada a la derecha, la media se corre a la derecha; si una distribución está sesgada a la izquierda, la media se corre a la izquierda. La mediana no es afectada por estos valores extremos porque los valores numéricos de las mediciones no se usan en este cálculo. Cuando una distribución es simétrica, la media y la mediana son iguales. (Mendenhal, Beaver & Beaver (2015). Introducción a la probabilidad y estadística

En este caso vemos lo que es la media, mediana y moda mediante el uso de Histogramas de las variables edad, peso y estatura utilizando las librerías readr, ggplot2 y resumeRdesc en Rstudio La media de un conjunto de números, algunas ocasiones simplemente llamada el promedio La mediana de un conjunto de números es el número medio en el conjunto La moda de un conjunto de números es el número que aparece más a menudo.