Nombre

Medidas de localización o de Tendencia Central

Objetivo

Realizar cálculos para determinar medidas de localización y tendencia central como la media, mediana, moda con un conjunto de datos de personas

Descripción

Con un conjunto de datos de personas y con variables de interés como la edad, peso y estatura, determinar medidas de localización y tendencia central, se pide mostrar los datos, identificar las medidas visualizar gráficamente e interpretar las medidas.

Fundamento teórico

En esta práctica se presentan ejemplos para determinar medidas de tendencia central, si estas medidas las calcula con los datos de una muestra, se llaman estadísticos muestrales. Si estas medidas las calcula con los datos de una población se llaman parámetros poblacionales Anderson, D., Sweeney, D., & Williams, T. (2008).

Media

La medida de localización más importante es la media, o valor promedio, de una variable. La media proporciona una medida de localización central de los datos. Si los datos son datos de una muestra, la media se denota como \(\overline{x}\); si los datos son datos de una población, la media se denota con la letra griega \(\mu\). Anderson, D., Sweeney, D., & Williams, T. (2008).

La media es el valor promedio de un conjunto de datos numéricos, calculada como la suma del conjunto de valores dividida entre el número total de valores.

La media o también llamada media aritmética o promedio representa el reparto por igual, el equilibrio, la equidad. Es el valor que tendrían los datos, si todos ellos fueran los mismos. O, también, el valor que correspondería a cada uno de los datos de la distribución si su suma total se repartiera por igual.

La media aritmética es la medida de ubicación que más se utiliza y que se publica con mayor frecuencia, por lo cual se le considerará como parámetro para una población y como estadístico para una muestra. Lind, Douglas A., Marchal William G., Wathen Samuel A. (2015)

Algunos símbolos:

  • \(\mu\) es la letra minúscula griega \(mu\), y representa la media poblacional;

  • \(\overline{x}\) es la ‘x barra’ y representa la media muestral

  • \(N\) es el número de valores de una población;

  • \(n\) es el número de valores de una muestra

  • \(x\) representa cualquier valor particular;

  • \(\sum\) es la letra griega \(sigma\), e indica la operación suma;

  • \(\suma{x}\) es la suma de \(C\) valores de la población o la muestra. Lind, Douglas A., Marchal William G., Wathen Samuel A. (2015)

  • Fórmula de la media:

\[\overline{x} = \sum{X_i / n}\]

o la media poblacional

\[\mu = \sum{X_i / N}\]

donde:

\[\sum{X_i = X_1 + X_2 + X_3 + .... X_n}\]

La mediana es otra medida de localización central. Es el valor de enmedio en los datos ordenados de menor a mayor (en forma ascendente). Cuando tiene un número impar de observaciones, la mediana es el valor de enmedio. Cuando la cantidad de observaciones es par, no hay un número enmedio. En este caso, se sigue una convención y la mediana es definida como el promedio de las dos observaciones de enmedio. Anderson, D., Sweeney, D., & Williams, T. (2008).

Para determinar la mediana, se deben ordenar los datos de menor a mayor (en forma ascendente). * a. Si el número de observaciones es impar, la mediana es el valor de enmedio de la posición entera. \(posición.entera = round(n/2)\) * b. Si el número de observaciones es par, la mediana es el promedio de las dos observaciones. \(posición.entera = round(n/2 + 1)\) de enmedio.Anderson, D., Sweeney, D., & Williams, T. (2008).

La mediana es el punto medio de los valores una vez que se han ordenado de menor a mayor o de mayor a menor.Lind, Douglas A., Marchal William G., Wathen Samuel A. (2015)

Moda

La moda es el valor de la observación que aparece con mayor frecuencia. Lind, Douglas A., Marchal William G., Wathen Samuel A. (2015)

Hay situaciones en que la frecuencia mayor se presenta con dos o más valores distintos. Cuando esto ocurre hay más de una moda. Si los datos contienen más de una moda se dice que los datos son bimodales. Si contienen más de dos modas, son multimodales. En los casos multimodales casi nunca se da la moda, porque dar tres o más modas no resulta de mucha ayuda para describir la localización de los datos.

La moda es un valor que se ve directamente al observar el diagrama de barras si la variable es discreta, o el histograma si es continua. https://bookdown.org/aquintela/EBE/

Proceso

1. Cargar librerías o paquetes

  • librería readr para cargar datos de formato csv en caso de que se necesite
  • Librería ggplot2 para gráficos más amigables
library(readr)       # Por si acaso cargamos datos ...
library(ggplot2)     # Para visualizar
library(resumeRdesc) # Para estadísticos descriptivos

2. Cargar o construir los datos

  • Deteminar o sembrar una semilla de inicio para generar los mismos números de la muestra sample()
set.seed(2020)
  • Simular los datos
  • n Total de observaciones de la muestra
  • edades de un rango entre 15 y 65 años
  • pesos de un rango entre 40 y 100 kgs.
  • estaturas de un rango entre 1.40 y 2.05 metros
  • Construir un conjunto de datos llamado personas
  • Modificar el nombre del conjuto de datos personas con ‘edad’, ‘peso’ y ‘estatura’ con la función name()
  • Mostrar el conjunto de datos personas
n <- 100   # Total de observaciones
edades <- sample(15:65, n, replace = TRUE)
pesos <- sample(40:100, n, replace = TRUE)
estaturas <- sample(140:205, n, replace = TRUE) /100

personas <- data.frame(edades, pesos, estaturas)
names(personas) <- c("edad", "peso", "estatura")

personas
##     edad peso estatura
## 1     42   97     1.97
## 2     58   89     1.77
## 3     37   52     1.43
## 4     36   44     1.65
## 5     38   63     1.60
## 6     15   87     1.64
## 7     31   59     1.72
## 8     50   91     1.70
## 9     56   59     1.70
## 10    20   53     1.40
## 11    63   52     1.90
## 12    59   67     1.43
## 13    22   56     1.42
## 14    56   69     1.59
## 15    64   84     1.98
## 16    30   78     1.63
## 17    43   80     1.59
## 18    48   99     1.83
## 19    62   99     1.68
## 20    17   79     1.40
## 21    16   66     1.83
## 22    43   68     1.83
## 23    54   92     1.61
## 24    18   74     1.96
## 25    64   98     1.51
## 26    28   74     1.51
## 27    28   41     2.00
## 28    26   52     1.49
## 29    62   47     1.52
## 30    61   62     1.66
## 31    28  100     1.96
## 32    21   71     1.41
## 33    34   43     1.88
## 34    32   78     1.83
## 35    35   85     1.50
## 36    62   88     1.90
## 37    58   94     1.80
## 38    32   92     1.41
## 39    24   75     1.93
## 40    45   63     1.59
## 41    20   87     1.46
## 42    61   80     2.01
## 43    57   99     1.53
## 44    27   68     1.64
## 45    46   67     1.75
## 46    38   93     1.62
## 47    27   41     1.90
## 48    59   71     2.03
## 49    16   56     1.52
## 50    45   56     1.66
## 51    30   76     1.66
## 52    27   49     1.59
## 53    15   90     1.62
## 54    52   86     1.67
## 55    17   50     1.91
## 56    43   90     1.78
## 57    39   56     1.92
## 58    59   78     1.84
## 59    57   52     1.87
## 60    39   49     1.55
## 61    19   77     1.65
## 62    57   94     1.81
## 63    52   95     1.67
## 64    16   60     1.89
## 65    39   49     2.04
## 66    49   98     1.81
## 67    38   50     1.73
## 68    64   99     1.84
## 69    47   86     1.45
## 70    21   42     1.90
## 71    22   64     1.42
## 72    35   83     1.86
## 73    27   70     1.65
## 74    48   62     1.93
## 75    19   90     1.95
## 76    18   84     1.77
## 77    33   87     1.73
## 78    62   43     1.43
## 79    37   60     1.82
## 80    18   99     1.81
## 81    32  100     1.80
## 82    56   80     1.69
## 83    15   76     1.71
## 84    61   91     1.95
## 85    36   95     1.70
## 86    45   98     1.77
## 87    55   42     1.66
## 88    30   97     1.86
## 89    20   65     1.50
## 90    38   93     1.41
## 91    40   40     1.40
## 92    24   68     1.46
## 93    40   53     1.58
## 94    47   63     1.92
## 95    42   66     1.84
## 96    15   78     1.51
## 97    31   57     1.93
## 98    54   75     1.50
## 99    29   58     1.98
## 100   58   64     1.67

3. La media

Determinar la media de la variable edades de personas
  • La variable de interés es edad
  • Sumar todos los valores de la variable edad y dividirlo entre el número de elementos
media.edad <- sum(personas$edad) / n
media.edad
## [1] 38.81
  • La mejor forma en R de determinar la media de un conjunto de datos ya sea de una muestra o de una población es mediante al función mean()
  • Se utiliza la misma variable media.edad por lo que se actualiza el valor en la variable, al final se obtiene el mismo valor que en el anterior bloque de código.
media.edad <- mean(personas$edad)
media.edad
## [1] 38.81

4. La mediana

Determinar la mediana de edad de personas
  • La variable de interés es edad
  • La función median() determina la mediana de un conjunto de datos
mediana.edad <- median(personas$edad)
mediana.edad
## [1] 38
  • Para comprobar la mediana se ordenan las edades de personas
  • Se determina el valor la posición de enmedio del total de los datos ordenados
    • Si el número de observaciones es impar, la mediana es el valor de la posición de enmedio. 50 exactamente
    • Si el número de observaciones es par, la mediana es valor promedio que está en las posiciones de las dos observaciones de enmedio. \(promedio.de.las .posiciones(\) 50 \(y\) 51 \()\) de la variable edad
  • Se utiliza la variable mediana.edad por lo que se actualiza el valor en la variable, al final se obtiene el mismo valor que en el anterior bloque de código.
orden.personas.edad <- sort(personas$edad)
posicion <- ceiling(n /2)

orden.personas.edad
##   [1] 15 15 15 15 16 16 16 17 17 18 18 18 19 19 20 20 20 21 21 22 22 24 24 26 27
##  [26] 27 27 27 28 28 28 29 30 30 30 31 31 32 32 32 33 34 35 35 36 36 37 37 38 38
##  [51] 38 38 39 39 39 40 40 42 42 43 43 43 45 45 45 46 47 47 48 48 49 50 52 52 54
##  [76] 54 55 56 56 56 57 57 57 58 58 58 59 59 59 61 61 61 62 62 62 62 63 64 64 64
# La posicion 
cat("Valor de la posición ",posicion, " del conjunto de datos (Vector) edades es: ", orden.personas.edad[posicion])      
## Valor de la posición  50  del conjunto de datos (Vector) edades es:  38
# La posición cuando son par
cat("Valor de la posición ",posicion + 1, " del conjunto de datos (Vector) edades es: ", orden.personas.edad[posicion + 1])      
## Valor de la posición  51  del conjunto de datos (Vector) edades es:  38
mediana.edad <- sum(orden.personas.edad[posicion], orden.personas.edad[posicion + 1]) / 2
mediana.edad
## [1] 38

5. La moda

Determinar la moda de edad
  • La variable de interés es edad
  • Por medio de la función table() determinar las frecuencia de cada valor de edad
  • Ordenar las frecuencias descendente para identificar de mejor manera las frecuencias de cada valor de edad y dejar el resultado en la misma variable (Vector) frecuencia
  • El valor de la posición 1 es la de mayor frecuencia si es que se ordenó descendentemente
frecuencia <- table(personas$edad)
frecuencia <- sort(frecuencia, decreasing = TRUE)
frecuencia
## 
## 15 27 38 62 16 18 20 28 30 32 39 43 45 56 57 58 59 61 64 17 19 21 22 24 31 35 
##  4  4  4  4  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  2  2  2  2  2  2  2 
## 36 37 40 42 47 48 52 54 26 29 33 34 46 49 50 55 63 
##  2  2  2  2  2  2  2  2  1  1  1  1  1  1  1  1  1
moda <- frecuencia[1]
moda
## 15 
##  4
cat("La moda de edad es: ", names(moda), " con ", frecuencia[1])
## La moda de edad es:  15  con  4
print("¿Es una sola moda, bimodal o multimodal ?")
## [1] "¿Es una sola moda, bimodal o multimodal ?"
  • Para utilizar esta librería es necesario haberla instalado previamente
  • install.packages(“remotes”)
  • remotes::install_github(“osoramirez/resumeRdesc”)
  • Uilizando la lirería ‘resumeRdesc’ se determina la moda de una variable
library(resumeRdesc)

moda <- Mode(personas$edad)
moda
## [1] 15 27 38 62

6. Visualizar datos

Utilizar las funciones de la librería ggplot2
  • Gráfica de barra de edad
ggplot(data = personas, aes(x = edad)) +
  geom_bar()

  • Histograma de edad
ggplot(data = personas, aes(x = edad)) +
  geom_histogram(bins = 30)

  • Histograma de edad con medidas de localización
ggplot(personas, aes(x=edad)) + 
  geom_histogram(aes(fill=..count..), bins=20, color="white") +
  geom_vline(aes(xintercept=mean(edad)), color="red") +
  geom_vline(aes(xintercept=median(edad)), color= "darkgreen")

  • Gráfico más completo
ggplot(aes(x = edad), data = personas) +
 geom_histogram(color = 'green',
                fill = 'green',
                alpha = 0.2) +
 labs(title = "Histograma de Edad") +
  geom_vline(aes(xintercept = median(edad),
                  color = "mediana"),
              linetype = "dashed",
              size = 1) +
   geom_vline(aes(xintercept = mean(edad),
                  color = "media"),
              linetype = "dashed",
              size = 1) +
  geom_vline(
     aes(xintercept = moda[1],
         color = "moda"),
     linetype = "dashed",
     size = 1
   )
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

7. Interpretar y comunicar datos

  • 180 a 200 palabras