Media aritmética

Es la suma de todas las observaciones dividida por el número de observaciones

\[{\displaystyle M(x) = \bar{x}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{n}}{n}}}\]

Propiedades de la media aritmética

  1. \(\displaystyle -\infty < M(x) <\infty\)
  2. \(\displaystyle M(x-\bar x)=0\)
  3. \(\displaystyle M(x-\bar x)^2=min(x)\)
  4. \(\displaystyle M(K)=K\) donde K es una constante
  5. \(\displaystyle M\Big(\sum^{1}_{m} x_i \Big)=\sum^{1}_{m} M\big(x_i \big)\)
  6. \(\displaystyle M(X\pm K) = M(X) \pm K\)
  7. \(\displaystyle M(KX)=KM(X)\)
  8. \(\displaystyle M(K_1 \pm K_2X)=K_1 \pm K_2M(X)\)
  9. \(\displaystyle M(\prod_{1}^{m}X_i)=\prod_{1}^{m}M(X_i)\) Si y solo si las variables son independientes.

Ventajas

  • Es una medida de tendencia central de base matemática, susceptible por tanto de tratamiento algebraico.
  • Utiliza todos los datos.
  • Es sensible a cualquier cambio en los datos (puede ser usado como un detector de variaciones en los datos).
  • Se emplea a menudo en cálculos estadísticos posteriores.
  • Es útil para llevar a cabo procedimientos estadísticos como la comparación de medias de varios conjuntos de datos.
  • Tener un sentido claro como valor de tendencia del agrupamiento de los datos. (Centro de masa, punto de equilibrio)

Desventajas

  • Verse afectada por valores extremos o “raros”, lo cual puede distorsionar el concepto de regularidad o tendencia.

promedio ponderado

Está dado por la fórmula: \[{\bar {x}}={\frac {\sum _{{i=1}}^{n}x_{i}w_{i}}{\sum _{{i=1}}^{n}w_{i}}}={\frac {x_{1}w_{1}+x_{2}w_{2}+x_{3}w_{3}+...+x_{n}w_{n}}{w_{1}+w_{2}+w_{3}+...+w_{n}}}\]

Dónde \(w_i\) es un peso que indica la importancia relativa de la i-ésima observación.

Media geométrica

\[\displaystyle \bar {x}=\sqrt[{n}]{\prod _{i=1}^{n}{x_{i}}}= \left(\prod _{i=1}^{n}x_{i}\right)^{\frac {1}{n}}={\sqrt[{n}]{x_{1}x_{2}\cdots x_{n}}}\]

Propiedades

  • A diferencia de la media aritmética, la media geométrica solo se define para números positivos.
  • La media geométrica nunca es mayor que la media aritmética. \(\displaystyle (x_{1}x_{2}\dots x_{n})^{\frac {1}{n}}\leq {\frac {x_{1}+x_{2}+\dots +x_{n}}{n}}\) > Qué Sucede si \(\displaystyle x_{1}=x_{2}=\dots =x_{n}\)?

  • El logaritmo de la media geométrica es igual a la media aritmética de los logaritmos de los valores de la variable.

Ventajas

  • Es menos sensible que la media aritmética a los valores extremos.
  • Utiliza todos los datos.

Desventajas

  • Es de significado estadístico menos intuitivo que la media aritmética.
  • Su cálculo es más difícil.
  • Si un valor \(\displaystyle x_{i}=0\) entonces la media geométrica se igual a cero.

Solo es relevante la media geométrica si todos los números son positivos. Como hemos visto, si uno de ellos es 0, entonces el resultado es 0. Si hubiera un número negativo (o una cantidad impar de ellos) entonces la media geométrica sería o bien negativa, o bien inexistente en los números reales.

Donde las \(\displaystyle \alpha _{i}\) son los pesos o ponderaciones.

Ejemplo

una población que tenía 10000 habitantes en el año cero, creció el primer año a una tasa del 5%, el segundo creció a una tasa del 20% y el tercer año al 50% ¿A qué tasa promedio ha crecido la población en estos 3 años?

Año Población inicial Tasa crecimiento Factor de expansión Población al final del año
2015 10.000 0,05 1,05 10.500
2016 10.500 0,2 1,2 12.600
2017 12.600 0,5 1,5 18.900

Si calculamos la media aritmética de la tasa de crecimiento tenemos: (0,05 + 0,20 +0,50) / 3 = 0,25 y el factor medio de expansión sería 1,25. Pero si la población hubiera crecido de esta forma los 3 años, no se llegaría al mismo resultado final:

Año Población inicial Tasa crecimiento Factor de expansión Población al final del año
2015 10.000 0,25 1,25 12.500
2016 12.500 0,25 1,25 15.625
2017 15.625 0,25 1,25 19.531

Por tanto, la media aritmética no es un buen indicador de la tasa media de crecimiento. Si la población crece a una tasa constante i, para que al final del tercer año tenga el mismo efecto que las tasas del ejemplo, se debe verificar que: \(10.000(1+i)(1+i)(1+i)=10.000(1+0.05)(1+0.20)(1+0.50)\) De donde:

\(\displaystyle (1+i)=\sqrt[3]{1.05*1.20*1.50}\)

((1.05*1.20*1.50)^(1/3))-1
## [1] 0.2363856

Si se hubiera tenido este factor de expansión cada año (nótese que es la media geométrica), hubiera conducido a una población final exactamente igual a la que tenemos. Es decir, que la tasa media de crecimiento ha sido del \(23,64\%\)

Año Población inicial Tasa crecimiento Factor de expansión Población al final del año
2015 10.000 0.2363856 1,2363856 12.364
2016 12.364 0.2363856 1,2363856 15.286
2017 15.625 0.2363856 1,2363856 18.900

Behar Gutiérrez and Grima Cintas (2010)

Media geométrica ponderada

Al igual que en una media aritmética pueden introducirse pesos como valores multiplicativos para cada uno de los valores con el fin de ponderar o hacer pesar más en el resultado final ciertos valores, en la media geométrica pueden introducirse pesos como exponentes:

\[\displaystyle {\bar {x}}=\left({\prod _{i=1}^{n}{x_{i}}^{\alpha _{i}}}\right)^{\frac {1}{\sum _{i}{\alpha _{i}}}}=\left({x_{1}}^{\alpha _{1}}{x_{2}}^{\alpha _{2}}\dots {x_{n}}^{\alpha _{n}}\right)^{\frac {1}{\alpha _{1}+\dots +\alpha _{n}}}"\]

Percentiles

Se les denomina también “estadísticas de orden” El percentil es una medida de orden usada en estadística que indica, una vez ordenados los datos de menor a mayor, el valor de la variable por debajo del cual se encuentra un porcentaje dado de observaciones en un grupo de observaciones. Por ejemplo, el percentil 20º es el valor bajo el cual se encuentran el 20 por ciento de las observaciones.

\(\displaystyle X=\frac{N*i}{100}\) N = al número de datos i= el percentil Esta operación da una parte entera “E” y una parte decimal “D”. Se aplica la siguiente regla Si D es diferente de cero el percentil pi es el elemento que se ubica en la posición E +1 Si D es igual a cero pi es el promedio del elemento que se ubica en la posición E y E + 1

Ventajas

  • Fácil de calcular si el número de observaciones no es muy grande.
  • No se ve influenciada por valores extremos, ya que solo influyen los valores centrales.
  • Fácil de entender.
  • Se puede calcular para cualquier tipos de datos cuantitativos, incluso los datos sin acotar
  • Es la medida de tendencia central más representativa en el caso de variables que solo admiten la escala ordinal.

Desventajas

  • No utiliza en su “cálculo” toda la información disponible.
  • Sensible a valores extremos, cuando se tienen muchos percentiles.
  • Hay que ordenar los datos antes de determinarla.

Mediana

Del latín mediānus “del medio” representa el valor de la variable de posición central en un conjunto de datos ordenados Ordenando las observaciones de menor a mayor la mediana es: - La ((n+1)/2)-ésimo más grande observación si n es impar. - El promedio de (n/2)-ésimo y ((n/2)+1)-ésimo más grande observación si n es par.

Ventajas:

  • Fácil de calcular si el número de observaciones no es muy grande.
  • No se ve influenciada por valores extremos, ya que solo influyen los valores centrales.
  • Fácil de entender.
  • Se puede calcular para cualquier tipos de datos cuantitativos, incluso los datos sin acotar
  • Es la medida de tendencia central más representativa en el caso de variables que solo admiten la escala ordinal.

Desventajas

  • Hay que ordenar los datos antes de determinarla.
  • No utiliza en su “cálculo” toda la información disponible.

Moda

La moda se conoce como el dígito o individuo que más se repite.

En estadística, la moda es el valor con mayor frecuencia en una distribución de datos.

Se hablará de una distribución bimodal de los datos adquiridos en una columna cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Una distribución trimodal de los datos es en la que encontramos tres modas.

Ventajas

  • Cálculo sencillo.
  • Interpretación muy clara.
  • Al depender sólo de las frecuencias, puede calcularse para variables cualitativas.

Desventajas

  • Su valor es independiente de la mayor parte de los datos, lo que la hace muy sensible a variaciones muestrales.
  • Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la moda, no afectan en modo alguno a su valor.
  • No siempre se sitúa hacia el centro de la distribución.
  • Puede haber más de una moda en el caso en que dos o más valores de la variable presenten la misma frecuencia (distribuciones bimodales o multimodales).

Relación entre media, mediana y moda

Práctica

Generaremos 100 datos de una distribución normal con media cero y varianza uno y la contaminaremos reemplazando su ùltimo valor por 0,0.2,0.4,0.6,0.8 y 1. Compararemos los resultados de las medidas de tendencia central con estas perturbaciones.

## contaminación 10 Media:  1.1781 Mediana:  1.135 Moda:  -0.1
## contaminación 12 Media:  1.1981 Mediana:  1.135 Moda:  -0.1
## contaminación 14 Media:  1.2181 Mediana:  1.135 Moda:  -0.1
## contaminación 16 Media:  1.2381 Mediana:  1.135 Moda:  -0.1
## contaminación 18 Media:  1.2581 Mediana:  1.135 Moda:  -0.1
## contaminación 20 Media:  1.2781 Mediana:  1.135 Moda:  -0.1

Taller

  1. Calcule media, mediana y moda para la causa de muerte seleccionada.
  2. Calcule media, mediana y moda para la causa y departamentos seleccionados, compare y comente.

Bibliografía

Behar Gutiérrez, Roberto, and Pere Grima Cintas. 2010. 55 Respuestas a Dudas T{\(\backslash\)\(\backslash\)i}picas de Estad{\(\backslash\)\(\backslash\)i}stica. Ediciones D{\(\backslash\)\(\backslash\)i}az de Santos.