20/9/2021

Medidas de posición

Dividen el conjunto de datos en partes iguales.

  • Cuartiles: divide los datos en cuatro partes iguales, mediante la estimación de tres cuartiles: Q1 = 25%; Q2 = 50%; Q3 = 75%
  • Deciles: divide a los datos en 10 partes iguales, mediante la estimación de 9 deciles, de D1 a D9.
  • Percentiles: divide los datos en 100 partes iguales, calculando los percentiles P1 a P99.

Medidas de posición: cuartiles

Para estimar la posición, se debe aplicar la siguiente fórmula:

\(Q_1 = \frac{(n+1)}{4}\);

\(Q_2 = \frac{2(n+1)}{4}\);

\(Q_3 = \frac{3(n+1)}{4}\)

Donde:

  • \(Q_1,_2,_3\) : Cuartil (1, 2 y 3)
  • n : Total de datos.

Medidas de posición: cuartiles

Para la información de alturas de los integrantes del grupo, calcular:

\(Q_1\);

\(Q_2\);

\(Q_3\)

Medidas de posición: deciles

Para estimar la posición, se debe aplicar la siguiente fórmula:

\(D_1 = \frac{(n+1)}{10}\);

\(D_5 = \frac{5(n+1)}{10}\);

\(D_9 = \frac{9(n+1)}{10}\)

Donde:

  • \(D_1,..,_9\) : Decil 1 a 9.
  • n : Total de datos.

Medidas de posición: deciles

Para la información de alturas de los integrantes del grupo, calcular:

\(D_1\);

\(D_5\);

\(D_9\)

Medidas de posición: pecentiles

Para estimar la posición, se debe aplicar la siguiente fórmula:

\(P_1 = \frac{(n+1)}{100}\);

\(P_{50} = \frac{50(n+1)}{100}\);

\(P_{99} = \frac{99(n+1)}{100}\)

Donde:

  • \(P_{1,..,99}\) : Decil 1 a 9.
  • n : Total de datos.

Medidas de posición: percentiles

Para la información de alturas de los integrantes del grupo, calcular:

\(P_{10}\);

\(P_{50}\);

\(P_{75}\)

Medidas de posición: en la práctica

Piensa en los ingresos mensuales de tu hogar, ¿en qué decil de ingreso crees que se encuentre tu familia?

Medidas de posición: en la práctica

Deciles de ingreso en México 2020

Medidas de posición: mediana

La MEDIANA es el valor central de todos los datos cuando se encuentran ordenados de mayor a menor valor.

La mediana es:

\(Q_2 = D_5 = P_{50}\);

Medidas de posición en R

Importar archivos de internet

url <- "https://github.com/cjjmdata/curso_analisis_de_datos_I/blob/main/Datos/grupo_edad_altura.csv"
filename <- "datos_grupo.csv"
download(url, destfile=filename)
data_gpo <- read.csv(filename)
?quantile
## starting httpd help server ... done

Medidas de tendencia central

Su objetivo es resumir en un único valor un conjunto de valores.

Se ubican hacia el centro de la distribución de los valores de la serie de datos.

  • Mediana
  • Moda
  • Media

Medidas de tendencia central: mediana

La MEDIANA es el valor central de todos los datos cuando se encuentran ordenados de mayor a menor valor.

Es tanto una medida de posición como de tendencia central.

Medidas de tendencia central: moda

La MODA es el valor que más se repite en un conjunto de datos.

Medidas de tendencia central: media

La MEDIA es una de las medidas de tendencia central más utilizadas, sin embargo, existen varias “medias”:

  • Media aritmética (simple).
  • Media ponderada.
  • Media geométrica.
  • Media armónica.

Medidas de tendencia central: media aritmética

La MEDIA ARITMÉTICA simple (o promedio simple) identifica el valor central de un conjunto de datos.

\(\overline{x} = \frac{\displaystyle\sum_{i=1}^n x_i }{n}\)

Donde:

  • \(x_1, x_2,..., x_n\) es un conjunto numérico de datos.
  • n: número total de casos.

Importante: es afectada por los valores extremos de la distribución (grandes o pequeños)

Medidas de tendencia central: media ponderada

La MEDIA PONDERADA se utiliza cuando cada registro (dato) tiene una importancia relativa distinta; considera ponderadores para asignar dichos pesos.

\(\overline{x}_w = \frac{\displaystyle\sum_{i=1}^n x_i * w_i}{\displaystyle\sum_{i=1}^n w_i}\)

Donde:

  • n: número total de casos.
  • \(x_1, x_2,..., x_n\) es un conjunto numérico de datos.
  • \(w_1, w_2,..., w_n\) es el peso correspondiente a cada \(x_i\).

Medidas de tendencia central: media geométrica

La MEDIA GEOMÉTRICA de un conjunto de datos se define como la enésima raíz del producto de n números.

\(\overline{x} = \sqrt[n]{x_1 *x_2*...*x_n} = (\displaystyle\prod_{i=1}^n x_i)^{1/n}\)

Se utiliza particularmente para progresiones geométricas, razones, interés compuesto y números índices.

IMPORTANTE: solo se puede aplicar a números positivos. Los valores extremos tienen menor influencia que en la media aritmética.

Medidas de tendencia central: media armónica

La MEDIA ARMÓNICA es el recíproco de la media aritmética de los recíprocos de los datos:

\(H = \frac{n}{\displaystyle\sum_{i=1}^n\frac{1}{x_i} } = \frac{n}{\frac{1}{x_1}+\frac{1}{x_2}+...+\frac{1}{x_n}}\)

Es poco sensible a valores grandes pero muy sensible a valores próximos a ceros.

Se recomienda para promediar velocidades (variaciones respecto al tiempo).

IMPORTANTE: solo se puede aplicar a números positivos.

Medidas de tendencia central: media armónica

Ejemplo MEDIA ARMÓNICA:

Una familia realizó un viaje por carretera a Huatulco, registrando las siguientes velocidades:

  • Los primeros 50 km a 90 km/h.
  • Los segundos 50 km a 70 km/h.
  • Los siguientes 50 km a 45 km/h.
  • Los siguientes 50 km a 40 km/h.
  • Los últimos 50 km a 50 km/h.

Calcular la velocidad media del viaje.

¿Cuánto tiempo duró el viaje?

Niveles de medida de las variables

Escalas de medida

El tipo de escala utilizado para medir una variable determina qué tipo de análisis estadístico se puede utilizar.

  • Obtener la media del género

  • Obtener la mediana del nombre

Escala nominal

Los números se comportan como etiquetas. No orden ni magnitud.

Deben ser excluyentes y exhaustivas.

Moda, frecuencias.

Escala ordinal

Distingue entre valores y les asigna un orden.

  • NSE
  • Orden de preferencia

Moda, frecuencias, mediana, percentiles.

Escala de intervalo

Identificación, orden y sentido, pero sin cero absoluto.

Escala de razón

Identificación, orden, sentido y cero absoluto.

  • Edad
  • Altura

Otras clasificaciones

Clasificación de Stevens:

  • No métricas: nominales y ordinales
  • Métricas: de intervalo y razón

Otras clasificaciones

Basado en valores de las variables

  • Variables discretas: solo puede tomar un número determinado de valores en un intervalo determinado.
  • Variables continuas: puede tomar potencialmente cualquier valor numérico en un intervalo dado.

Medidas de dispersión

Rango

Indica la diferencia entre el valor máximo y valor mínimo de un conjunto de datos.

\(R = x_{max} - x_{min}\)

  • Se mide en las mismas unidades que el conjunto de datos (años, metros, etc.)
  • Proporciona información sobre la dispersión total, pero no respecto a un valor en particular (medida de tendencia central)

Rango intercuartil

Mide la diferencia entre el tercer y primer cuartil. Busca identificar y eliminar los valores extremos.

\(IQR = Q_3 - Q_1\)

  • El rango intercuartil (o intercuartílico), concentra al 50% de las observaciones centrales que se encuentran alrededor de la mediana: 25% por debajo de la mediana y 25% por arriba de la mediana

Diagrama de caja y brazos

Son gráficos que muestran la distribución de una variable usando cuartiles.

Ejemplo en R

boxplot(data_gpo$Edad, horizontal=TRUE)

Desviación respecto a la media

Dada tu altura, ¿qué tan lejos o cerca de la altura media del salón estás?

¿Qué tan lejos o cerca de la media está cada observación?

Desviación de la i-ésima observación respecto de la media (promedio):

\(dm = (x_i - \overline{x})\)

  • Una desviación positiva indica que el datos es mayor que el promedio
  • Una desviación negativa indica que el dato es menor al promedio
  • Una desviación igual a cero indica que el datos es igual al promedio

Desviación respecto a la media

¿Cuál es la suma de todas a las desviaciones?

\(\displaystyle\sum_{i=1}^n (x_i - \overline{x}) = ?\)

¿Por qué?

¿Cómo podemos obtener una medida ‘promedio’ de la desviación de los datos?

Varianza

Mide la variabilidad de una serie de datos respecto a su media.

“Promedio de las desviaciones cuadráticas respecto a su media”

  • Su unidad de medida corresponde al cuadrado de la unidad de medida de la serie de datos (\(metros^2\), \(años^2\)).
  • Es una medida de la dispersión de los datos

Varianza

Poblacional

\(\delta^2 = \frac{\displaystyle\sum_{i=1}^N (x_i - \overline{x})^2 }{N}\)

Muestral

\(s^2 = \frac{\displaystyle\sum_{i=1}^n (x_i - \overline{x})^2 }{n-1}\)

Donde \(\overline{x}\) es el promedio observado de los datos

Varianza: propiedades

  • \(V(x) \geq 0\)
  • Si k es una constante, entonces \(V(k)=0\)
  • Si k es una constante, entonces \(V(kx)=k^2V(x)\)
  • Si X y Y son dos variables conmensurables, entonces V(x+y) no es necesariamente igual a V(x)+V(y).

Grados de libertad (degrees of freedom)

¿Por qué al calcular la varianza muestral dividimos las desviaciones cuadráticas entre n-1 y no solo entre N?

“La suma de los valores de las desviaciones de los valores individuales con respecto a su media es igual a cero, hecho que puede demostrarse. Si se conocen los n-1 valores de los valores a partir de la media, entonces se conoce el n-ésimo valor, ya que queda determinado automáticamente debido a la restricción de que todos los valores de n sumen cero”. (Daniel Wayne, 2007)

“Se definen como el número de valores que podemos escoger libremente”. (Levin, 1996)

Desviación estándar

Poblacional

\(\delta =\sqrt[]{\delta^2} = \sqrt[]\frac{\displaystyle\sum_{i=1}^N (x_i - \overline{x})^2 }{N}\)

Muestral

\(s = \sqrt[]{s^2} = \sqrt[]\frac{\displaystyle\sum_{i=1}^n (x_i - \overline{x})^2 }{n-1}\)

Coeficiente de variación de Pearson

Qué varía más: el peso de las hormigas de una colonia o el peso de elefantes en un país.

Si se requiere comparar la variabilidad de dos o más conjuntos de datos, no basta con comparar las desviaciones estándar: hay que eliminar el efecto de las unidades de medida de la variable.

Coeficiente de variación de Pearson

El coeficiente de variación de Pearson nos permite comparar la variabilidad de diversos conjuntos de datos de manera adecuada:

\(CV = \frac{\displaystyle\ s}{\displaystyle\ |\overline{x}|}\)

Donde \(|\overline{x}|\) es el valor absoluto de la media de los datos, con \(\overline{x} \neq 0\)

Coeficiente de variación de Pearson

Propiedades:

  • El CV es adimensional, es decir, carece de unidades de medida, por lo que se puede utilizar directamente para comparar la variabilidad de conjuntos de datos distintos, por ejemplo, tamaños de peras con tamaños manzanas, peso de hormigas con peso de elefantes, e incluso datos de distinta dimensión, como la variabilidad de la altura y edad de los integrantes de una clase.
  • Es insensible ante cambios de escala.
  • A mayor valor del CV, mayor heterogeneidad en el conjunto de datos, y a menor valor del CV mayor homogeneidad.

Coeficiente de variación: ejemplo

En una muestra levantada en una reserva se encontró que el peso promedio de un elefante adulto es de 6,000 kg con una desviación estándar de 500 kg. En tanto, en otro estudio se estimó para una muestra de ratones un peso promedio de 24 gramos y una desviación estándar de 10 gramos.

¿Qué población tiene mayor dispersión?

\(CV_{elefantes} = \frac{s}{\overline{x}} = \frac{500}{6,000} = 0.0833\)

\(CV_{ratones} = \frac{s}{\overline{x}} = \frac{10}{24} = 0.4167\)