01/08/25
Abstract
La teoría mencionada puede revisarse en el capítulo 1 de mis notas de clase que aparecen en el siguiente documento: 1.1. Estadística básica. En Rpubs:: toc se pueden ver otros documentos de posible interés.
Se pueden organizar en cuatro (4) grandes grupos, como se muestra en la figura de abajo. En cada grupo mencionamos solo algunas medidas. Las fórmulas corresponden a datos no agrupados.
La media, varianza y desviación estándar no se interpretan.
Si el coeficiente de variación es próximo al 0%, significa que existe poca variabilidad en los datos y es una muestra muy compacta. En cambio, si tienden a un valor igual o mayor que 100%, es una muestra muy dispersa.
Para la interpretación, la mediana se puede visualizar gráficamente como se ilustra en la figura de abajo.
Ejemplo 1
Revisar el ejemplo 1.4 (página 10) de mis Notas de clases: Cap. 1 (Descriptiva).
Ejemplo 2
Revisar el ejemplo 1.5 (página 10) de mis Notas de clases: Cap. 1 (Descriptiva).
Ejemplo 3
Revisar el ejemplo 1.6 (página 10) de mis Notas de clases: Cap. 1 (Descriptiva).
Los siguientes datos representan las edades de unas personas: 1 (20 veces), 2 (1 vez), 3 (7 veces), 4 (4 veces) y 5 (8 veces). Entonces:
Valor | Frecuencia | Frecuencia Acumulada | Frecuencia Relativa | Frecuencia Relativa Acumulada |
---|---|---|---|---|
1 | 20 | 20 | 0.500 | 0.500 |
2 | 1 | 21 | 0.025 | 0.525 |
3 | 7 | 28 | 0.175 | 0.700 |
4 | 4 | 32 | 0.100 | 0.800 |
5 | 8 | 40 | 0.200 | 1.000 |
La tabla presenta un resumen de las medidas más importantes:
Medida | Valor |
---|---|
Total | 40.00 |
Mean | 2.48 |
Moda | 1.00 |
Mediana | 1.50 |
Varianza | 2.72 |
Desviación estándar | 1.65 |
Coeficiente de variación (%) | 66.60 |
La distribución tiene una moda de 1, ya que es el dato de mayor frecuencia frecuencia. O sea, la distribución es unimodal.
Su mediana es de 1.5, lo que indica una ligera asimetría. Abajo se detallla su cálculo.
La media de 2.48 está por encima de ambas. Esto sugiere una ligera asimetría positiva (ver más adelante la definición de sesgo).
La varianza (2.72) y la desviación estándar (1.65) reflejan una dispersión considerable alrededor del promedio.
Finalmente, el coeficiente de variación (66.6%) sugiere una dispersión moderada-alta con respecto al promedio.
Como el total de datos es \(n=40\) (par), entonces la mediana es el promedio de las medidas que están en las posiciones \(\frac{n}{2}=20\) y \(\frac{n}{2}+1=21\). Por tanto, la mediana es:
\[\text{Mediana}\;= \; \frac{\text{dato en la posición 20} \,+\, \text{dato en la posición 21}}{2} \,= \; \frac{1 + 2}{2}\;=\;1,5 \]
Interpretación: El 50% de las personas tienen una edad menor o igual (o mayor) que 1.5 años.
Es el promedio de las desviaciones de los valores de la muestra respecto de la media muestral, elevadas al cubo, dividido por la desviación típica al cubo. En fórmula:
\[\mbox{Sesgo}= \frac{\sum(x_i - \overline{x})^3\cdot f_i}{s^3} \]
Aquí: \(x_i\) es el \(i\)-ésimo dato, \(f_i\) es su frecuencia, \(\overline{x}\) es la media de la muestra y \(s\) es la desviación estándar de la muestra.
El código para escribir la expresión anterior es:
$$\mbox{Sesgo}= \frac{\sum(x_i - \overline{x})^3\cdot f_i}{s^3}$$
También se puede calcular a través de la fórmula:
\[\mbox{Sesgo}= \frac{3(\mbox{Media} - \mbox{Mediana})}{\mbox{Desviación}}\]
El código para escribir la expresión anterior es:
$$\mbox{Sesgo}= \frac{3(\mbox{Media} - \mbox{Mediana})}{\mbox{Desviación}}$$
Se dice que la distribución de los datos es:
Simétrica: si \(\mbox{Sesgo}=0\).
Asimétrica negativa o a la izquierda (o negativamente sesgada): Si \(\mbox{Sesgo}<0\).
Asimétrica positiva o a la derecha (o positivamente sesgada): Si \(\mbox{Sesgo}>0\).
La imagen de abajo ilustra gráficamente lo mencionado anteriormente.
Es el promedio de las desviaciones de los valores de la muestra respecto de la media muestral, elevadas a la cuarta, dividido por la desviación típica a la cuarta y al resultado se le resta 3. En fórmula:
\[\mbox{Curtosis}= \frac{\sum(x_i - \overline{x})^4\cdot f_i}{s^4} - 3 \]
Aquí: \(x_i\) es el \(i\)-ésimo dato, \(f_i\) es su frecuencia, \(\overline{x}\) es la media de la muestra y \(s\) es la desviación estándar de la muestra.
El código para escribir la expresión anterior es:
$$\mbox{Curtosis}= \frac{\sum(x_i - \overline{x})^4\cdot f_i}{s^4} - 3 $$
La distribución de los datos es:
Platicúrtica, si existe una baja concentración de los valores en torno a su media (\(\mbox{Curtosis}<0\)).
Mesocúrtica, si existe una concentración normal de los valores en torno a su media (\(\mbox{Curtosis}=0\)).
Leptocúrtica, si existe una gran concentración de los valores en torno a su media (\(\mbox{Curtosis}>0\)).
La imagen de abajo ilustra gráficamente lo explicado anteriormente.
Al dividir el conjunto de datos en 100 partes iguales (o sea, en porcentajes de 1%), vamos a encontrar 99 percentiles. A manera de ejemplo, como se muestra en la figura de abajo, están:
\(P_{25}\) (el 25-ésimo punto percentil), que corresponde al valor que deja un 25% de los datos a la izquierda de la distribución.
\(P_{50}\) (el 50-ésimo punto percentil), que corresponde al valor que deja un 50% de los datos a la izquierda de la distribución. O sea, coincide con la mediana.
\(P_{75}\) (el 75-ésimo punto percentil), que corresponde al valor que deja un 75% de los datos a la izquierda de la distribución.
Para calcular el \(p\)-ésimo (punto) percentil de un conjunto de \(n\) datos, es importante que tengamos en cuenta los siguientes pasos:
Ordenar los datos de manera ascendente.
Calcular un índice \(i\) a través de la fórmula \(i= np/100\), siendo \(p\) el percentil de interés y \(n\), la cantidad de datos.
Decidir de acuerdo a uno de los dos casos:
Si el índice \(i\) no es entero, redondeamos al entero siguiente. Este valor aproximado de \(i\) indica la posición del \(p\)-ésimo percentil.
Si \(i\) es entero, el \(p\)-ésimo percentil es el promedio de los valores de los datos ubicados en las posiciones \(i\) y \(i+1\).
Los cuartiles son casos particulares de los percentiles. Corresponden a las medidas de posición relativa correspondiente a un conjunto ordenado de datos divididos en cuatro partes (iguales) y se definen así:
\(Q_1=\) primer cuartil o \(25\)-ésimo percentil.
\(Q_2=\) segundo cuartil o \(50\)-ésimo percentil o también mediana.
\(Q_3=\) tercer cuartil o \(75\)-ésimo percentil.
Es como se muestra en la figura de abajo. Allí: R.I. significa el rango intercuartil (es decir, la diferencia entre el tercer y primer cuartil), los segmentos horizontales son los llamados bigotes y los valores que están por fuera de los bigotes se llaman valores atípicos.
La figura de abajo contiene los diagramas de caja de las calificaciones en un examen de matemáticas para quince estudiantes de primer curso de primaria, quince de segundo y quince de tercero.
En el diagrama puede apreciarse que no hay valores atípicos en ninguno de los tres grupos. Los estudiantes del tercer curso consiguieron la mejor mediana, pero sus calificaciones tienen una variabilidad considerablemente mayor que la de los otros grupos. Otro hecho que llama la atención es la gran cantidad de calificaciones bajas obtenidas por los estudiantes de primer curso. Finalmente, podemos afirmar que las distribuciones de frecuencias de los tres conjuntos de datos están sesgadas a la izquierda.
Los siguientes datos que representan los salarios (en millones de pesos) de 12 empleados en una empresa:
\[2,350\quad 2,450\quad 2,550 \quad 2,380 \quad 2,255 \quad 2,210 \quad 2,390 \quad 2,630 \quad 2,440 \quad 2,825 \quad 2,420 \quad 2,380\]
Calcule:
\(P_{85}\), el 85-ésimo punto percentil.
\(P_{50}\), el 50-ésimo punto percentil.
\(Q_{1}\), el primer cuartil.
\(Q_{2}\), el segundo cuartil. Compare con el inciso (b).
\(Q_{3}\), el tercer cuartil.
Halle la mediana. Compare con (b) y (d).
Halle la media.
Halle el rango intercuartil (RI). Es decir, la diferencia entre el tercer y primer cuartil: \(Q_3 - Q_1\).
Construya un diagrama de caja y bigotes.
Como primer paso fundamental debemos ordenar los datos de manera ascendente (preferiblemente con ayuda de un diagrama de tallo y hojas):
\[2,210\quad 2,255\quad 2,350 \quad 2,380 \quad 2,380 \quad 2,390 \quad 2,420 \quad 2,440\quad 2,450 \quad 2,550 \quad 2,630 \quad 2,825\]
Para determinar el 85-ésimo punto percentil, calculemos el índice \(i= np/100\), con \(p=85\) y \(n=12\). Al reemplazar obtenemos que \(i=10,2\). En este caso, como \(i=10,2\) no es entero, entonces redondeamos a 11. Por lo tanto, el lugar del \(85\)-ésimo percentil es el lugar 11. En nuestros datos ordenados corresponde a 2,630.
Interpretación: Esto quiere decir que:
El \(85\%\) de los empleados de la empresa ganan un salario menor o igual que $2.630.000
El \(15\%\) de estos empleados ganan más de $2.630.000.
En este caso, \(p=50\). Con ello y con \(n=12\) obtenemos que \(i=6\) (que es un número entero). Es decir, el 50% percentil es el promedio de los valores sexto (2,390) y séptimo (2,420), o sea, 2,405. Observemos que este valor coincide con la mediana del conjunto de datos.
Interpretación: En conclusión, podemos decir que el \(50\%\) de los empleados tienen un salario menor o igual (o mayor) que $2.405.000.
Como \(Q_2\) coincide con la mediana, entonces \(Q_2=2,405\). Podemos verificar que \[Q_1= \frac{2,350 + 2,380}{2} = 2,365\qquad \text{y} \qquad Q_3= \frac{2,450 + 2,550}{2} = 2,500 \]
Interpretaciones:
El valor del primer cuartil significa que el 25% de los empleados ganan un salario menor o igual que $2.365.000 o el \(75\%\) gana más de este salario.
El valor del tercer cuartil significa que el \(75\%\) de los empleados gana un salario menor o igual que $2.500.000 o el \(25\%\) gana más de este salario.
La mediana coincide con el segundo cuartil. Es decir, es 2,405.
Interpretación: En conclusión, podemos decir que el \(50\%\) de los empleados tienen un salario menor o igual (o mayor) que $2.405.000.
La media es \(\overline{x}=2,440\).
Interpretación: No es interpretable.
Para estos datos, el primer cuartil es 2,365 y el tercero 2,500. Por lo tanto,
\[\text{Rango intercuartil (RI)} \; = \; Q_3 \,- \, Q_1 \;=\; 2,500 - 2,365 \; = \; 0,135\]
Interpretación: No es interpretable y es un valor importante para la construcción del diagrama de caja y bigotes. Ver inciso (i).
El diagrama de caja y bigotes solicitado es:
Identifique algunas de las medidas estadísticas (explicadas arriba) y que fueron utilizados en los trabajos o bases de datos que se mencionan abajo.
Ejemplo 8 (Educación)
Al hacer click aquí, usted encontrará una serie de artículos publicados en diferentes áreas de aplicación. Considere solo el artículo publicado por C.Ricardo, D. Jabba, H. LLinás et al. (2020): 2020-Educacion2-LLinas-CRicardo.pdf. El propósito del estudio fue analizar las interacciones en línea docente-estudiantes a través de WhatsApp (una herramienta de mensajería instantánea) e identificar la visión de los estudiantes hacia el uso de esa herramienta en un curso de derecho de una institución de educación superior en Colombia.
Ejemplo 9 (DANE, diversas áreas)
Al hacer click aquí, usted encontrará información recogida por el Departamento Administrativo Nacional de Estadística -DANE-, la cual es la entidad encargada de producir y comunicar información estadística oficial para Colombia. Seleccione un área de interés para realizar lo solicitado.
Ejemplo 10 (Salud, COvid19)
Al hacer click aquí, usted encontrará un repositorio de datos COVID-19, elaborado por el Centro de Ciencia e Ingeniería de Sistemas (CSSE) de la Universidad Johns Hopkins. Seleccione un link de interés para realizar lo solicitado.
Ejemplo 11 (Repositorio, diversas áreas)
Al hacer click aquí, usted encontrará el repositorio de datos llamado UC Irvine Machine Learning Repository, de la universidad de California. Seleccione un archivo de datos de interés para realizar lo solicitado.
Ejemplo 12 (Salud, Caja y bigotes)
Al hacer click aquí, usted encontrará una serie de artículos publicados en diferentes áreas de aplicación. Considere solo el artículo publicado por Ch.Thirumalai y V. Manickam (2017): 2017-Boxplot.pdf. Los autores recolectaron conjuntos de datos de cáncer de pulmón de 25 personas y 12 características.
Véase el documento: Términos básicos.
Véase el documento: Organización de datos.
Responda las siguientes preguntas. Justifique sus respuestas:
Supongamos que en un conjunto de 10 observaciones la media es 20 y la
mediana es 15.
Si hay en ese conjunto dos seis, y todos los otros valores son
diferentes, ¿cuál es la moda?
Veintiún personas en un salón de clase tienen altura promedio de 168 cm. Si al salón entra una persona adicional, ¿cuál es la altura que debe tener esta persona para que el promedio se incremente en 1 cm?
Diga si la afirmación dada es verdadera o falsa. Justifique siempre su respuesta. En caso que sea falsa, dé un contraejemplo.
Un piloto A de la Fórmula 1 ganó 60 de 152 carreras, y el piloto B ganó 52 de 115. ¿Cuál de los dos es mejor piloto? Explique su respuesta.
El peso medio de 45 productos es 215 libras. Ninguno pesa menos de 170 libras. ¿Cuántos pueden pesar como máximo 250 libras?
Un elevador soporta 1.000 kg. ¿Está sobrecargado si lleva 9 mujeres (61,5 kg promedio) y 5 hombres (87 kg)? ¿Por qué?
Una cadena de grandes almacenes tiene diez establecimientos. Se analiza el volumen de ventas durante el periodo de Navidad y se comparan con las obtenidas en el mismo periodo del año anterior. Los porcentajes de incrementos de ventas en dólares de los diez establecimientos fueron:
10.2, 3.1, 5.9, 7.0, 3.7, 2.9, 6.8, 7.3, 8.2, 4.3
Halle la media, la mediana, la varianza muestral, la desviación típica, el rango y el rango intercuartil del porcentaje de incremento de ventas en dólares. Interprete sus respuestas.
Los neumáticos de cierta marca tienen una duración de vida con media de 29.000 kilómetros y desviación típica de 3.000 kilómetros.
Encontrar un intervalo en el que se pueda garantizar que se encuentra por lo menos el 75% de los tiempos de vida de los neumáticos de esta marca.
Usando la regla empírica y suponiendo que la población tiene forma acampanada, encontrar un intervalo en el cual se estime que se encuentra aproximadamente el 95% de los tiempos de vida de los neumáticos de esta marca.
Se ha estimado que la media de la cantidad de dinero que gastan en ropa las mujeres colombianas es de 500.000 pesos, mientras que para los hombres la media es de 350.000 pesos. Dibuje un diagrama de barras que represente esta información.
Considere las siguientes observaciones de resistencia al corte (en megapascales) de una unión pegada de cierta manera:
73.7, 36.6, 109.9, 4.4, 33.1, 66.7, 30.0, 81.5, 22.2, 40.4, 16.4
Determine el valor de la media y mediana muestrales. ¿Por qué la mediana es tan diferente de la media?
Los valores de presión sanguínea para nueve individuos seleccionados al azar son:
130.0, 113.7, 122.0, 108.3, 131.5, 133.2, 118.6, 127.4, 138.4
¿Cuál es la mediana de los valores reportados si se redondean a múltiplos de 5 mm Hg (100, 105, 110, etc.)?
Suponga que la presión del octavo individuo es 127.6 en lugar de 127.4 (un pequeño cambio en su valor). ¿Cómo afectaría esto a la mediana de los valores reportados? ¿Qué dice esto sobre la sensibilidad de la mediana para redondear o agrupar los datos?
Los datos siguientes corresponden al tiempo de propagación de grietas por fatiga en agujeros sujetadores de aeronaves militares (horas de vuelo/\(10^4\)):
0.915, 0.937, 0.983, 1.007, 0.736, 0.863, 0.865, 0.913, 1.132, 1.140, 1.153, 1.253, 1.394, 1.011, 1.064, 1.109
Emisiones de gases en vehículos:
HC (g/mi) | 32.2 | 32.5 | 13.8 | 18.3 |
CO (g/mi) | 232.0 | 236.0 | 118.0 | 149.0 |
Puntajes finales de 20 alumnos en un curso de Estadística:
50, 55, 61, 60, 71, 73, 53, 54, 67, 67, 54, 77, 72, 76, 81, 83, 87, 44, 48, 67
Un taller de mecánica acepta una orden por 10.000 ruedas de 2 pulgadas de diámetro. Las especificaciones de tamaño del producto podrán ser mantenidas sólo si el diámetro medio es de 2 pulgadas y la desviación estándar es muy pequeña. ¿Cuál es el margen de tolerancia permitido para la desviación estándar?
Un profesor cuenta el examen final de un curso como el triple de cada uno de los tres exámenes de una hora. ¿Cuál es la calificación promedio de un estudiante que obtuvo las calificaciones 72, 86 y 80 en los tres exámenes de una hora y 90 en el examen final?
Edades de personas que trabajan desde casa:
57, 31, 30, 41, 22, 58, 24, 50, 29, 52, 37, 32, 44, 49, 29, 44, 40, 46, 29, 31
Realizar los ejercicios que se indican abajo.
Tener en cuenta la Bibliografía No. 1 que se referencia abajo y realizar los ejercicios que aparecen en:
La Sección 1.3 (página 61).
La Sección 1.5 (página 77).
La Sección de Ejercicios Complementarios (página 93).
Al hacer click aquí, usted encontrará una serie de artículos publicados en diferentes áreas de aplicación. Seleccione algunos de ellos y aplique la teoría explicada en este documento.
LLinás, H., Rojas, C. (2005); Estadística descriptiva y distribuciones de probabilidad. Barranquilla: Editorial Universidad del Norte.
Consultar mis Notas de clase: Cap. 1 (Descriptiva).
Consultar el documento RPubs :: Enlace y materiales de ayuda.
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.