01/08/25
Abstract
La teoría mencionada puede revisarse en el capítulo 1 de mis notas de clase que aparecen en el siguiente documento: 1.1. Estadística básica. En Rpubs:: toc se pueden ver otros documentos de posible interés.
Por el tipo de variable.
De acuerdo a escalas de medidas.
Mediante tablas.
Mediante representaciones gráficas.
En la figura de abajo se muestra los diferentes tipos de variables.
Los datos también se pueden clasificar según la escala de medición o el procedimiento que los generó. Cuatro tipos de escalas de medición usados en estadística son las escalas nominal, ordinal, de intervalo y de razón (véase la imagen de abajo).
En general, hay dos tipos:
No agrupadas: Se observan los datos con sus respectivas frecuencias
Agrupadas: Se observan intervalos (o clases ) donde están ubicados lo datos y las respectivas frecuencias. Para hallar el número \(c\) de intervalos de clases se aplica la llamada fórmula de Sturges:
\[ c \; = \; 3.3 \log_{10}(n) + 1 \quad (\text{se sugiere aproximar al entero más cercano}) \]
En la figura de abajo se ilustran con un par de ejemplos.
Revisar el ejemplo 1.1 (página 6) de mis Notas de clases: Cap. 1 (Descriptiva). Los datos corresponden a las edades de unas personas: \[11, \quad 11, \quad 13 \;(\text{8 veces}), \quad 17 \;(\text{11 veces}), \quad 21 \;(\text{10 veces},\quad 25 \;(\text{8 veces}), \quad 26\]
La tabla de frecuencias correspondiente es:
Datos..Edades. | Frecuencia.absoluta | Frecuencia.relativa | Frecuencia.acumulada | Frec..acum..relativa |
---|---|---|---|---|
11 | 2 | 0.050 | 2 | 0.050 |
13 | 8 | 0.200 | 10 | 0.250 |
17 | 11 | 0.275 | 21 | 0.525 |
21 | 10 | 0.250 | 31 | 0.775 |
25 | 8 | 0.200 | 39 | 0.975 |
26 | 1 | 0.025 | 40 | 1.000 |
Se deja al lector la interpretación de los resultados obtenidos.
Revisar el ejemplo 1.2 (página 7) de mis Notas de clases: Cap. 1 (Descriptiva). Forme una distribución de frecuencias considerando los siguientes datos:
\[8.9, \quad 10.2,\quad 11.5,\quad 7.8,\quad 10.0,\quad 12.2,\quad 13.5,\quad 14.1,\quad 10.0,\quad 12.2,\] \[ 6.8,\quad 9.5,\quad 11.5,\quad 11.2,\quad 14.9,\quad 7.5,\quad 10.0,\quad 6.0,\quad 15.8, \quad 11.5\]
Paso 1.
El rango es \(R= 82.71 - 17.89 = 64.82\).
Paso 2.
Ya que tenemos \(n = 20\) datos, entonces, por la regla de Sturges debemos usar \(c = 5\) clases, porque:
\[ c \; = \; 3.3 \log_{10}(20) + 1 \; = \; 3.3 \cdot 1.30 + 1 \; = \; 5.2933 \; \approx \; 5\quad (\text{se aproximó al entero más cercano}) \]
Donde \(\approx\) significa “aproximadamente igual”.
Paso 3.
Determinamos la amplitud de clase \(w\):
\[ w = \frac{R}{c} = \frac{9.8}{5} = 1.96 \]
El entero inmediato mayor es:
\[ w = 2 \]
Paso 4.
Como la unidad de medida es \(0.1\) (por tener los datos un solo lugar decimal) y como el “punto medio” de cada unidad de medida es:
\[ \text{Punto medio de cada unidad de medida} = \frac{\text{Unidad de medida}}{2} = \frac{0.1}{2} = 0.05 \]
Entonces, la frontera inferior de la primera clase es:
\[ \text{Frontera inferior} = \text{dato menor} - 0.05 = 6.0 - 0.05 = 5.95 \]
Y la frontera superior:
\[ \text{Frontera superior} = \text{frontera inferior} + \text{amplitud} = 5.95 + 2 = 7.95 \]
Por lo tanto, la primera clase es:
\[ 5.95 - 7.95 \]
Paso 5.
Para obtener cada una de las clases siguientes, usamos que la frontera inferior de una clase coincide con la frontera superior de la anterior, y que la amplitud es \(w = 2\). A continuación se muestra la tabla de frecuencias agrupadas, junto con las marcas de clase correspondientes:
Clase | Intervalo | Cuenta | Frec. | Frec..rel. | Frec..acum. | Frec..acum..rel. | Marca.clase |
---|---|---|---|---|---|---|---|
1 | 5.95 - 7.95 | ┃┃┃┃ | 4 | 0.20 | 4 | 0.20 | 6.95 |
2 | 7.95 - 9.95 | ┃┃ | 2 | 0.10 | 6 | 0.30 | 8.95 |
3 | 9.95 - 11.95 | ┃┃┃┃┃┃┃┃ | 8 | 0.40 | 14 | 0.70 | 10.95 |
4 | 11.95 - 13.95 | ┃┃┃ | 3 | 0.15 | 17 | 0.85 | 12.95 |
5 | 13.95 - 15.95 | ┃┃┃ | 3 | 0.15 | 20 | 1.00 | 14.95 |
Paso 6.
Interpretar los resultados obtenidos.
Hay gráficas de varios tipos, entre los cuales se encuentran los siguientes:
En la figura de abajo se ilustra cada una de los gráficos mencionados arriba.
Considere los siguientes datos:
Sexo | Edad | Fuma | Estatura | Colegio | Acumulado | Definitiva |
---|---|---|---|---|---|---|
Femenino | 18.07 | Si | Media | Privado | 4.03 | 3.38 |
Masculino | 16.84 | Si | Alta | Privado | 3.43 | 3.53 |
Femenino | 17.81 | Si | Baja | Privado | 3.53 | 3.20 |
Masculino | 20.65 | Si | Alta | Privado | 2.89 | 3.18 |
Masculino | 19.39 | Si | Media | Privado | 3.62 | 3.95 |
Masculino | 20.07 | No | Media | Publico | 3.84 | 4.10 |
Femenino | 20.54 | Si | Baja | Publico | 3.85 | 3.45 |
Femenino | 18.25 | Si | Media | Publico | 2.35 | 2.40 |
Femenino | 19.95 | Si | Media | Publico | 3.78 | 3.60 |
Femenino | 18.95 | No | Alta | Publico | 4.04 | 3.30 |
Femenino | 19.11 | Si | Media | Publico | 3.72 | 3.18 |
Masculino | 17.78 | Si | Baja | Publico | 3.73 | 3.15 |
Femenino | 19.79 | Si | Media | Publico | 4.21 | 3.38 |
Femenino | 20.12 | Si | Baja | Publico | 3.79 | 3.30 |
Masculino | 21.89 | Si | Baja | Publico | 3.67 | 3.25 |
Masculino | 18.97 | Si | Baja | Publico | 4.08 | 2.98 |
Masculino | 20.69 | No | Media | Publico | 4.31 | 3.95 |
Una tabla de frecuencias para Sexo es:
Sexo | Total | Porcentaje |
---|---|---|
Femenino | 9 | 52.9 |
Masculino | 8 | 47.1 |
Un diagrama de barras univariado es:
Considere los datos del ejemplo 3. Una tabla de frecuencias cruzada para Sexo versus Fuma es:
Fuma | Sexo | Total | Porcentaje |
---|---|---|---|
No | Femenino | 1 | 33.3 |
No | Masculino | 2 | 66.7 |
Si | Femenino | 8 | 57.1 |
Si | Masculino | 6 | 42.9 |
Un diagrama de barras bivariado es:
Una tabla de frecuencias cruzada para Sexo versus Fuma, dentro de los colegios privados, es:
Fuma | Sexo | Total | Porcentaje |
---|---|---|---|
No | Femenino | 1 | 33.3 |
No | Masculino | 2 | 66.7 |
Si | Femenino | 6 | 66.7 |
Si | Masculino | 3 | 33.3 |
Un diagrama de barras bivariado dentro del grupo de los colegios privados es:
Basado en la tabla que aparece en el ejemplo 1.2 (página 7) de mis Notas de clases: Cap. 1 (Descriptiva), construíremos un histograma y un polígono.
Un histograma de frecuencias es:
Se pueden construir polígonos de frecuencias absolutas (gráfico A) o relativas (gráfico B):
Considere los datos del ejemplo 3. Un histograma de frecuencias es:
Se pueden construir polígonos de frecuencias absolutas (gráfico A) o relativas (gráfico B):
Identifique algunas de las formas de organizar datos (explicadas arriba) y que fueron utilizados en los trabajos o bases de datos que se mencionan abajo.
Ejemplo 7 (Educación)
Al hacer click aquí, usted encontrará una serie de artículos publicados en diferentes áreas de aplicación. Considere solo el artículo publicado por C.Ricardo, D. Jabba, H. LLinás et al. (2020): 2020-Educacion2-LLinas-CRicardo.pdf. El propósito del estudio fue analizar las interacciones en línea docente-estudiantes a través de WhatsApp (una herramienta de mensajería instantánea) e identificar la visión de los estudiantes hacia el uso de esa herramienta en un curso de derecho de una institución de educación superior en Colombia.
Ejemplo 8 (DANE, diversas áreas)
Al hacer click aquí, usted encontrará información recogida por el Departamento Administrativo Nacional de Estadística -DANE-, la cual es la entidad encargada de producir y comunicar información estadística oficial para Colombia. Seleccione un área de interés para realizar lo solicitado.
Ejemplo 9 (Salud, COvid19)
Al hacer click aquí, usted encontrará un repositorio de datos COVID-19, elaborado por el Centro de Ciencia e Ingeniería de Sistemas (CSSE) de la Universidad Johns Hopkins. Seleccione un link de interés para realizar lo solicitado.
Ejemplo 10 (Repositorio, diversas áreas)
Al hacer click aquí, usted encontrará el repositorio de datos llamado UC Irvine Machine Learning Repository, de la universidad de California. Seleccione un archivo de datos de interés para realizar lo solicitado.
Ejemplo 11 (Salud, Caja y bigotes)
Al hacer click aquí, usted encontrará una serie de artículos publicados en diferentes áreas de aplicación. Considere solo el artículo publicado por Ch.Thirumalai y V. Manickam (2017): 2017-Boxplot.pdf. Los autores recolectaron conjuntos de datos de cáncer de pulmón de 25 personas y 12 características.
Véase el documento: Términos básicos.
Clasifique los datos siguientes en cuantitativos (numéricos) y cualitativos (categóricos). En caso de ser numérico, clasifique como discreto o continuo:
Estaturas en centímetros de cuatro jugadores de fútbol.
El número de goles anotados por un futbolista en toda su carrera deportiva.
Los sueldos ganados por unos profesores universitarios.
Las temperaturas promedios diarias en el último mes.
Clasificación étnica de 30 empleados.
Números telefónicos de ciertas personas.
Calificaciones del primer parcial de Estadística de unos estudiantes universitarios.
Distancia (en metros) recorrida por un atleta en una temporada.
Peso perdido (en kilogramos) por 10 personas debido a una dieta.
Fecha de cumpleaños de determinadas personas.
Calificaciones (E, S, A, D, I) de unos estudiantes de bachillerato.
Rango militar.
Diga la clase de gráficas que son apropiadas para datos:
La tabla siguiente contiene la distribución de vehículos que hay en un parqueadero:
Clase | Tipo de vehículo | Cifra registrada |
---|---|---|
1 | Taxi | 30 |
2 | Camioneta | 20 |
3 | Motocicleta | 35 |
4 | Bicicleta | 40 |
A continuación se presenta una escala numérica para medir la efectividad de la tecnología en la enseñanza de una determinada asignatura: 1, si necesita mejorarse; 3, si es efectiva y competente; y 5, si es verdaderamente extraordinaria.
Los siguientes datos representan los totales, en miles de pesos, gastados en fotocopias por una muestra de 25 estudiantes durante un semestre:
29, 89, 77, 72, 39, 47, 64, 84, 88, 57, 28, 63, 38, 42, 36, 72, 69, 68, 41, 52, 39, 84, 45, 52, 72
Construya una tabla de frecuencias agrupadas usando la regla de Sturges.
Los datos adjuntos representan una muestra del aumento de precios (en pesos) de la gasolina extra en una cierta ciudad a lo largo de un año en particular:
123.9, 127.9, 130.9, 121.9, 132.9, 120.8, 115.9, 117.9, 131.9, 121.9, 126.9, 122.8, 126.9, 137.9, 115.9, 115.9, 121.9, 126.9, 119.9, 118.9, 119.8, 116.9, 129.9, 122.8, 119.9
Mediante cinco clases construya una tabla de frecuencias relativas acumuladas agrupadas.
Se clasificó a los estudiantes de un programa universitario de acuerdo con el semestre que cursan y sus preferencias deportivas. Los resultados están registrados en la siguiente tabla:
Deporte | Primero | Segundo | Tercero | Cuarto |
---|---|---|---|---|
Fútbol | 15 | 14 | 5 | 9 |
Béisbol | 12 | 22 | 6 | 6 |
Voleibol | 5 | 5 | 9 | 5 |
Basquetbol | 26 | 7 | 6 | 7 |
Natación | 7 | 8 | 4 | 2 |
Los siguientes datos representan las cuentas telefónicas mensuales, en miles de pesos, de 25 residentes de un pequeño pueblo:
21.48, 21.15, 25.12, 23.47, 27.81, 19.8, 36.05, 28.5, 26.66, 20.35, 30.22, 25.49, 20.8, 23.83, 25.35, 23.48, 25.81, 21.07, 26.83, 30.96, 33.38, 20.77, 19.98, 35.87, 22.02
¿Qué porcentaje del grupo pagó más de 21.000 pesos?
¿Qué porcentaje pagó más de 22.000 pesos pero menos de 27.000 pesos?
Considere la siguiente distribución de frecuencias:
Clase | Frecuencia |
---|---|
20-40 | 14 |
40-60 | 23 |
60-80 | 15 |
80-100 | 20 |
100-120 | 28 |
Trace un histograma de frecuencias relativas, un histograma de frecuencias relativas acumuladas, un polígono de frecuencias absolutas y una ojiva de frecuencias acumuladas para estos datos.
Los datos que se indican a continuación representan el costo (en miles de pesos) de la energía eléctrica durante un determinado mes del año para una muestra aleatoria de 50 apartamentos en cierta ciudad importante:
128, 144, 168, 109, 167, 141, 149, 206, 175, 123, 153, 197, 127, 82, 96, 171, 202, 178, 147, 102, 135, 191, 137, 129, 158, 108, 119, 183, 151, 114, 111, 148, 213, 130, 165, 157, 185, 90, 116, 172, 143, 187, 166, 139, 149, 95, 163, 150, 154, 130
Obtenga una tabla de frecuencias con 7 intervalos de clase.
Grafique el correspondiente histograma de frecuencias, el polígono de frecuencias relativas y la ojiva con frecuencias acumuladas relativas.
¿Alrededor de qué cantidad parece concentrarse el costo mensual de energía eléctrica?
Según su opinión, ¿cuál de las gráficas representa mejor la distribución de los costos de energía eléctrica?
Se les pidió a 20 personas que identificaran su preferencia religiosa. Los resultados son:
C, P, P, J, J, A, J, C, P, P, C, J, J, C, P, P, A, P, C, J
Donde C denota católico; P, protestante; J, judío y A, ateo.
Construya una tabla de frecuencias (absolutas, relativas, acumuladas y acumuladas relativas), un diagrama de barras, uno circular y un pictograma.
Los siguientes datos presentan los porcentajes de rentabilidad de las acciones de 25 empresas:
30.8, 20.3, 24, 29.6, 19.4, 38, 24.5, 21.5, 25.6, 30.8, 32.9, 30.3, 39.5, 13.3, 28, 19.9, 24.6, 32.3, 30.7, 20.3, 24.7, 18.7, 36.8, 31.2, 50.9
Construya un diagrama de tallo y hojas, una tabla de frecuencias agrupadas usando la fórmula de Sturges y con ayuda de esta tabla responda las preguntas que se formulan en los siguientes incisos:
¿Qué porcentaje de empresas tienen el porcentaje de rentabilidad de las acciones mayor que 34,25%?
¿Cuántas empresas tienen el porcentaje de rentabilidad de las acciones menor que 27,25% o mayor que 41,25%?
Según un estudio reciente, en cierto país mueren cada año 40.000 mujeres a causa del cáncer de mama y 85.000 por diabetes. Dibuje un diagrama de barras y un pictograma que represente esta información.
En 1986 se produjeron 50,2 nacimientos por cada mil mujeres con edad entre 15 y 19 años. En 1991, el número de nacimientos fue de 62,1 por cada mil mujeres de la misma edad. Dibuje un diagrama de barras que represente esta información.
De las películas que están en cartelera en una gran ciudad, el 30% son dramas, el 35% comedias, un 15% películas de acción, otro 6% de ciencia ficción, el 10% policiacas y el 4% de terror. Construya un diagrama circular que represente esta información.
La siguiente tabla se refiere a los usos más comunes citados en una encuesta realizada a usuarios de computadores de pequeñas y medianas empresas. Construya un diagrama circular para representar esta información:
Area | Porcentaje |
---|---|
Contabilidad | 22 |
Procesadores de texto | 12 |
Hojas de cálculo | 16 |
Bases de datos | 13 |
Puntos de venta | 1 |
Telecomunicaciones | 4 |
Otros | 32 |
Un reporte sobre galletas reportó las siguientes calificaciones para varias marcas:
Integral | 32 | 53 | 50 | 65 | 45 | 40 | 56 | 44 | 62 | 32 | 30 | 40 | 50 | 56 | 30 | 22 | 56 | 68 | 41 |
No_Integral | 47 | 40 | 34 | 62 | 52 | 62 | 53 | 75 | 42 | 75 | 80 | 47 | 56 | 62 | 50 | 34 | 42 | 36 |
Construya una presentación comparativa de tallo y hoja, ponga en una lista los tallos (en el centro de la página), las hojas integrales a la derecha y las hojas no integrales a la izquierda. Describa las similitudes y diferencias para los dos tipos.
La Sección 1.2 (página 29).
La Sección de Ejercicios Complementarios (página 93).
LLinás, H., Rojas, C. (2005); Estadística descriptiva y distribuciones de probabilidad. Barranquilla: Editorial Universidad del Norte.
Consultar mis Notas de clase: Cap. 1 (Descriptiva).
Consultar el documento RPubs :: Enlace y materiales de ayuda.
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.