hllinas2023

1 Organización de datos

  1. Por el tipo de variable.

  2. De acuerdo a escalas de medidas.

  3. Mediante tablas.

  4. Mediante representaciones gráficas.

2 Tipo de variables

En la figura de abajo se muestra los diferentes tipos de variables.

3 Escalas de medida

Los datos también se pueden clasificar según la escala de medición o el procedimiento que los generó. Cuatro tipos de escalas de medición usados en estadística son las escalas nominal, ordinal, de intervalo y de razón (véase la imagen de abajo).

4 Tablas de frecuencia

En general, hay dos tipos:

  1. No agrupadas: Se observan los datos con sus respectivas frecuencias

  2. Agrupadas: Se observan intervalos (o clases ) donde están ubicados lo datos y las respectivas frecuencias. Para hallar el número \(c\) de intervalos de clases se aplica la llamada fórmula de Sturges:

\[ c \; = \; 3.3 \log_{10}(n) + 1 \quad (\text{se sugiere aproximar al entero más cercano}) \]

En la figura de abajo se ilustran con un par de ejemplos.

5 Tablas de frecuencia (ejemplos)

5.0.1 Ejemplo 1 (tabla de frecuencias no agrupadas)

Revisar el ejemplo 1.1 (página 6) de mis Notas de clases: Cap. 1 (Descriptiva). Los datos corresponden a las edades de unas personas: \[11, \quad 11, \quad 13 \;(\text{8 veces}), \quad 17 \;(\text{11 veces}), \quad 21 \;(\text{10 veces},\quad 25 \;(\text{8 veces}), \quad 26\]

La tabla de frecuencias correspondiente es:

Tabla de frecuencia para datos no agrupados
Datos..Edades. Frecuencia.absoluta Frecuencia.relativa Frecuencia.acumulada Frec..acum..relativa
11 2 0.050 2 0.050
13 8 0.200 10 0.250
17 11 0.275 21 0.525
21 10 0.250 31 0.775
25 8 0.200 39 0.975
26 1 0.025 40 1.000

Se deja al lector la interpretación de los resultados obtenidos.

5.0.2 Ejemplo 2 (tabla de frecuencias agrupadas)

Revisar el ejemplo 1.2 (página 7) de mis Notas de clases: Cap. 1 (Descriptiva). Forme una distribución de frecuencias considerando los siguientes datos:

\[8.9, \quad 10.2,\quad 11.5,\quad 7.8,\quad 10.0,\quad 12.2,\quad 13.5,\quad 14.1,\quad 10.0,\quad 12.2,\] \[ 6.8,\quad 9.5,\quad 11.5,\quad 11.2,\quad 14.9,\quad 7.5,\quad 10.0,\quad 6.0,\quad 15.8, \quad 11.5\]

Paso 1.

El rango es \(R= 82.71 - 17.89 = 64.82\).

Paso 2.

Ya que tenemos \(n = 20\) datos, entonces, por la regla de Sturges debemos usar \(c = 5\) clases, porque:

\[ c \; = \; 3.3 \log_{10}(20) + 1 \; = \; 3.3 \cdot 1.30 + 1 \; = \; 5.2933 \; \approx \; 5\quad (\text{se aproximó al entero más cercano}) \]

Donde \(\approx\) significa “aproximadamente igual”.

Paso 3.

Determinamos la amplitud de clase \(w\):

\[ w = \frac{R}{c} = \frac{9.8}{5} = 1.96 \]

El entero inmediato mayor es:

\[ w = 2 \]

Paso 4.

Como la unidad de medida es \(0.1\) (por tener los datos un solo lugar decimal) y como el “punto medio” de cada unidad de medida es:

\[ \text{Punto medio de cada unidad de medida} = \frac{\text{Unidad de medida}}{2} = \frac{0.1}{2} = 0.05 \]

Entonces, la frontera inferior de la primera clase es:

\[ \text{Frontera inferior} = \text{dato menor} - 0.05 = 6.0 - 0.05 = 5.95 \]

Y la frontera superior:

\[ \text{Frontera superior} = \text{frontera inferior} + \text{amplitud} = 5.95 + 2 = 7.95 \]

Por lo tanto, la primera clase es:

\[ 5.95 - 7.95 \]

Paso 5.

Para obtener cada una de las clases siguientes, usamos que la frontera inferior de una clase coincide con la frontera superior de la anterior, y que la amplitud es \(w = 2\). A continuación se muestra la tabla de frecuencias agrupadas, junto con las marcas de clase correspondientes:

Tabla de frecuencia agrupada con 5 clases para 20 datos
Clase Intervalo Cuenta Frec. Frec..rel. Frec..acum. Frec..acum..rel. Marca.clase
1 5.95 - 7.95 ┃┃┃┃ 4 0.20 4 0.20 6.95
2 7.95 - 9.95 ┃┃ 2 0.10 6 0.30 8.95
3 9.95 - 11.95 ┃┃┃┃┃┃┃┃ 8 0.40 14 0.70 10.95
4 11.95 - 13.95 ┃┃┃ 3 0.15 17 0.85 12.95
5 13.95 - 15.95 ┃┃┃ 3 0.15 20 1.00 14.95

Paso 6.

Interpretar los resultados obtenidos.

6 Representaciones gráficas

Hay gráficas de varios tipos, entre los cuales se encuentran los siguientes:

  1. El diagrama circular o de pastel.
  2. El pictograma y la infografía.
  3. El diagrama de barra.
  4. El diagrama de caja y bigote.
  5. El histograma.
  6. El polígono (de frecuencia o de frecuencias relativas).
  7. La ojiva (o polígono de frecuencias acumuladas o polígono de frecuencias relativas acumuladas).
  8. El diagrama de tallo y hojas.
  9. El diagrama de dispersión.

En la figura de abajo se ilustra cada una de los gráficos mencionados arriba.

7 Ejemplos (gráficas)

7.0.1 Ejemplo 3 (diagrama de barra univariado)

Considere los siguientes datos:

Sexo Edad Fuma Estatura Colegio Acumulado Definitiva
Femenino 18.07 Si Media Privado 4.03 3.38
Masculino 16.84 Si Alta Privado 3.43 3.53
Femenino 17.81 Si Baja Privado 3.53 3.20
Masculino 20.65 Si Alta Privado 2.89 3.18
Masculino 19.39 Si Media Privado 3.62 3.95
Masculino 20.07 No Media Publico 3.84 4.10
Femenino 20.54 Si Baja Publico 3.85 3.45
Femenino 18.25 Si Media Publico 2.35 2.40
Femenino 19.95 Si Media Publico 3.78 3.60
Femenino 18.95 No Alta Publico 4.04 3.30
Femenino 19.11 Si Media Publico 3.72 3.18
Masculino 17.78 Si Baja Publico 3.73 3.15
Femenino 19.79 Si Media Publico 4.21 3.38
Femenino 20.12 Si Baja Publico 3.79 3.30
Masculino 21.89 Si Baja Publico 3.67 3.25
Masculino 18.97 Si Baja Publico 4.08 2.98
Masculino 20.69 No Media Publico 4.31 3.95

Una tabla de frecuencias para Sexo es:

Sexo Total Porcentaje
Femenino 9 52.9
Masculino 8 47.1

Un diagrama de barras univariado es:

7.0.2 Ejemplo 4 (diagrama de barra bivariado)

Considere los datos del ejemplo 3. Una tabla de frecuencias cruzada para Sexo versus Fuma es:

Fuma Sexo Total Porcentaje
No Femenino 1 33.3
No Masculino 2 66.7
Si Femenino 8 57.1
Si Masculino 6 42.9

Un diagrama de barras bivariado es:

7.0.3 Ejemplo 5 (diagrama de barra bivariado, filtando datos)

Una tabla de frecuencias cruzada para Sexo versus Fuma, dentro de los colegios privados, es:

Fuma Sexo Total Porcentaje
No Femenino 1 33.3
No Masculino 2 66.7
Si Femenino 6 66.7
Si Masculino 3 33.3

Un diagrama de barras bivariado dentro del grupo de los colegios privados es:

7.0.4 Ejemplo 7 (gráficos para datos agrupados)

Basado en la tabla que aparece en el ejemplo 1.2 (página 7) de mis Notas de clases: Cap. 1 (Descriptiva), construíremos un histograma y un polígono.

Un histograma de frecuencias es:

Se pueden construir polígonos de frecuencias absolutas (gráfico A) o relativas (gráfico B):

7.0.5 Ejemplo 7 (gráficos para datos agrupados)

Considere los datos del ejemplo 3. Un histograma de frecuencias es:

Se pueden construir polígonos de frecuencias absolutas (gráfico A) o relativas (gráfico B):

8 Ejemplos (asociación de los temas con la realidad)

Identifique algunas de las formas de organizar datos (explicadas arriba) y que fueron utilizados en los trabajos o bases de datos que se mencionan abajo.

Ejemplo 7 (Educación)

Al hacer click aquí, usted encontrará una serie de artículos publicados en diferentes áreas de aplicación. Considere solo el artículo publicado por C.Ricardo, D. Jabba, H. LLinás et al. (2020): 2020-Educacion2-LLinas-CRicardo.pdf. El propósito del estudio fue analizar las interacciones en línea docente-estudiantes a través de WhatsApp (una herramienta de mensajería instantánea) e identificar la visión de los estudiantes hacia el uso de esa herramienta en un curso de derecho de una institución de educación superior en Colombia.

Ejemplo 8 (DANE, diversas áreas)

Al hacer click aquí, usted encontrará información recogida por el Departamento Administrativo Nacional de Estadística -DANE-, la cual es la entidad encargada de producir y comunicar información estadística oficial para Colombia. Seleccione un área de interés para realizar lo solicitado.

Ejemplo 9 (Salud, COvid19)

Al hacer click aquí, usted encontrará un repositorio de datos COVID-19, elaborado por el Centro de Ciencia e Ingeniería de Sistemas (CSSE) de la Universidad Johns Hopkins. Seleccione un link de interés para realizar lo solicitado.

Ejemplo 10 (Repositorio, diversas áreas)

Al hacer click aquí, usted encontrará el repositorio de datos llamado UC Irvine Machine Learning Repository, de la universidad de California. Seleccione un archivo de datos de interés para realizar lo solicitado.

Ejemplo 11 (Salud, Caja y bigotes)

Al hacer click aquí, usted encontrará una serie de artículos publicados en diferentes áreas de aplicación. Considere solo el artículo publicado por Ch.Thirumalai y V. Manickam (2017): 2017-Boxplot.pdf. Los autores recolectaron conjuntos de datos de cáncer de pulmón de 25 personas y 12 características.

9 Ejercicios

Ejercicios del 1 al 5

Véase el documento: Términos básicos.

Ejercicio 6

Clasifique los datos siguientes en cuantitativos (numéricos) y cualitativos (categóricos). En caso de ser numérico, clasifique como discreto o continuo:

  1. Estaturas en centímetros de cuatro jugadores de fútbol.

  2. El número de goles anotados por un futbolista en toda su carrera deportiva.

  3. Los sueldos ganados por unos profesores universitarios.

  4. Las temperaturas promedios diarias en el último mes.

  5. Clasificación étnica de 30 empleados.

  6. Números telefónicos de ciertas personas.

  7. Calificaciones del primer parcial de Estadística de unos estudiantes universitarios.

  8. Distancia (en metros) recorrida por un atleta en una temporada.

  9. Peso perdido (en kilogramos) por 10 personas debido a una dieta.

  10. Fecha de cumpleaños de determinadas personas.

  11. Calificaciones (E, S, A, D, I) de unos estudiantes de bachillerato.

  12. Rango militar.

Ejercicio 7

Diga la clase de gráficas que son apropiadas para datos:

  1. cualitativos
  2. cuantitativos
  3. nominales

Ejercicio 8

La tabla siguiente contiene la distribución de vehículos que hay en un parqueadero:

Clase Tipo de vehículo Cifra registrada
1 Taxi 30
2 Camioneta 20
3 Motocicleta 35
4 Bicicleta 40
  1. Identifique los datos de cada una de las tres columnas como cuantitativos o cualitativos.
  2. Identifique los datos de la tercera columna como discretos o continuos.
  3. Determine los datos de cada una de las tres columnas como nominales, ordinales, de intervalo o de razón.

Ejercicio 9

A continuación se presenta una escala numérica para medir la efectividad de la tecnología en la enseñanza de una determinada asignatura: 1, si necesita mejorarse; 3, si es efectiva y competente; y 5, si es verdaderamente extraordinaria.

  1. Identifique el tipo de escala de medición.
  2. Suponga que 20 estudiantes usan esta escala para evaluar a su maestro de estadística. ¿Será más fácil interpretar esos resultados que los que se obtendrían si los 20 estudiantes evaluaran a su maestro mediante una opinión escrita de respuesta libre? Explique.

Ejercicio 10

Los siguientes datos representan los totales, en miles de pesos, gastados en fotocopias por una muestra de 25 estudiantes durante un semestre:

29, 89, 77, 72, 39, 47, 64, 84, 88, 57, 28, 63, 38, 42, 36, 72, 69, 68, 41, 52, 39, 84, 45, 52, 72

Construya una tabla de frecuencias agrupadas usando la regla de Sturges.

Ejercicio 11

Los datos adjuntos representan una muestra del aumento de precios (en pesos) de la gasolina extra en una cierta ciudad a lo largo de un año en particular:

123.9, 127.9, 130.9, 121.9, 132.9, 120.8, 115.9, 117.9, 131.9, 121.9, 126.9, 122.8, 126.9, 137.9, 115.9, 115.9, 121.9, 126.9, 119.9, 118.9, 119.8, 116.9, 129.9, 122.8, 119.9

Mediante cinco clases construya una tabla de frecuencias relativas acumuladas agrupadas.

Ejercicio 12

Se clasificó a los estudiantes de un programa universitario de acuerdo con el semestre que cursan y sus preferencias deportivas. Los resultados están registrados en la siguiente tabla:

Deporte Primero Segundo Tercero Cuarto
Fútbol 15 14 5 9
Béisbol 12 22 6 6
Voleibol 5 5 9 5
Basquetbol 26 7 6 7
Natación 7 8 4 2
  1. ¿Qué porcentaje de los estudiantes de primer semestre prefieren el fútbol?
  2. ¿Qué porcentaje de los aficionados a la natación son de segundo semestre?
  3. ¿Qué porcentaje del total de los estudiantes prefieren el basquetbol?
  4. ¿Qué porcentaje de los estudiantes son de cuarto semestre?
  5. ¿Qué porcentaje del total de estudiantes son de tercero o cuarto semestre?
  6. ¿Qué porcentaje prefiere la natación, el voleibol o el béisbol?

Ejercicio 13

Los siguientes datos representan las cuentas telefónicas mensuales, en miles de pesos, de 25 residentes de un pequeño pueblo:

21.48, 21.15, 25.12, 23.47, 27.81, 19.8, 36.05, 28.5, 26.66, 20.35, 30.22, 25.49, 20.8, 23.83, 25.35, 23.48, 25.81, 21.07, 26.83, 30.96, 33.38, 20.77, 19.98, 35.87, 22.02

  1. ¿Qué porcentaje del grupo pagó más de 21.000 pesos?

  2. ¿Qué porcentaje pagó más de 22.000 pesos pero menos de 27.000 pesos?

Ejercicio 14

Considere la siguiente distribución de frecuencias:

Clase Frecuencia
20-40 14
40-60 23
60-80 15
80-100 20
100-120 28

Trace un histograma de frecuencias relativas, un histograma de frecuencias relativas acumuladas, un polígono de frecuencias absolutas y una ojiva de frecuencias acumuladas para estos datos.

Ejercicio 15

Los datos que se indican a continuación representan el costo (en miles de pesos) de la energía eléctrica durante un determinado mes del año para una muestra aleatoria de 50 apartamentos en cierta ciudad importante:

128, 144, 168, 109, 167, 141, 149, 206, 175, 123, 153, 197, 127, 82, 96, 171, 202, 178, 147, 102, 135, 191, 137, 129, 158, 108, 119, 183, 151, 114, 111, 148, 213, 130, 165, 157, 185, 90, 116, 172, 143, 187, 166, 139, 149, 95, 163, 150, 154, 130

  1. Obtenga una tabla de frecuencias con 7 intervalos de clase.

  2. Grafique el correspondiente histograma de frecuencias, el polígono de frecuencias relativas y la ojiva con frecuencias acumuladas relativas.

  3. ¿Alrededor de qué cantidad parece concentrarse el costo mensual de energía eléctrica?

  4. Según su opinión, ¿cuál de las gráficas representa mejor la distribución de los costos de energía eléctrica?

Ejercicio 16

Se les pidió a 20 personas que identificaran su preferencia religiosa. Los resultados son:

C, P, P, J, J, A, J, C, P, P, C, J, J, C, P, P, A, P, C, J

Donde C denota católico; P, protestante; J, judío y A, ateo.

Construya una tabla de frecuencias (absolutas, relativas, acumuladas y acumuladas relativas), un diagrama de barras, uno circular y un pictograma.

Ejercicio 17

Los siguientes datos presentan los porcentajes de rentabilidad de las acciones de 25 empresas:

30.8, 20.3, 24, 29.6, 19.4, 38, 24.5, 21.5, 25.6, 30.8, 32.9, 30.3, 39.5, 13.3, 28, 19.9, 24.6, 32.3, 30.7, 20.3, 24.7, 18.7, 36.8, 31.2, 50.9

Construya un diagrama de tallo y hojas, una tabla de frecuencias agrupadas usando la fórmula de Sturges y con ayuda de esta tabla responda las preguntas que se formulan en los siguientes incisos:

  1. ¿Qué porcentaje de empresas tienen el porcentaje de rentabilidad de las acciones mayor que 34,25%?

  2. ¿Cuántas empresas tienen el porcentaje de rentabilidad de las acciones menor que 27,25% o mayor que 41,25%?

Ejercicio 18

Según un estudio reciente, en cierto país mueren cada año 40.000 mujeres a causa del cáncer de mama y 85.000 por diabetes. Dibuje un diagrama de barras y un pictograma que represente esta información.

Ejercicio 19

En 1986 se produjeron 50,2 nacimientos por cada mil mujeres con edad entre 15 y 19 años. En 1991, el número de nacimientos fue de 62,1 por cada mil mujeres de la misma edad. Dibuje un diagrama de barras que represente esta información.

Ejercicio 20

De las películas que están en cartelera en una gran ciudad, el 30% son dramas, el 35% comedias, un 15% películas de acción, otro 6% de ciencia ficción, el 10% policiacas y el 4% de terror. Construya un diagrama circular que represente esta información.

Ejercicio 21

La siguiente tabla se refiere a los usos más comunes citados en una encuesta realizada a usuarios de computadores de pequeñas y medianas empresas. Construya un diagrama circular para representar esta información:

Area Porcentaje
Contabilidad 22
Procesadores de texto 12
Hojas de cálculo 16
Bases de datos 13
Puntos de venta 1
Telecomunicaciones 4
Otros 32

Ejercicio 22

Un reporte sobre galletas reportó las siguientes calificaciones para varias marcas:

Integral 32 53 50 65 45 40 56 44 62 32 30 40 50 56 30 22 56 68 41
No_Integral 47 40 34 62 52 62 53 75 42 75 80 47 56 62 50 34 42 36

Construya una presentación comparativa de tallo y hoja, ponga en una lista los tallos (en el centro de la página), las hojas integrales a la derecha y las hojas no integrales a la izquierda. Describa las similitudes y diferencias para los dos tipos.

10 Otros ejercicios

  1. Tener en cuenta la Bibliografía No. 1 que se referencia abajo y realizar los ejercicios que aparecen en:
  • La Sección 1.2 (página 29).

  • La Sección de Ejercicios Complementarios (página 93).

  1. Al hacer click aquí, usted encontrará una serie de artículos publicados en diferentes áreas de aplicación. Seleccione algunos de ellos y aplique la teoría explicada en este documento.

Bibliografía

  1. LLinás, H., Rojas, C. (2005); Estadística descriptiva y distribuciones de probabilidad. Barranquilla: Editorial Universidad del Norte.

  2. Consultar mis Notas de clase: Cap. 1 (Descriptiva).

  3. Consultar el documento RPubs :: Enlace y materiales de ayuda.

 

 
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.