Tabulación de Datos

La tabulación de datos es una de las herramientas más poderosas de la Estadística porque de esta depende la presentación adecuada de la información contenida en la o las variables.

Datos cualitativos y sus escalas de medida

En estadística, existen dos escalas principales para clasificar los datos: la escala cualitativa y la escala cuantitativa.

La escala cualitativa se compone de variables categóricas, en las cuales cada uno de los datos toma una de las tantas categorías de las que asume la variable medida. A menudo, estas categorías representan una cualidad que a su vez se puede representar por un nombre o por un código numérico.

En presencia de variables cualitativas se debe realizar el análisis haciendo una representación gráfica particular y un estudio de los datos basado en frecuencias y porcentajes. Estas representaciones gráficas útiles son: el diagrama de barras, el diagrama de Pareto y el gráfico de pastel; pero, previamente se deben organizar los datos en una tabla donde aparezcan las distintas frecuencias y los porcentajes de aparición de cada una de las categorías.

La escala cualitativa presenta dos tipos de datos: los datos nominales y los datos ordinales. Este tipo de dato no se puede procesar matemáticamente mediante operaciones de suma o multiplicación, ya que no tendría un significado de cantidad.

En la escala nominal los datos toman el nombre de una categoría en la que no existe una jerarquía natural sino que cada elemento se puede únicamente identificar con el nombre de una cualidad. En la escala ordinal se pueden tener nombres o códigos numéricos que se pueden jerarquizar siguiendo un orden natural. Aún estos códigos no representan cantidades con las que se pueden hacer operaciones, son sólo identificables y ordenables. Ejemplos de datos cualitativos son el rango militar, el estado civil de una persona, la religión que practica una persona y el grado de escolaridad. De estos 4 ejemplos el estado civil y la religión representan datos cualitativos nominales porque se da un nombre distintivo que no puede ser ordenado; los otros dos ejemplos, el rango militar y el grado de escolaridad, son datos cualitativos ordinales ya que además de identificar a la persona se pueden ordenar siguiendo una jerarquía.

Por su parte, la escala cuantitativa está conformada por datos que tienen el significado de cantidad. Aquellos datos que sólo permiten operaciones de suma, resta y multiplicación están en la escala de intervalo, ya que no es factible medir una razón entre dos mediciones. En estos el cociente no presenta un significado de ser interpretado como una parte de la otra. Especialmente, el cero ocupa una posición relativa en lo qu se está midiendo.

Ejemplos de datos cuantitativos de intervalos son los puntajes en una prueba de matemáticas y las edades de un grupo de personas.

En ambos casos, el cero es arbitrario. Una cuestión es que una persona de 14 años no siempre doblará la edad de una de 7 años, lo cierto es que se mantiene la diferencia de sus edades, en vida.

La otra escala cuantitativa es la escala de razón, que es la escala más completa porque las operaciones de división entre dos mediciones tienen un significado práctico. En esta escala el cero es absoluto, y es por eso que una medida puede duplicar a otra haciendo comparables dos mediciones en términos de porcentajes. Otros ejemplos en la escala cuantitativa de razón son: el ingreso de una persona y la masa corporal. En este caso, el cero indica ausencia de lo que se mide. Una persona con ingreso de $2000000 gana el doble que una persona con ingreso de $1000000.

Ejemplo: Mencione el tipo de dato y la escala a la que pertenecen los siguientes datos.

Número de hijos
número de cédula
Edad
Estrato
Tipo de sangre
Organización política
Nivel educativo
Grado de escalafón
Calificación del examen
Estatura.

Solución

A continuación se han clasificado

• Cualitativos Nominales

Tipo de sangre, organización política.

• Cualitativos Ordinales

Número de cédula, estrato, nivel educativo, grado de escalafón.

• Cuantitativos de intervalo

Calificación del examen, edad.

• Cuantitativos de razón

Número de hijos, estatura.

Frecuencias y porcentajes

Los conceptos que se emplean comúnmente para datos cualitativos son:

Frecuencia absoluta: Se simboliza por f, y se define como el número de veces que se repite un dato. En el caso, se nombran varias categorías y para la categoría i la frecuencia absoluta es $f_i$.

Número de datos: Se simboliza por n, y se define como el número total de elementos en una muestra. Matemáticamente, n corresponde a la suma de las frecuencias absolutas; esto es, $n=f_1+f_2+\cdots+f_k$.

Frecuencia Relativa: Se simboliza por $f_r$, y se define como el cociente entre la frecuencia absoluta y el total de datos, es decir, $f_r= \frac{f}{n}$. La suma de frecuencias relativas es igual a 1.

Frecuencia Acumulada: Se simboliza por F, y se define como la suma de la frecuencia absoluta de un dato y las frecuencias absolutas anteriores; esto es, $F_c=f_1+f_2+\cdots+f_c$. Además, se tiene que $F_{c+1}=F_c+f_{c+1}$. También $F_k=n$.

Frecuencia Relativa Acumulada: Se simboliza por $F_r$, y se define como la suma de la frecuencia relativa de un dato y las frecuencias relativas anteriores; esto es, $F_{cr}=f_{1r}+f_{2r}+\cdots+f_{cr}$. Además, se tiene que $F_{(c+1)r}=F_{cr}+f_{(c+1)r}$. También $F_{kr}=1$.

Porcentaje: Se simboliza por p, y se define como el tanto por ciento de una categoría. Este, se determina multiplicando la frecuencia relativa por 100. Esto es, $p=f_r\times 100$.

Porcentaje acumulado: Se simboliza por P, y se define como el tanto por ciento acumulado hasta una categoría. Este, se determina multiplicando la frecuencia relativa acumulada por 100. Esto es, $P=F_r\times 100$.

Angulo: Se simboliza por A, y se define como la porción sectorial de una categoría. Este, se determina multiplicando la frecuencia relativa por 360. Esto es, $A=f_r\times 360$.

Ejemplo

Suponga que en una localidad, se clasificó a una muestra de 300 personas mayores de edad, de acuerdo con el nivel educativo alcanzado.

Los datos se presentan en la tabla con estimaciones de porcentajes acumulados. A partir de ello, obtenga las frecuencias absolutas y relativas, las frecuencias acumuladas y los pocentajes absolutos.

Nivel Educativo Porcentaje Acumulado

Primaria 40%

Bachiller 62%

Técnico 80%

Universitario 95%

Magíster 99%

Doctor 100%

Solución

De acuerdo a la información y a las definiciones dadas anteriormente, se tiene

$f_i=\left(P_i-P_{i-1}\right)\times n$ para $i=1$ primaria, hasta $i=6$ doctor.

El $P_0=0$ corresponde al porcentaje acumulado antes de primaria.

Por lo tanto, las frecuencias para primaria, caso $i=1$, es

$f_1=\left(40\%-0\%\right)\times 300$, es decir, $f_1=40\%\times 300$, que es 120.

Para bachiller, $i=2$, se tiene

$f_2=\left(62\%-40\%\right)\times 300$, es decir, $f_2=22\%\times 300$, que es 66.

Para técnico, $i=3$, se tiene

$f_3=\left(80\%-62\%\right)\times 300$, es decir, $f_3=18\%\times 300$, que es 54.

Para Universitario $i=4$, se tiene

$f_4=\left(95\%-80\%\right)\times 300$, es decir, $f_4=15\%\times 300$, que es 45.

Para Magíster, $i=5$, se tiene

$f_5=\left(99\%-95\%\right)\times 300$, es decir, $f_5=4\%\times 300$, que es 12.

Por último, el nivel doctor $i=6$

$f_6=\left(100\%-99\%\right)\times 300$, es decir, $f_1=1\%\times 300$, que es 3.

Ahora bien, la frecuencia relativa, en la tabla Rel, se puede calcular como $f_{ir}=\frac{\left(P_i-P_{i-1}\right)}{100\%}$, para $i=1, 2, ..., 6$.

La p simboliza porcentaje absoluto y P porcentaje acumulado. En esta ley, el porcentaje absoluto se obtiene de las restas sucesivas de porcentajes acumulados, que al dividir por 100% producen la frecuencia relativa. Este ejemplo, ofrece la manera de obtener la frecuencia, frecuencia relativa, frecuencia acumulada y porcentaje a partir de los porcentajes acumulados dados.

Primero, para primaria, $i=1$, se tiene

$f_{1r}=\frac{\left(P_1-P_0\right)}{100\%}$, es decir, $f_{1r}=\frac{\left(40\%-0\%\right)}{100\%}$, esto da 0.4.

Segundo, para Bachiller, $i=2$, se tiene

$f_{2r}=\frac{\left(P_2-P_1\right)}{100\%}$, es decir, $f_{2r}=\frac{\left(62\%-40\%\right)}{100\%}$, esto da 0.22.

Tercero, para Técnico, $i=3$, se tiene

$f_{3r}=\frac{\left(P_3-P_2\right)}{100\%}$, es decir, $f_{3r}=\frac{\left(80\%-62\%\right)}{100\%}$, esto da 0.18.

Cuarto, para Universitario, $i=4$, se tiene

$f_{4r}=\frac{\left(P_4-P_3\right)}{100\%}$, es decir, $f_{4r}=\frac{\left(95\%-80\%\right)}{100\%}$, esto da 0.15.

Quinto, para Magíster, $i=5$, se tiene

$f_{5r}=\frac{\left(P_5-P_4\right)}{100\%}$, es decir, $f_{5r}=\frac{\left(99\%-95\%\right)}{100\%}$, esto da 0.04.

Por último, para Doctor, $i=6$, se tiene

$f_{6r}=\frac{\left(P_6-P_5\right)}{100\%}$, es decir, $f_{6r}=\frac{\left(100\%-99\%\right)}{100\%}$, esto da 0.01.

A partir de estos cálculos se consolida la tabla y el lector debe realizar los cálculos de las dos últimas columnas: frecuencia acumulada y porcentaje, para verificar la solución presentada en la tabla anterior.

Frecuencias no agrupadas

Una de las primeras operaciones que se debe realizar después de recoger los datos, es organizar los datos a través de las frecuencias de aparición de estos.

El resultado de organizar los datos es una tabla de frecuencias no agrupadas que puede tener una sola entrada o dos o más entradas según el número de variables que se utilicen.

Tablas de una sola entrada

Para las tablas de una sola entrada se tiene en cuenta una única variable cualitativa y la organización se basa en la obtención de las frecuencias de aparición de cada categoría, es decir, el número de veces que se repite. Se colocan las categorías de la variable en la primera columna y se calculan las frecuencias y los porcentajes para cada categoría ubicándolas en otras columnas.

Ejemplo: Suponga que una muestra de 25 personas adultas, que pertenecen a un programa, se clasifica por el estado civil y se dan los resultados siguientes:

Soltero - casado - casado - viudo - casado - casado - soltero casado - viudo - unión libre - divorciado - casado - soltero - viudo - casado - unión libre - viudo - soltero - soltero - casado - divorciado - soltero - unión libre - unión libre - soltero

Organice los datos en una tabla de frecuencias donde aparezca frecuencia absoluta, frecuencia relativa y porcentaje.
Realice una estimación de cuántas personas pertenecen a cada categoría si en la población hay 1200.

Solución

En primer lugar, se cuenta el número de personas en cada categoría, como se indica a continuación.

Estadocivil=c("Casado", "Soltero", "Union libre", "Viudo", "divorciado")
Frecuencia=c(8,7,4,4,2)
Frec.Relativa=Frecuencia/25
Porcentaje=Frec.Relativa*100
cbind(Estadocivil, Frecuencia, Frec.Relativa, Porcentaje)

##      Estadocivil   Frecuencia Frec.Relativa Porcentaje
## [1,] "Casado"      "8"        "0.32"        "32"      
## [2,] "Soltero"     "7"        "0.28"        "28"      
## [3,] "Union libre" "4"        "0.16"        "16"      
## [4,] "Viudo"       "4"        "0.16"        "16"      
## [5,] "divorciado"  "2"        "0.08"        "8"

Para estimar los números de casados, solteros, en unión libre, viudos y divorciados; se procede a multiplicar la frecuencia relativa de cada categoría por el total 1200. Según esto, se tienen las estimaciones:\

Número de casados $= 0,32 (1200) = 384$

Número de solteros $ = 0,28 (1200) = 336$

Número de unión libre $= 0,16 (1200) = 192$

Número de viudos $= 0,16 (1200) = 192$

Número de divorciados $= 0,08 (1200) = 96$

Estos valores son estimaciones y naturalmente pueden ser diferentes a los valores de la población. Lo ideal es que la muestra origine unas proporciones muy cercanas a los respectivos parámetros.

Ejemplo: En una encuesta se utilizó el muestreo por conveniencia para medir la apreciación que tienen los estudiantes de bachillerato a cerca de sus dificultades en el área de Matemáticas.

 GradodeDificultad=c("NINGUNO", "POCO", "MEDIO", "BASTANTE", "total")
frecuencia=c(15,59,90,22,186)
cbind(GradodeDificultad,frecuencia)

##      GradodeDificultad frecuencia
## [1,] "NINGUNO"         "15"      
## [2,] "POCO"            "59"      
## [3,] "MEDIO"           "90"      
## [4,] "BASTANTE"        "22"      
## [5,] "total"           "186"

Coloque los resultados en una tabla de frecuencias donde aparezca frecuencia absoluta, frecuencia relativa, frecuencia acumulada, frecuencia relativa acumulada, porcentaje y porcentaje acumulado.
Haga la interpretación de los datos.

Solución

En este caso, se colocan los datos en la tabla siguiente

 GradodeDificultad=c("NINGUNO", "POCO", "MEDIO", "BASTANTE", "total")
f=c(15,59,90,22,186)
Frec.Rel=round(f/186,2)
Porcentaje=Frec.Rel*100
Porc.acum=round(c(15/186*100,74/186*100,164/186*100,100,100),0)
cbind(GradodeDificultad, f, Frec.Rel, Porcentaje, Porc.acum)

##      GradodeDificultad f     Frec.Rel Porcentaje Porc.acum
## [1,] "NINGUNO"         "15"  "0.08"   "8"        "8"      
## [2,] "POCO"            "59"  "0.32"   "32"       "40"     
## [3,] "MEDIO"           "90"  "0.48"   "48"       "88"     
## [4,] "BASTANTE"        "22"  "0.12"   "12"       "100"    
## [5,] "total"           "186" "1"      "100"      "100"

El grado de dificultad más frecuente en Matemáticas, es el nivel medio con 90 respuestas. En la segunda frecuencia acumulada aparece 74; esto se interpreta como 74 estudiantes afirman que tienen poca o ninguna dificultad en Matemática. En el porcentaje 48.39 quiere decir que casi el 50%, que es la mayoría de estudiantes afirman tener una dificultad de nivel medio en Matemáticas. En el porcentaje acumulado de 88.17 significa que el 88.17% de estos estudiantes presentan como máximo un nivel medio de dificultad en Matemáticas, y esta jerarquía se produce porque la variable es cualitativa ordinal.

Ejemplo: Se tomó una muestra aleatoria de 21 asociaciones de un departamento de Colombia; los datos aparecen en datos abiertos Colombia, y se clasificaron por actividad como agrícola, ganadera o pesquera. Los datos aparecen a continuación.

Pesquera Agrícola Agrícola Ganadera Agrícola Ganadera Agrícola Agrícola Pesquera Agrícola Ganadera Ganadera Pesquera Agrícola Agrícola Ganadera Agrícola Agrícola Agrícola Agrícola Agrícola

Organice los datos en una tabla donde aparezca frecuencia, frecuencia relativa, frecuencia acumulada, frecuencia relativa acumulada, porcentaje y porcentaje acumulado.

Actividad=c("Agricola", "Ganadera", "Pesquera")
f=c(13, 5, 3)
cbind(Actividad,f)

##      Actividad  f   
## [1,] "Agricola" "13"
## [2,] "Ganadera" "5" 
## [3,] "Pesquera" "3"

Actividad=c("Agricola", "Ganadera", "Pesquera")
f=c(13, 5, 3)
fr=round(f/21,2)
F=c(13,18,21)
Fr=round(F/21,2)
p=fr*100
P=Fr*100
cbind(Actividad,f,fr,F,Fr,p,P)

##      Actividad  f    fr     F    Fr     p    P    
## [1,] "Agricola" "13" "0.62" "13" "0.62" "62" "62" 
## [2,] "Ganadera" "5"  "0.24" "18" "0.86" "24" "86" 
## [3,] "Pesquera" "3"  "0.14" "21" "1"    "14" "100"

Se observa que casi dos terceras partes de las asociaciones se dedican a actividades agrícolas. Casi la cuarta parte explota la ganadería.

Ejemplo 1

Se clasificó una muestra de 150 empresarios por el tipo de empresa, resultando en los siguientes:

Tipo de Empresa	Número de empresarios
Pequeña	45
Mediana	75
Grande	30

(a) Obtenga las frecuencias acumuladas, las frecuencias relativas y relativas acumuladas, los porcentajes y los porcentajes acumulados.

(b) ¿Qué porcentaje pertenece a los dos primeros tipos de empresa?

(c) ¿Qué porcentaje pertenece a los tipos mediana y grande?

Solución

(a) A continuación se completa la tabla:

Tipo	Frec.	Frec. Acum.	Frec. Rel.	Rel. Acum.	Porc.	Porc. Acum.
Pequeña	45	45	0.30	0.30	30	30
Mediana	75	120	0.50	0.80	50	80
Grande	30	150	0.20	1.00	20	100

(b)
El porcentaje de empresarios que pertenecen a los dos primeros tipos es del 80%, como se observa en el acumulado del tipo Mediana.

(c)
El porcentaje que pertenece a los tipos mediana o grande es:

\[ 50\% + 20\% = 70\% \]

Ejemplo 2

A continuación se presentan los causantes de accidentes de tránsito en un país latinoamericano:

Causante	No. de accidentes	Porcentaje
Conductor	3136	62.72%
Peatón	1701	34.02%
Carretera	96	1.92%
Auto	49	0.98%
Pasajero	18	0.36%
Total	5000	100%

Obtenga los siguientes porcentajes:

(a) Alguna de las dos causas más comunes.
(b) Que la causa involucre al conductor.
(c) Que ocurra alguna de las 3 causas menos importantes.

Solución

(a)
El porcentaje de que ocurra alguna de las dos causas más comunes es:

\[ 62.72\% + 34.02\% = 96.74\% \]

(b)
El porcentaje de accidentes que involucran al conductor es 62.72%, como se observa en la primera categoría.

(c)
El porcentaje de accidentes que involucra alguna de las tres causas menos importantes es:

\[ 1.92\% + 0.98\% + 0.36\% = 3.26\% \]

Se resalta que el principal causante de accidentes de tránsito es el conductor, con casi **2 de cada 3, de ellos.

Tabla de Contingencia

Una tabla de contingencia consiste en una tabla de dos o más entradas donde se presentan las frecuencias de aparición conjunta de dos o más variables categóricas.
El caso que se presenta en este texto es el de una tabla que maneja dos criterios: el primero con sus categorías en las filas y el segundo con sus categorías en las columnas.

Ejemplo

A continuación se tomó una muestra de 186 estudiantes, y se clasificó por el grado de escolaridad y la apreciación del nivel de dificultad en Matemáticas.

Grado / Dificultad	Ninguna	Poca	Media	Bastante	Total
Sexto	2	7	9	2	20
Octavo	7	14	14	4	39
Noveno	3	15	22	3	43
Décimo	1	13	16	4	34
Undécimo	2	10	29	9	50
Total	15	59	90	22	186

Determine los siguientes porcentajes:

a) Los estudiantes que presentan poco nivel de dificultad en Matemáticas.

b) Los estudiantes de sexto u octavo grado que presentan nivel medio o bastante nivel de dificultad en Matemáticas.

c) Los estudiantes de noveno, décimo o undécimo que presentan ninguno o poco nivel de dificultad en Matemáticas.

Solución

Con base en la información suministrada en la tabla, se tiene:

a)
Los estudiantes que presentan poco nivel de dificultad en Matemáticas son:

\[ \frac{59}{186} \times 100 = 31.72\% \]

b)
Los estudiantes de sexto u octavo que presentan nivel medio o bastante dificultad en Matemáticas son:

\[ \frac{9 + 2 + 14 + 4}{20 + 39} \times 100 = 49.15\% \]

c)
Los estudiantes de noveno, décimo o undécimo que presentan ninguno o poco nivel de dificultad en Matemáticas son:

\[ \frac{3 + 15 + 1 + 13 + 2 + 10}{43 + 34 + 50} \times 100 = 34.64\% \]

Ejemplo

En las instituciones públicas distritales de primaria se realizó una encuesta que clasificó a los estudiantes de acuerdo con la materia preferida, con el propósito de determinar si en todos los grados de primero a quinto grado todas las materias tienen la misma preferencia.

Realice el procedimiento para probar la hipótesis de que los grados son homogéneos con respecto a la preferencia por las distintas asignaturas en cuestión. Sustente su respuesta a través de una gráfica de barras agrupadas.

Materia / Grado	Primero	Segundo	Tercero	Cuarto	Quinto
Matemáticas	35	34	30	29	10
Biología	17	32	38	36	39
Sociales	23	35	31	24	19
Español	32	34	31	28	22
Educación Física	42	47	39	38	17

Solución

En la tabla se muestran los porcentajes condicionales por grado:

Materia / Grado	Primero	Segundo	Tercero	Cuarto	Quinto
Matemáticas	23%	19%	18%	19%	9%
Biología	11%	18%	22%	23%	36%
Sociales	15%	19%	18%	15%	18%
Español	21%	19%	18%	18%	21%
Educación Física	28%	26%	23%	25%	16%

Todas las columnas suman 100%, reflejando el porcentaje de cada grado que prefiere una materia específica.

Por ejemplo: - El 22% de los estudiantes de tercero prefieren Biología. - El 16% del grado quinto prefiere Educación Física. - El 23% del grado primero prefieren Matemáticas.

Se observa que las preferencias en esta encuesta no presentan una diferencia sistemática, sino una variación atribuible al azar.

Ejemplo

En una población: - $\frac{1}{3}$ de los individuos son casados - $\frac{1}{4}$ son solteros - $\frac{1}{5}$ son viudos - El resto son divorciados

Determine la fracción de divorciados y elabore una gráfica de pastel con los datos.

Solución

Dado que:

\[ \frac{1}{3} + \frac{1}{4} + \frac{1}{5} + x = 1 \]

\[ \frac{47}{60} + x = 1 \]

\[ x = \frac{13}{60} \]

Estado civil	Casado	Soltero	Viudo	Divorciado
Fracción	1/3	1/4	1/5	13/60
Porcentaje	33.3%	25%	20%	21.7%
Ángulo	120°	90°	72°	78°

Gráficos Cualitativos

Gráficos

Los gráficos principales que se utilizan con datos cualitativos son: el diagrama de barras, el diagrama de Pareto y el gráfico de pastel.

El diagrama de barras con datos nominales suele presentar las categorías en cualquier orden, cada categoría con su respectiva frecuencia o porcentaje.
Las categorías se ubican en el eje horizontal, separadas unas de otras, y se levanta una barra para cada categoría cuya altura sea proporcional a la frecuencia o al porcentaje.

El gráfico de Pareto es un gráfico de barras ordenadas por frecuencia de mayor a menor. Se utiliza para establecer cuántas y cuáles son las categorías principales de una variable. Su objetivo es identificar los pocos vitales y los muchos triviales.

Por último, el gráfico de pastel divide el círculo en sectores cuyo ángulo es proporcional al porcentaje de aparición de cada categoría.
El ángulo en grados sexagesimales se calcula como:

\[ A = f_r \times 360 \]

donde $f_r$ es la frecuencia relativa de la categoría.

Ejemplo

Con los datos de la muestra sobre el Gusto por las Matemáticas, elabore un gráfico de barras, un gráfico de Pareto y un gráfico de pastel, usando los totales.

Tenga presente las convenciones:
N = ninguno, P = poco, M = medio, B = bastante, S = superior.

Grado / Gusto por Matemáticas	N	P	M	B	S	Total
Sexto	0	2	10	8	0	20
Octavo	0	1	23	15	0	39
Noveno	1	3	23	16	0	43
Décimo	0	7	22	5	0	34
Undécimo	1	13	29	3	4	50
Total	2	26	107	47	4	186

Elabore también el gráfico de anillo. Explique cómo se elabora cada gráfico, mencionando sus principales propiedades.

A continuación, se presenta el gráfico de barras:

Gráfico de barras

El gráfico de barras para la variable ordinal Gusto por las Matemáticas se realiza manteniendo el orden natural de las categorías.
Se incluyen los siguientes elementos: - Eje horizontal: niveles de la variable
- Eje vertical: frecuencia, con escala constante
- Altura de cada barra: igual a la frecuencia de ocurrencia

Gráfico de Pastel

Gráfico de pastel

El gráfico de pastel para la variable Gusto por las Matemáticas se realiza con los porcentajes de cada categoría.
Se incluyen: - Niveles de la variable, asignando un color a cada uno
- Porcentajes, representados mediante sectores cuyo ángulo es proporcional a la frecuencia relativa

El área de cada sector es proporcional a la frecuencia de ocurrencia de la categoría.

Gráfico de Anillo

Gráfico de anillo

El gráfico de anillo para la variable ordinal Gusto por las Matemáticas se realiza con los porcentajes de cada categoría.
Cada corona representa un nivel de la variable, donde el área es proporcional a la frecuencia relativa.

Ejemplo

Realice la gráfica de Pareto y la gráfica de pastel para los causantes de accidentalidad.

Gráfico de Pareto

El gráfico de Pareto para la variable nominal causantes de accidentalidad se realiza con los porcentajes de cada categoría.
Los niveles se ordenan de mayor a menor, comenzando por las causas más importantes.
La altura de cada barra es proporcional a la frecuencia porcentual.

Gráfico de Pastel

Gráfico de pastel accidentalidad

En este gráfico se destacan los porcentajes principales con colores rosado y gris, correspondientes a Conductor y Peatón, con un porcentaje total del 96.74%.

Las causas de accidentalidad centran la atención principalmente en dos actores: el conductor y el peatón.
Aunque el problema se compone de diversas causas, estas pueden agruparse por responsable, y si bien no siempre se puede culpar al ser humano, en la mayoría de los casos sí ocurre.

Ejemplo

Se recogen datos de la materia favorita de los estudiantes en una institución.

Materia favorita	Frecuencia porcentual
Biología	18
Matemáticas	21
Sociales	18
Español	19
Educación Física	24

Realice una gráfica de pastel para estos datos.

Solución

En la gráfica se muestran los sectores correspondientes a cada materia preferida.

Gráfica de pastel: materia favorita

En este caso, se observa que las cinco materias presentan un favoritismo estadísticamente similar entre los estudiantes.
Aunque Biología y Sociales presentan porcentajes ligeramente menores, esta diferencia es irrelevante, ya que se trata de una población uniforme.

Ejemplo

Se realizan a un grupo de 100 estudiantes un total de 250 preguntas tipo Saber de Matemáticas, distribuidas en 50 preguntas por cada componente: Numérico, Métrico, Geométrico, Aleatorio y Variacional.
Los datos se resumen en la siguiente tabla:

Componente	Respuestas correctas
Numérico	33
Métrico	28
Geométrico	32
Aleatorio	31
Variacional	26

Realice una gráfica de pastel para estos datos.

Solución

Aunque la cantidad de respuestas correctas varía por componente, en este caso se puede obtener un porcentaje basado en el total de respuestas correctas.

a)

Componente	Porcentaje
Numérico	22.00%
Métrico	18.67%
Geométrico	21.33%
Aleatorio	20.67%
Variacional	17.33%

La gráfica de pastel se muestra a continuación:

Gráfica de pastel por componente

En esta gráfica se determina primero el porcentaje y luego el ángulo correspondiente a cada sector.
Las diferencias observadas son mínimas, lo cual sugiere que se trata de poblaciones similares. Desde el punto de vista estadístico, aun cuando las poblaciones sean iguales, es normal encontrar pequeñas diferencias en las muestras, las cuales obedecen al azar y no a un comportamiento sistemático o determinístico.

Ejemplo

Para los datos de las asociaciones del departamento del Atlántico, presente un gráfico de anillo y realice la interpretación del mismo.

Solución

A continuación se presenta la gráfica de anillo, donde se aprecian los porcentajes de las tres actividades consideradas en el conjunto de datos:

Gráfica de anillo de asociaciones

Como se observa, la mayoría de las asociaciones se dedican a la actividad agrícola, aproximadamente dos terceras partes.
Cerca del 25% de las asociaciones se dedican a la ganadería, mientras que una séptima parte está involucrada en la pesquería.

Por lo tanto: - 2 de cada 3 asociaciones se dedican a la agricultura. - 1 de cada 4 se dedica a la ganadería. - 1 de cada 7 se dedica a la pesquería.

La gráfica de anillo utiliza coronas en lugar de sectores, manteniendo una división similar a la del gráfico de pastel, lo que facilita la comparación visual de las proporciones.

Problemas

(1)

Se ha clasificado un grupo de 186 estudiantes según categorías de edades.
Con base en los datos, elabore una tabla donde aparezca: frecuencia relativa, frecuencia acumulada, frecuencia relativa acumulada, porcentaje, porcentaje acumulado y ángulo.
Interprete sus resultados.

Categoría	No. de estudiantes
Alevines	15
Infantil	47
Cadetes	81
Juveniles	43
Total	186

(2)

De la encuesta a 186 estudiantes, se mide el tiempo que dedican al lenguaje en cuatro categorías.
Con base en los datos, elabore una tabla donde aparezca: frecuencia acumulada, frecuencia relativa, frecuencia relativa acumulada, porcentaje y porcentaje acumulado.

Tiempo dedicado	No. de estudiantes
Insuficiente	68
Poco	75
Medio	32
Bastante	11
Total	186

(3)

Se estudia la cantidad de materias que les gusta a un grupo de estudiantes de bachillerato.
El número de estudiantes por grupo se ha tabulado a continuación:

Grupo	No. de estudiantes
Mínimo	41
Poco	93
Medio	26
Bastante	15
Máximo	11

Con base en los datos, elabore una tabla donde aparezca: frecuencia acumulada, frecuencia relativa, frecuencia relativa acumulada, porcentaje y porcentaje acumulado.

(4)

Un profesor clasifica los estudiantes varones que van a participar en un torneo de futsal y los discrimina por grado y por su preferencia hacia los estudios, como se muestra en la tabla:

Grado / Preferencia	Ninguno o poco	Medio o bastante
Sexto	7	7
Octavo	9	8
Noveno	15	12
Décimo	10	5
Undécimo	22	5

Con base en los datos, elabore una tabla donde aparezca: frecuencia, frecuencia relativa, frecuencia acumulada, frecuencia relativa acumulada, porcentaje y porcentaje acumulado por grado.

Defina los porcentajes de preferencia a nivel global.

(5)

En 10 cursos de primaria de un colegio distrital se clasificaron los estudiantes de acuerdo con el desempeño académico: insuficiente, básico, sobresaliente y superior.

Grupo	Insuficiente	Básico	Sobresaliente	Superior	Total
Primero	35	17	10	6	68
Segundo	40	15	8	5	68
Tercero	38	19	7	4	68
Cuarto	32	21	9	6	68
Quinto	36	15	9	8	68

¿Qué porcentaje de estudiantes de primero está en nivel insuficiente?
Indique si las poblaciones son homogéneas.

(6)

En una pequeña ciudad se realizó una encuesta que clasificó a los individuos de la muestra por estrato y por ingresos, con el propósito de determinar si este último está ligado a la zona de residencia.

Determine los porcentajes condicionales por estrato.

Estrato / Ingreso	2–3	3–4	5–6	6 y más
I	150	80	35	9
II	85	90	20	8
III	70	70	38	17
IV	30	98	135	28
V	20	65	40	67
VI	10	35	50	100

(7)

En una escuela de primaria se realizó una encuesta que clasificó a los estudiantes por estrato y por grado, con el propósito de determinar si los grados de primero a quinto contienen exactamente las mismas proporciones de estudiantes de cada estrato.

Realice el procedimiento para encontrar los porcentajes globales.

Estrato / Grado	Primero	Segundo	Tercero	Cuarto	Quinto
I	105	108	97	119	118
II	58	57	55	50	59
III	37	34	35	28	33
IV	28	23	10	15	9
V o VI	12	10	14	11	20

Cuantitativos

En este capítulo se hace un análisis de datos agrupados, usando un método de suavización para originar histogramas monótonos, es decir, curvas semejantes a un proceso gamma, relacionadas con una curva que crece y decrece de manera permanente.

Porcentajes

En esta sección se estudiarán los porcentajes dentro de un intervalo o alusivos a una región de una recta numérica.

Ejemplo

Una persona realiza una compra de 250 artículos, con el propósito de obtener la distribución de los gastos.
Los resultados aparecen en la siguiente tabla:

Cantidad de salarios	Cantidad de artículos
[1 – 3)	55
[3 – 5)	125
[5 – 7)	50
[7 – 9)	20

a) Obtenga el porcentaje de artículos que tienen un gasto de menos de 3 salarios.

b) Halle el porcentaje de artículos que tienen un costo de 3 o más, pero menos de 5 salarios.

Solución

a)
La cantidad total de artículos en la encuesta es 250.
El número de artículos con menos de 3 salarios es 55.
Por lo tanto, el porcentaje es:

\[ P = \frac{55}{250} \times 100 = 22\% \]

b)
El número de artículos con un costo de 3 o más salarios, pero menos de 5, es 125.
Luego, el porcentaje correspondiente es:

\[ P = \frac{125}{250} \times 100 = 50\% \]

La mitad de los artículos tienen un costo entre 3 y menos de 5 salarios.

Ejemplo

En una estación de buses se observa la llegada de 120 buses.
El número de horas que tardaron en llegar se registra en la siguiente tabla:

Cantidad de horas	Cantidad de buses
[0 – 3)	90
[3 – 8)	27
[8 – 10]	3

a) Obtenga el número de buses que llegaron en menos de 3 horas.

b) Obtenga el porcentaje de buses que demoraron en llegar a la estación de 3 a menos de 8 horas.

Solución

a)
El número total de buses observados es 120.
Los buses que tardaron menos de 3 horas fueron 90.

\[ P = \frac{90}{120} \times 100 = 75\% \]

b)
El número de buses que tardaron de 3 a menos de 8 horas en llegar a la estación fue 27.

\[ P = \frac{27}{120} \times 100 = 22.5\% \]

El 22.5% de los buses demoraron entre 3 y menos de 8 horas en llegar a la estación.

Ejemplo

El siguiente diagrama de tallo y hojas representa la cantidad de gastos en servicio de gas que perciben los individuos de una población.

Tallo	Hojas
6	5 5 6 6
7	1 1 2 2 7 7
8	0 1 3 5 6 6 8 8 9
9	2 2 3 3 4 6 9
10	1 1 5 5 6

a) Calcule los porcentajes de cada intervalo de tallo.
b) Halle el porcentaje de individuos que caen en alguno de los dos primeros tallos.

Solución

a) Porcentaje de cada intervalo de tallo:

Clases	Porcentaje
60 – 69	12.90 %
70 – 79	19.35 %
80 – 89	29.03 %
90 – 99	22.58 %
100 – 110	16.13 %

b) Porcentaje en los dos primeros tallos:

\[ 12.90\% + 19.35\% = 32.25\% \]

Ejemplo

Distribución de frecuencias de salarios semanales para 90 trabajadores por prestación de servicios:

Salario Semanal	Número de trabajadores
[1 – 1.2)	36
[1.2 – 1.4)	18
[1.4 – 1.6)	15
[1.6 – 1.8)	12
[1.8 – 2.0)	6
[2.0 – 2.2)	3

a) Halle el porcentaje de trabajadores con salarios entre 1.2 y 1.8.
b) Determine el porcentaje de trabajadores que superan los 1.8 salarios.
c) Determine la fracción de trabajadores que superan los 1.6 salarios.

Solución

a)
Número total de trabajadores: 90
Trabajadores con salarios entre 1.2 y 1.8: 18 + 15 + 12 = 45

\[ P = \frac{45}{90} \times 100\% = 50\% \]

b)
Trabajadores con salarios superiores a 1.8: 6 + 3 = 9

\[ P = \frac{9}{90} \times 100\% = 10\% \]

El 10% de los trabajadores tiene salarios superiores a 1.8.

c)
Trabajadores con salarios de 1.6 o más: 12 + 6 + 3 = 21

\[ P = \frac{21}{90} \times 100\% \approx 23.3\% \]

El 23.3% de los trabajadores tienen salarios de 1.6 o más.

Tablas agrupadas

Una tabla muy útil es la tabla de frecuencias agrupadas, la cual, en muchos casos se elabora con intervalos de clases de igual amplitud.

Los pasos para construir una tabla de frecuencias agrupadas son:

Hallar el rango
\[ R = \text{dato mayor} - \text{dato menor} \]
Hallar el número de clases
\[ c = 3.3 \log(n) + 1 \]
(regla de Sturges; se redondea al entero más cercano)
Hallar la amplitud
\[ w = \frac{R}{c} \]
(el rango dividido por el número de clases; se recomienda redondearlo a la unidad siguiente según el número de cifras)
Hallar los límites de clase

Primera clase: $L_1 = \text{dato menor}$
Siguientes límites:
\[ L_2 = L_1 + w, \quad L_3 = L_2 + u, \dots \]
donde $u$ es la unidad decimal de medida de los datos. Se obtienen las $c$ clases sumando la amplitud sucesivamente.
Intervalos:
\[ L_1 - L_2, \quad L_2 + u - L_3, \quad \dots, \quad L_c + u - L_{c+1} \]

Para determinar la frecuencia se usa una columna de marcas de cuenta. Las marcas de clase se obtienen como el promedio de los límites inferior y superior de cada clase.

Ejemplo 1

Se presentan los gastos en papelería de una muestra de 50 estudiantes (valores en dólares):

14.2, 15.1, 18.4, 19.5, 20.5, 21.3, 23.1, 24.1, 26.9, 27.4,
29.1, 30.4, 33.3, 36.2, 37.0, 37.1, 37.1, 38.7, 41.7, 42.4,
43.7, 44.1, 45, 45.4, 46.5, 47.8, 49.4, 49.8, 50.4, 53.5,
53.6, 54.5, 55.9, 56.2, 58.6, 60.3, 61.4, 69.7, 73.6, 74.2,
76.2, 76.9, 79.1, 80.9, 83.7, 91.5, 94, 95.9, 102, 129.9

Solución

Rango:
\[ R = X_{\text{max}} - X_{\text{min}} = 129.9 - 14.2 = 115.7 \]
Número de clases:
\[ c = 1 + 3.3 \log(50) = 6.6 \approx 7 \]
Amplitud:
\[ w = \frac{R}{c} = \frac{115.7}{7} \approx 16.6 \]
Clases y frecuencias:

Clase	Límite inferior	Límite superior	f
1	14.2	30.8	12
2	30.9	47.5	13
3	47.6	64.2	12
4	64.3	80.9	7
5	81.0	97.6	4
6	97.7	114.3	1
7	114.4	131.0	1

Estos límites se conocen como límites nominales, porque de clase a clase hay un salto de 0.1.

La segunda clase (30.9 – 47.5) presenta la mayor concentración de datos, con 13 estudiantes.

Ejemplo: Distribución de costos de un artículo

Se presentan los costos de un artículo en una muestra aleatoria de 35 localidades del departamento. Los costos se expresan en miles de pesos:

516.71, 548.72, 510.53, 401.39, 470.86, 553.23, 463, 472.95, 451.39, 593.77,
339.13, 513.58, 550.56, 482.46, 486.35, 442.97, 468.31, 593.49, 437.03, 482.78,
396.84, 503.91, 423.29, 511.14, 500.86, 519.33, 526.56, 444.11, 400.79, 500.02,
467.96, 509.52, 705.16, 511.62, 448.63

Solución

Rango:
\[ R = X_{\text{max}} - X_{\text{min}} = 705.16 - 339.13 = 366.03 \]
Número de clases:
\[ c = 1 + 3.3 \log(35) = 6.09 \approx 6 \]
(se redondea al entero más cercano)
Amplitud:
\[ w = \frac{R}{c} = \frac{366.03}{6} \approx 61.01 \]
(se redondea a la centésima siguiente)
Clases y frecuencias:

Clase	Límite inferior	Límite superior	f
1	339.13	400.14	2
2	400.15	461.16	8
3	461.17	522.18	18
4	522.19	583.20	4
5	583.21	644.22	2
6	644.23	705.24	1

Estos límites se conocen como límites nominales, porque de clase a clase hay un salto de 0.01, es decir, un salto de una centésima.

Las clases tienen igual amplitud y están ordenadas desde el valor mínimo hasta un valor generalmente superior al máximo pero muy próximo a este.

La tercera clase (461.17 – 522.18) presenta la mayor concentración de datos, con un total de 18 localidades.

Gráficos Cuantitativos

Para variables cuantitativas unidimensionales, las gráficas que se usan principalmente son el histograma, el polígono de frecuencias y la ojiva.

Histograma

El histograma que más se utiliza es aquel que representa frecuencias o porcentajes absolutos; de este modo, permite visualizar la distribución de una variable cuantitativa.

Ejemplo 1

Con ayuda de la siguiente tabla de frecuencias agrupadas, trace el histograma y comente:

Cantidad de salarios	Cantidad de artículos
1 - 3	55
3 - 5	125
5 - 7	50
7 - 9	20

El siguiente es el histograma de frecuencias absolutas para la distribución de la cantidad de salarios por artículo:

Se observa que la cantidad de salarios más sobresalientes por artículo es de 3 a 5.

Ejemplo 2

Con ayuda de la siguiente tabla de frecuencias agrupadas, trace el histograma y comente:

Cantidad de horas	Cantidad de buses
0 - 3	90
3 - 8	27
8 - 10	3

El siguiente es el histograma de frecuencias absolutas:

Se observa que la cantidad de horas más sobresalientes de llegada de los buses es de 0 a 3.
En este caso, se están empleando intervalos semiabiertos. La gráfica tiene intervalos de distinto ancho, por lo que se redefine la frecuencia, manteniendo constante el área de cada barra.

Ejemplo 3

Con ayuda de la tabla de frecuencias agrupadas de gastos en servicios de gas, trace el histograma y comente:

Clases	Porcentaje
60 - 69	12.90%
70 - 79	19.35%
80 - 89	29.03%
90 - 99	22.58%
100 - 110	16.13%

El siguiente es el histograma de frecuencias absolutas:

Se observa que la cuarta clase es la más sobresaliente, esto es, 80 a 89.
Esta distribución es asimétrica a la izquierda.

Ejemplo 1

Con ayuda de la siguiente tabla de frecuencias agrupadas, trace el histograma y comente:

Salario Semanal	Número de trabajadores
1 - 1.2	36
1.2 - 1.4	18
1.4 - 1.6	15
1.6 - 1.8	12
1.8 - 2.0	6
2.0 - 2.2	3

El siguiente es el histograma de frecuencias absolutas:

Se observa que la primera clase es la más sobresaliente, esto es, de 1 a 1.2.
Esta distribución es asimétrica a la derecha, ya que presenta una cola a la derecha, evidenciando que la frecuencia de los intervalos de clase va disminuyendo al aumentar la variable.

Ejemplo 2

Los siguientes datos representan los gastos en papelería mensuales, en miles de pesos, de un grupo de 60 estudiantes.
Con ayuda de la siguiente tabla de frecuencias agrupadas, trace el histograma y comente:

Clases	Frecuencia
6 - 12	22
12 - 18	15
18 - 24	12
24 - 30	6
30 - 36	3
36 - 42	2

El siguiente es el histograma de frecuencias absolutas:

Se observa que la primera clase es la más sobresaliente, esto es, de 6 a menos de 12.
Esta distribución es asimétrica a la derecha, ya que presenta una cola hacia la derecha, evidenciando que la frecuencia de los intervalos de clase tiende a ir disminuyendo de izquierda a derecha.

Polígono

Los polígonos de frecuencias permiten representar la forma de la distribución de los datos agrupados.
En algunos casos, suele reemplazarse con una curva de densidad suavizada.

Ejemplo 1

Con ayuda de la tabla de frecuencias agrupadas del ejemplo 2.1, trace el polígono de frecuencias y comente.

Cantidad de salarios	Marca de Clase	Cantidad de artículos
	0	0
1 - 3	2	55
3 - 5	4	125
5 - 7	6	50
7 - 9	8	20
	10	0

El siguiente es el polígono aproximado de frecuencias absolutas para la distribución de la cantidad de salarios por artículo:

Se observa que la cantidad de salarios más sobresalientes es 4, correspondiente al centro del intervalo.

Ejemplo 2

Con ayuda de la tabla de frecuencias agrupadas del ejemplo 2.2, trace el polígono de frecuencias y comente.

Cantidad de horas	Cantidad de buses
0 - 3	90
3 - 8	27
8 - 10	3

Primero, se reacomodan las clases y se colocan las marcas de clase:

Cantidad de horas	Marca de Clase	Cantidad de buses
	0	0
0 - 3	1.5	60
3 - 8	5.5	10.8
8 - 10	9	3
	11	0

El siguiente es el polígono aproximado de frecuencias absolutas:

Se observa que la cantidad de horas más sobresalientes por bus es 1.5.
Además, la distribución tiene sesgo positivo.
Aquí también se utilizó la corrección del histograma.

Ejemplo 3

Con ayuda de la siguiente tabla de frecuencias agrupadas, trace el polígono de frecuencias y comente:

Clases	Porcentaje
60 - 69	12.90%
70 - 79	19.35%
80 - 89	29.03%
90 - 99	22.58%
100 - 110	16.13%

Primero, se reacomodan los valores de la tabla con marcas de clase:

Clases	Marca de Clase	Porcentaje
	55	0
60 - 69	65	12.90%
70 - 79	75	19.35%
80 - 89	85	29.03%
90 - 99	95	22.58%
100 - 109	105	16.13%
	115	0

El siguiente es el polígono de frecuencias:

Se observa que la clase de 80 a 89 es la más sobresaliente, esto es, la marca de clase 85.
Esta distribución es simétrica, ya que los valores hacia los extremos igualmente distanciados del centro parecen tener igual frecuencia.

Ejemplo: Polígono de frecuencias para gastos en papelería

Con ayuda de la tabla de frecuencias agrupadas siguiente, trace el polígono de frecuencias y comente:

Clases	Frecuencia
[6 - 12)	22
[12 - 18)	15
[18 - 24)	12
[24 - 30)	6
[30 - 36)	3
[36 - 42)	2

Solución

Primero, se forma la tabla con las marcas de clase:

Clases	Marca de Clase	Frecuencia
	3	0
[6 - 12)	9	22
[12 - 18)	15	15
[18 - 24)	21	12
[24 - 30)	27	6
[30 - 36)	33	3
[36 - 42)	39	2
	45	0

El siguiente es el polígono de frecuencias absolutas:

Se observa que la primera clase es la más sobresaliente, esto es, la marca de clase 9.
Esta distribución es asimétrica a la derecha, evidenciando que la frecuencia de las marcas de clase va disminuyendo.

Ojiva

La ojiva es el polígono de frecuencias acumuladas, que se asocia a los percentiles de la distribución.

Ejemplo 1: Cantidad de salarios por artículo

Con ayuda de la tabla de frecuencias agrupadas siguiente, trace la ojiva y comente:

Cantidad de salarios	Cantidad de artículos
[1-3)	55
[3-5)	125
[5-7)	50
[7-9)	20

Solución

Primero, se colocan las fronteras superiores de clase y sus porcentajes acumulados:

Fronteras superiores	Porcentaje acumulado
1	0
3	22
5	72
7	92
9	100

El siguiente es el polígono de frecuencias acumuladas (ojiva):

Se utilizan las fronteras superiores y los porcentajes acumulados para construir esta gráfica.

Con ayuda de la gráfica, se puede medir el primer cuartil, Q₁, por interpolación entre los puntos $P(3, 22)$ y $Q(5, 72)$:

La pendiente es $m = \frac{72-22}{5-3} = 25$.
La recta en forma punto-pendiente: $y - y_1 = m(x - x_1)$ → $y - 22 = 25(x - 3)$.
Para $y = 25$, se obtiene $x = 3.12$.

Esto indica que el 25% de los artículos tiene un valor de 3.12 salarios o menos, es decir, $Q_1 = 3.12$.

Ejemplo 2: Cantidad de horas de llegada de buses

Con ayuda de la tabla de frecuencias agrupadas siguiente, trace la ojiva y comente:

Cantidad de horas	Cantidad de buses
[0-3)	90
[3-8)	27
[8-10]	3

Solución

Primero se ponen las fronteras superiores con sus respectivas frecuencias acumuladas:

Fronteras superiores	Porcentaje acumulado
0	0
3	75
8	97.5
10	100

El siguiente es el polígono de frecuencias acumuladas (ojiva):

Aquí se usan los porcentajes acumulados, pero también se pueden calcular las frecuencias acumuladas.

Para determinar el cuarto decil (D₄), se usa interpolación entre los puntos $P(0, 0)$ y $Q(3, 75)$:

La pendiente es $m = \frac{75-0}{3-0} = 25$.
Recta punto-pendiente: $y - y_1 = m(x - x_1)$ → $y = 25x$.
Para $y = 40$, se obtiene $x = 1.6$.

Esto indica que el 40% de los buses llega en 1.6 horas o menos, es decir, $D_4 = 1.6$.

Ojiva

La ojiva es el polígono de frecuencias acumuladas, que se asocia a los percentiles de la distribución.

Ejemplo 1: Gastos en servicio de gas

Con ayuda de la tabla de frecuencias agrupadas siguiente, trace la ojiva y comente.
Tenga en cuenta que la variable representa los gastos en servicio de gas, en miles de pesos.

Clases	Porcentaje
60 - 69	12.90%
70 - 79	19.35%
80 - 89	29.03%
90 - 99	22.58%
100 - 110	16.13%

Solución

Primero, se colocan las fronteras superiores con los porcentajes acumulados:

Fronteras Superiores	Porcentaje Acumulado
60	0
70	12.9%
80	32.25%
90	61.28%
100	83.86%
110	100%

El siguiente es el polígono de frecuencias acumuladas (ojiva):

Se observa que la ojiva tiene una tendencia aproximadamente recta, lo cual implica un crecimiento uniforme.

Para obtener la mediana (Q₂) se usa interpolación entre los puntos $P(80, 32.25)$ y $Q(90, 61.28)$:

Pendiente: $m = \frac{61.28 - 32.25}{90 - 80} = 2.903$
Recta punto-pendiente: $y - y_1 = m(x - x_1)$ → $y - 32.25 = 2.903(x - 80)$
Para $y = 50$, se obtiene $x = 86.11$

Esto indica que el 50% de los usuarios tiene gastos de 86,110 o menos, es decir, $Q_2 = 86.11$.

Ejemplo 2: Salario semanal de trabajadores

Con ayuda de la tabla de frecuencias agrupadas siguiente, trace la ojiva y comente:

Salario Semanal	Número de trabajadores
[1-1.2)	36
[1.2-1.4)	18
[1.4-1.6)	15
[1.6-1.8)	12
[1.8-2.0)	6
[2.0-2.2)	3

Solución

Primero, se colocan las fronteras superiores con los porcentajes acumulados:

Fronteras Superiores	Porcentaje Acumulado
1	0
1.2	40
1.4	60
1.6	76.7
1.8	90
2.0	96.7
2.2	100

El siguiente es el polígono de frecuencias acumuladas (ojiva):

Se observa que el crecimiento es decreciente, indicando que la distribución está sesgada positivamente.

Para determinar el percentil de un salario y = 1.65, se usa interpolación entre los puntos $P(1.6, 76.7)$ y $Q(1.8, 90)$:

Pendiente: $m = \frac{90 - 76.7}{1.8 - 1.6} = 66.7$
Recta punto-pendiente: $y - y_1 = m(x - x_1)$ → $y = 76.7 + 66.7(x - 1.6)$
Para $x = 1.65$, se obtiene $y = 80.03$

Esto indica que un salario semanal de 1.65 corresponde aproximadamente al percentil 80.03.

Problemas

Se realiza una encuesta a 186 estudiantes para saber el tiempo diario dedicado al estudio del área de Lenguaje. Los resultados aparecen en la tabla:

Tiempo de estudio	No. de estudiantes
Menos de 10 min.	68
Entre 10 y 20 min.	75
Entre 20 y 60 min.	32
Más de 60 min.	11
Total	186

Obtenga el porcentaje de estudiantes que dedican menos de 10 minutos diarios al estudio del área de Lenguaje.
Halle el porcentaje de estudiantes que dedican más de 20 minutos al estudio del área señalada.

En un campeonato de fútbol se clasificó a un grupo de 186 niños por categoría de edades. El número de niños por categoría se registra en la tabla:

Edad	No. de estudiantes
[10-13)	15
[13-15)	47
[15-17)	81
[17-20]	43
Total	186

Obtenga el número de niños y su porcentaje de menos de 15 años.
Obtenga los porcentajes de los niños con 13 años o más.

El siguiente diagrama de tallo y hojas representa la cantidad de salarios que perciben los individuos de una población:

Tallo	Hojas
1	2 3 4 4 5 5 6 6
2	1 1 2 2 3 3 4 5 7 7
3	0 0 0 1 1 3 5 5 6 6 8 8 8 9
4	2 2 3 3 4 4 5 5 6 9
5	1 1 3 4 5 5 6 9

Organice los datos en una tabla de frecuencias agrupadas.
Calcule los porcentajes de cada intervalo de clase.
Halle el porcentaje de individuos que caen en alguna de las dos primeras clases.

En la siguiente tabla aparece una distribución de frecuencias de salarios diarios para 100 empleados de una compañía:

Salario diario (miles de pesos)	Número de trabajadores
40-54	5
55-69	22
70-84	38
85-99	20
100-114	13
115-130	2

Halle el porcentaje de trabajadores con salarios entre 55 y 99 miles de pesos.
Determine el porcentaje de trabajadores que superan los 84 000 pesos.
Determine la fracción de trabajadores que superan los 69 000 pesos.

Diagrama de tallo y hojas de calificaciones obtenidas por un grupo de estudiantes:

Tallo	Hojas
5	2 3 4 4 5
6	1 1 2 2 3 3 4
7	0 0 0 1 1 3 5 5 6 6 8
8	2 2 3 3
9	1 7

Organice los datos en una tabla de frecuencias agrupadas.
Calcule los porcentajes de cada intervalo de clase.
Halle el porcentaje de individuos que caen en alguna de las dos primeras clases.
Obtenga el número de estudiantes con calificaciones menores que 85 y mayores o iguales que 66.
Encuentre el porcentaje de estudiantes con calificaciones mayores que 65, pero menores que 85.
Obtenga el porcentaje de estudiantes que no aprobaron esta actividad (mínimo 60).

Distribución de salarios semanales de empleados de la empresa Fundadores (en miles de pesos):

Tallo	Hojas
50	0 0
62	0 0 2 3 3
75	0 0 0 5 6 6
81	2 2 3
95	0

Halla el porcentaje de empleados que tienen salarios menores o iguales a 622 mil pesos.
Determine la distribución agrupada de los datos, usando 5 clases.
Determine el porcentaje de empleados que caen en las dos últimas clases.

Tiempos (en horas) que un grupo de 38 estudiantes dedica diariamente a las redes:

Cantidad de horas	Número de estudiantes
[0-1)	3
[1-2)	4
[2-3)	7
[3-4)	9
[4-5)	5
[5-6)	4
[6-7)	3
[7-8)	2
[8-10]	1

Obtenga el porcentaje de estudiantes cuyo tiempo diario dedicado a las redes supera las 4 horas.
Halle el porcentaje de estudiantes cuyo tiempo dedicado a las redes es inferior a 5 horas.
Encuentre el porcentaje de estudiantes cuyo tiempo dedicado a las redes se halla entre 5 y 8 horas.
¿Cuántos estudiantes estima que utilizan las redes entre 8 y 10 horas, en un grupo de 760?

Organice los datos en una tabla de frecuencias agrupadas:

`49.78, 38.30, 38.31, 57.95, 54.47, 86.65, 51.47, 63.45, 99.17,

78.39, 32.71, 83.63, 51.17, 77.32, 62.16, 35.94, 90.32, 65.25,

75.70, 87.89, 70.20, 38.14, 72.78, 98.22`

Halle el porcentaje de valores por encima de 50.
Halle el porcentaje de valores entre 45 y 75.
Determine el porcentaje de valores por debajo de 60.
Muestre el porcentaje que cae dentro de cada clase.

Organice los datos en una tabla de frecuencias agrupadas:

`114.2, 115.1, 118.4, 129.5, 220.5, 211.3, 223.1, 214.1, 236.9,

217.4, 259.1, 310.4, 333.3, 356.2, 367.0, 317.1, 387.1, 328.7,

401.7, 242.4, 343.7, 144.1, 145, 245.4, 346.5, 247.8, 149.4, 149.8,

250.4, 353.5, 453.6, 154.5, 255.9, 356.2, 458.6, 360.3, 261.4,

169.7, 373.6, 174.2, 476.2, 176.9, 379.1, 280.9, 183.7, 191.5, 494,

395.9, 172.8, 129.9`

Halle el porcentaje de valores por encima de 150.
Halle el porcentaje de valores entre 151 y 163.
Determine el porcentaje de valores por debajo de 176.
Muestre el porcentaje que cae dentro de cada clase.

Probabilidades Simples

Se entiende por probabilidad simple aquella que deriva de un experimento sencillo como lanzar un dado ó escoger una ficha al azar de un grupo de 10 fichas rotuladas.

Para entender la idea de evento simple y experimento sencillo se trabaja el enfoque de probabilidad clásica con experimentos de una sola clase, sin combinaciones.

Se consideran ejemplos de éstos: el lanzamiento de un dado corriente, la selección aleatoria de una ficha de una mochila que contiene fichas numeradas de 1 a 10.

Ejemplo: Considere que se lanza un dado corriente. Obtenga los siguientes eventos y sus probabilidades:

A: “Obtener un puntaje impar”.
B: “Obtener un puntaje múltiplo de 3”.
C: “Obtener un puntaje menor que 4”.
D: “Obtener un puntaje divisor de 20”.
E: “Obtener un puntaje de 5”.

Solución

El espacio muestral del experimento es $S=\{1, 2, 3, 4, 5, 6\}$. El evento A es $A=\{1, 3, 5\}$. La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, $P(A)=\frac{\#A}{\#S}$, esto origina $P(A)=\frac{3}{6}$, la probabilidad de A es $\frac{1}{2}$. Se espera que el 50% de las veces caiga impar.
El espacio muestral del experimento es $S=\{1, 2, 3, 4, 5, 6\}$. El evento B es $B=\{3, 6\}$. La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, $P(B)=\frac{\#B}{\#S}$, esto origina $P(B)=\frac{2}{6}$, la probabilidad de B es $\frac{1}{3}$. Se espera que la tercera parte de las veces caiga múltiplo de 3.
El espacio muestral del experimento es $S=\{1, 2, 3, 4, 5, 6\}$. El evento C es $C=\{1, 2, 3\}$. La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, $P(C)=\frac{\#C}{\#S}$, esto origina $P(C)=\frac{3}{6}$, la probabilidad de C es $\frac{1}{2}$. Se espera que el 50% de las veces caiga un puntaje inferior a 4.
El espacio muestral del experimento es $S=\{1, 2, 3, 4, 5, 6\}$. El evento D es $D=\{1, 2, 4, 5\}$. La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, $P(D)=\frac{\#D}{\#S}$, esto origina $P(D)=\frac{4}{6}$, la probabilidad de D es $\frac{2}{3}$. Se espera que las dos terceras partes de las veces caiga un puntaje divisor de 20.
El espacio muestral del experimento es $S=\{1, 2, 3, 4, 5, 6\}$. El evento E es $E=\{5\}$. La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, $P(E)=\frac{\#E}{\#S}$, esto origina $P(E)=\frac{1}{6}$, la probabilidad de E es $\frac{1}{6}$. Se espera que la sexta parte de las veces caiga 5.

Los eventos A y C son equiprobables.

Ejemplo: Considere que se lanza un dado corriente. Obtenga los siguientes eventos y sus probabilidades:

A: “Obtener un puntaje impar y mayor que 2”.
B: “Obtener un puntaje múltiplo de 3 y menor que 5”.
C: “Obtener un puntaje menor que 4 o impar”.
D: “Obtener un puntaje divisor de 20 y de 25”.
E: “Obtener un puntaje mayor de 4 ó impar”.

Solución

La Conjunción “y” de dos proposiciones implica las dos condiciones al tiempo o simultáneamente. La disyunción “o” de dos proposiciones se usa para la unión de los dos eventos definidos por las mismas. De este modo, se tiene:

El espacio muestral del experimento es $S=\{1, 2, 3, 4, 5, 6\}$. El evento A es $A=\{3, 5\}$. La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, $P(A)=\frac{\#A}{\#S}$, esto origina $P(A)=\frac{2}{6}$, la probabilidad de A es $\frac{1}{3}$. Se espera que el 33.33% de las veces caiga impar y mayor que 2.
El espacio muestral del experimento es $S=\{1, 2, 3, 4, 5, 6\}$. El evento B es $B=\{3\}$. La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, $P(B)=\frac{\#B}{\#S}$, esto origina $P(B)=\frac{1}{6}$, la probabilidad de B es $\frac{1}{6}$. Se espera que la sexta parte de las veces caiga múltiplo de 3 y menor que 5.
El espacio muestral del experimento es $S=\{1, 2, 3, 4, 5, 6\}$. El evento C es $C=\{1, 2, 3, 5\}$. La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, $P(C)=\frac{\#C}{\#S}$, esto origina $P(C)=\frac{4}{6}$, la probabilidad de C es $\frac{2}{3}$. Se espera que el 66.66% de las veces caiga un puntaje inferior a 4 ó impar.
El espacio muestral del experimento es $S=\{1, 2, 3, 4, 5, 6\}$. El evento D es $D=\{1, 5\}$. La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, $P(D)=\frac{\#D}{\#S}$, esto origina $P(D)=\frac{2}{6}$, la probabilidad de D es $\frac{1}{3}$. Se espera que la tercera parte de las veces caiga un puntaje divisor de 20 y de 25.
El espacio muestral del experimento es $S=\{1, 2, 3, 4, 5, 6\}$. El evento E es $E=\{1, 3, 5, 6\}$. La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, $P(E)=\frac{\#E}{\#S}$, esto origina $P(E)=\frac{4}{6}$, la probabilidad de E es $\frac{2}{3}$. Se espera que las dos terceras partes de las veces caiga puntaje mayor de 4 ó impar.

Los eventos A y D son equiprobables, también C y E.

Ejercicio 1: En el siguiente listado de eventos, forme grupos de eventos equiprobables y diga en forma organizada, la probabilidad por grupos.

Evento A: Obtener un número par no primo

Evento B: Obtener un número impar y múltiplo de 3

Evento C: Obtener un número mayor que 4

Evento D: Obtener un número menor o igual a 3

Evento E: Obtener un múltiplo de 3

Evento F: Obtener un número primo

Evento G: Obtener un número igual a 1

Evento H: Obtener un número diferente de 6

Evento I: Obtener un número entre 2 y 5 (inclusive)

Evento J: Obtener un número mayor o igual que 6

Evento K: Obtener un número igual a 4

Evento L: Obtener un número mayor que 2

Evento M: Obtener un número divisible por 2 o 3

Evento N: Obtener un número menor que 5

Evento O: Obtener un número mayor que 1 y menor que 6

Evento P: Obtener un número par mayor que 3

Evento Q: Obtener un número impar menor que 5

Evento R: Obtener un número que sea cuadrado perfecto

Evento S: Obtener un número mayor que 1 y divisible por 5

Evento T: Obtener un número menor o igual que 1

Ejemplo: Considere que se selecciona al azar una cánica de un grupo de 10, marcadas del 1 al 10. Obtenga los siguientes eventos y sus probabilidades:

A: “Obtener un puntaje impar”.
B: “Obtener un puntaje múltiplo de 3”.
C: “Obtener un puntaje menor que 4”.
D: “Obtener un puntaje divisor de 20”.
E: “Obtener un puntaje de 5”.

Solución

El espacio muestral del experimento es $S=\{1, 2, 3, 4, 5, 6, 7, 8, 9, 10\}$. El evento A es $A=\{1, 3, 5, 7, 9\}$. La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, $P(A)=\frac{\#A}{\#S}$, esto origina $P(A)=\frac{5}{10}$, la probabilidad de A es $\frac{1}{2}$. Se espera que el 50% de las veces caiga impar.
El espacio muestral del experimento es $S=\{1, 2, 3, 4, 5, 6, 7, 8, 9, 10\}$. El evento B es $B=\{3, 6, 9\}$. La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, $P(B)=\frac{\#B}{\#S}$, esto origina $P(B)=\frac{3}{10}$, la probabilidad de B es $\frac{3}{10}$. Se espera que 30 % de las veces caiga múltiplo de 3.
El espacio muestral del experimento es $S=\{1, 2, 3, 4, 5, 6, 7, 8, 9, 10\}$. El evento C es $C=\{1, 2, 3\}$. La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, $P(C)=\frac{\#C}{\#S}$, esto origina $P(C)=\frac{3}{10}$, la probabilidad de C es $\frac{3}{10}$. Se espera que el 30% de las veces caiga un puntaje inferior a 4.
El espacio muestral del experimento es $S=\{1, 2, 3, 4, 5, 6, 7, 8, 9, 10\}$. El evento D es $D=\{1, 2, 4, 5, 10\}$. La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, $P(D)=\frac{\#D}{\#S}$, esto origina $P(D)=\frac{5}{10}$, la probabilidad de D es $\frac{1}{2}$. Se espera que la mitad de las veces caiga un puntaje divisor de 20.
El espacio muestral del experimento es $S=\{1, 2, 3, 4, 5, 6, 7, 8, 9, 10\}$. El evento E es $E=\{5\}$. La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, $P(E)=\frac{\#E}{\#S}$, esto origina $P(E)=\frac{1}{10}$, la probabilidad de E es $\frac{1}{10}$. Se espera que la decima parte de las veces caiga 5.

Los eventos B y C son equiprobables. Los eventos A y D son equiprobables.

Ejemplo: Considere que se selecciona aleatoriamente, de una bolsa que contiene 10 fichas marcadas del 3 al 12, una ficha. Obtenga los siguientes eventos y sus probabilidades:

A: “Obtener un puntaje impar y mayor que 2”.
B: “Obtener un puntaje múltiplo de 3 y menor que 5”.
C: “Obtener un puntaje menor que 4 o impar”.
D: “Obtener un puntaje divisor de 20 y de 25”.
E: “Obtener un puntaje mayor de 4 ó impar”.

Solución

El espacio muestral del experimento es $S=\{3, 4, 5, 6, 7, 8, 9, 10, 11, 12\}$. El evento A es $A=\{3, 5, 7, 9, 11\}$. La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, $P(A)=\frac{\#A}{\#S}$, esto origina $P(A)=\frac{5}{10}$, la probabilidad de A es $\frac{1}{2}$. Se espera que el 50% de las veces caiga impar y mayor que 2.
El espacio muestral del experimento es $S=\{3, 4, 5, 6, 7, 8, 9, 10, 11, 12\}$. El evento B es $B=\{3\}$. La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, $P(B)=\frac{\#B}{\#S}$, esto origina $P(B)=\frac{1}{10}$, la probabilidad de B es $\frac{1}{10}$. Se espera que la decima parte de las veces caiga múltiplo de 3 y menor que 5.
El espacio muestral del experimento es $S=\{3, 4, 5, 6, 7, 8, 9, 10, 11, 12\}$. El evento C es $C=\{3, 5, 7, 9, 11\}$. La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, $P(C)=\frac{\#C}{\#S}$, esto origina $P(C)=\frac{5}{10}$, la probabilidad de C es $\frac{5}{10}$. Se espera que el 50% de las veces caiga un puntaje inferior a 4 ó impar.
El espacio muestral del experimento es $S=\{3, 4, 5, 6, 7, 8, 9, 10, 11, 12\}$. El evento D es $D=\{5\}$. La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, $P(D)=\frac{\#D}{\#S}$, esto origina $P(D)=\frac{1}{10}$, la probabilidad de D es $\frac{1}{10}$. Se espera que la decima parte de las veces caiga un puntaje divisor de 20 y de 25.
El espacio muestral del experimento es $S=\{3, 4, 5, 6, 7, 8, 9, 10, 11, 12\}$. El evento E es $E=\{3, 5, 6, 7, 8, 9, 10, 11, 12\}$. La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, $P(E)=\frac{\#E}{\#S}$, esto origina $P(E)=\frac{9}{10}$, la probabilidad de E es $\frac{9}{10}$. Se espera que en el 90 % de las veces caiga puntaje mayor de 4 ó impar.

Los eventos A y C son equiprobables, también B y D.

Ejercicio 2: En el siguiente listado de eventos, forme grupos de eventos equiprobables y diga en forma organizada, la probabilidad por grupos. Asuma que se trata de la selección de una ficha de un conjunto de 12, numeradas con los números del 6 al 17.

Evento A: Obtener un número par no primo

Evento B: Obtener un número impar y múltiplo de 3

Evento C: Obtener un número mayor que 9

Evento D: Obtener un número menor o igual a 9

Evento E: Obtener un múltiplo de 3

Evento F: Obtener un número primo

Evento G: Obtener un número igual a 10

Evento H: Obtener un número diferente de 11

Evento I: Obtener un número entre 8 y 12 (inclusive)

Evento J: Obtener un número mayor o igual que 11

Evento K: Obtener un número igual a 8

Evento L: Obtener un número mayor que 8

Evento M: Obtener un número divisible por 2 o 3

Evento N: Obtener un número menor que 11

Evento O: Obtener un número mayor que 10 y menor que 14

Evento P: Obtener un número par mayor que 9

Evento Q: Obtener un número impar menor que 12

Evento R: Obtener un número que sea cuadrado perfecto

Evento S: Obtener un número mayor o igual que 10 y divisible por 60

Evento T: Obtener un número menor o igual que 13

Probabilidades Compuestas

Al definir experimentos compuestos de varios subexperimentos los resultados se complejizan y se usa el principio fundamental del conteo ó de la multiplicación.

Se define el principio de la multiplicación como aquel conteo de la combinación de k experimentos simples, en los que el primero ocurre de $n_1$ formas, el segundo de $n_2$ formas, el tercero de $n_3$ formas, y así sucesivamente hasta el k-ésimo que ocurre de $n_k$ formas; entonces el experimento global compuesto de k subexperimentos puede ocurrir en $n_1*n_2*n_3*...*n_k$ combinaciones.

Ejemplo: Considere el lanzamiento de dos dados corrientes. Encuentre las probabilidades de los siguientes eventos:

A:“Sacar una suma mayor que 8”.
B:“Sacar una diferencia de 3 entre el segundo resultado y el primero”
C:“Sacar una suma de menos de 6”.
D:“Sacar una diferencia entre el segundo y el primero entre 1 y 3, ambos inclusive”.
E:“Sacar una suma de 5, 6 ó 7”.

Solución

En principio, el experimento de lanzamiento de dos dados, se trata de un experimento compuesto que ocurre de $6*6=36$ resultados

(1,1), (1,2), (1,3), (1, 4), (1,5), (1,6),

(2,1), (2,2), (2,3), (2, 4), (2,5), (2,6),

(3,1), (3,2), (3,3), (3, 4), (3,5), (3,6),

(4,1), (4,2), (4,3), (4, 4), (4,5), (4,6),

(5,1), (5,2), (5,3), (5, 4), (5,5), (5,6),

(6,1), (6,2), (6,3), (6, 4), (6,5), (6,6)

El evento A: “Sacar una suma mayor que 8” se puede dar por extensión, en la siguiente forma

$A=\{(3,6), (4,5), (4,6), (5,4), (5,5), (5,6), (6,3), (6,4), (6,5), (6,6)\}$

$P(A)=\frac{\#A}{\#S}$, es decir, $P(A)=\frac{10}{36}$. Esta probabilidad da $\frac{5}{18}$.

El evento B: “Sacar una diferencia de 3 entre el segundo resultado y el primero” se puede dar por extensión, en la siguiente forma

$B=\{(1,4), (2,5), (3,6)\}$

$P(B)=\frac{\#B}{\#S}$, es decir, $P(B)=\frac{3}{36}$. Esta probabilidad da $\frac{1}{12}$.

El evento C: “Sacar una suma de menos de 6” se puede dar por extensión, en la siguiente forma

$C=\{(1,1), (1,2), (1,3), (1,4), (2,1), (2,2), (2,3), (3,1), (3,2), (4,1)\}$

$P(C)=\frac{\#C}{\#S}$, es decir, $P(C)=\frac{10}{36}$. Esta probabilidad da $\frac{5}{18}$.

El evento D: “Sacar una diferencia entre el segundo resultado y el primero, entre 1 y 3, ambos inclusive” se puede dar por extensión, en la siguiente forma

$D=\{(1,2), (1,3), (1,4), (2,3), (2,4), (2,5), (3,4), (3,5), (3,6), (4,5), (4,6), (5,6)\}$

$P(D)=\frac{\#D}{\#S}$, es decir, $P(D)=\frac{12}{36}$. Esta probabilidad da $\frac{1}{3}$.

El evento E: “Sacar una suma de 5, 6 ó 7” se puede dar por extensión, en la siguiente forma

$E=\{(1,4),(1,5), (1,6), (2,3),(2,4),(2,5),(3,2),(3,3),(3,4),(4,1),(4,2),(4,3),(5,1),(5,2),(6,1)\}$

$P(E)=\frac{\#E}{\#S}$, es decir, $P(E)=\frac{15}{36}$. Esta probabilidad da $\frac{5}{12}$.

Ejemplo: Considere el lanzamiento de dos dados corrientes. Encuentre las probabilidades de los siguientes eventos:

A:“Sacar un producto mayor que 4 y menor que 9”.
B:“Sacar un cociente de 3 o mas entre el segundo resultado y el primero”
C:“Sacar un producto de menos de 6”.
D:“Sacar un cociente entre el segundo y el primero entre 1 y 3, ambos inclusive”.
E:“Sacar un producto de 5, 6 ó 8”.

Solución

En principio, el experimento de lanzamiento de dos dados, se trata de un experimento compuesto que ocurre de $6*6=36$ resultados

(1,1), (1,2), (1,3), (1, 4), (1,5), (1,6),

(2,1), (2,2), (2,3), (2, 4), (2,5), (2,6),

(3,1), (3,2), (3,3), (3, 4), (3,5), (3,6),

(4,1), (4,2), (4,3), (4, 4), (4,5), (4,6),

(5,1), (5,2), (5,3), (5, 4), (5,5), (5,6),

(6,1), (6,2), (6,3), (6, 4), (6,5), (6,6)

El evento A:“Sacar un producto mayor que 4 y menor que 9”. se puede dar por extensión, en la siguiente forma

$A=\{(1,5), (1,6), (2,3), (2,4), (3,2), (4,2), (5,1), (6,1)\}$

$P(A)=\frac{\#A}{\#S}$, es decir, $P(A)=\frac{8}{36}$. Esta probabilidad da $\frac{2}{9}$.

El evento B:“Sacar un cociente de 3 o mas entre el segundo resultado y el primero” se puede dar por extensión, en la siguiente forma

$B=\{(1,3),(1,4),(1,5),(1,6),(2,6)\}$

$P(B)=\frac{\#B}{\#S}$, es decir, $P(B)=\frac{5}{36}$. Esta probabilidad da $\frac{5}{36}$.

El evento C:“Sacar un producto de menos de 6” se puede dar por extensión, en la siguiente forma

$C=\{(1,1), (1,2), (1,3), (1,4),(1,5),(2,1), (2,2), (3,1),(4,1), (5,1)\}$

$P(C)=\frac{\#C}{\#S}$, es decir, $P(C)=\frac{10}{36}$. Esta probabilidad da $\frac{5}{18}$.

El evento D:“Sacar un cociente entre el segundo y el primero entre 1 y 3, ambos inclusive” se puede dar por extensión, en la siguiente forma

$D=\{(1,1),(1,2), (1,3), (2,3), (2,4), (2,5),(2,6),(3,3),(3,4), (3,5), (3,6),(4,4),(4,5), (4,6), (5,5),(5,6), (6,6)\}$

$P(D)=\frac{\#D}{\#S}$, es decir, $P(D)=\frac{17}{36}$. Esta probabilidad da $\frac{17}{36}$.

El evento E:“Sacar un producto de 5, 6 ó 8” se puede dar por extensión, en la siguiente forma

$E=\{(1,5), (1,6),(2,3), (2,4),(3,2),(4,2),(5,1),(6,1)\}$

$P(E)=\frac{\#E}{\#S}$, es decir, $P(E)=\frac{8}{36}$. Esta probabilidad da $\frac{2}{9}$.

Probabilidades Empíricas

Las probabilidades empíricas se definen desde la frecuencia histórica, tambien conocidas como probabilidades frecuentistas. Se hace estudio del enfoque frecuentista en el caso de que se analizan las realizaciones de fenómenos históricos en eventuales repeticiones.

Ejemplo: Para los siguientes eventos históricos se encontraron las siguientes proporciones suministradas con IA.

Fútbol

3 de 4 penaltis en competiciones FIFA terminan en gol. Probabilidad de marcar un penalti en competiciones FIFA. Históricamente, alrededor del 75% de los penales terminan en gol (FIFA World Cups y Eurocopas). Esto implica que de cada 1000 penales cobrados en estas competiciones 750 son goles. La probabilidad empírica de que un penal termine en gol es del 75%.

Fútbol

Probabilidad de que el equipo local gane un partido de liga. En ligas como la Premier League, el equipo local gana alrededor del 45% de las veces, empata un 25%, y pierde un 30%. De 900 partidos jugados de local, un equipo de esa liga, ¿cuántos gana, cuántos empata y cuántos pierde? En ese caso se espera que gane de los 900 partidos 405 veces, empate 225 veces y pierda 270 veces (405+225+270=900).

Baloncesto

Probabilidad de que un equipo que lidera al medio tiempo gane el partido (NBA). En promedio, un equipo que va ganando al medio tiempo tiene un 67.5% de probabilidad de ganar el juego completo. Si un equipo jugó x partidos y de los x iba ganado 200 partidos al acabarse el medio tiempo, entonces, de esos 200 partidos se espera que ganara 135 y no ganara 65.

Baloncesto

Probabilidad de encestar un tiro libre en la NBA. Promedio histórico de efectividad: entre 75% y 78%, dependiendo de la temporada. Esta implica que al tirar a la cesta la probabilidad de encestar queda entre 0.75 y 0.78. Algo así como 3 de cada 4 tiros terminan dentro de la cesta.

Fútbol Americano.

Probabilidad de anotar desde la yarda 1 (1st and Goal) Equipos de la NFL anotan un touchdown desde esa posición en aproximadamente el 70%–75% de las ocasiones. La probabilidad de anotar desde una yarda queda entre 0.70 y 0.75.

Béisbol

Probabilidad de un hit en cada turno al bate (MLB). El promedio de bateo está entre 0.240 y 0.270, es decir, 24%–27% de probabilidad de lograr un hit.

Beisbol

Probabilidad de que un equipo no deje que el otro equipo consiga al menos un hit en 9 entradas en MLB (no-hitters). Ha habido unos 320 no-hitters en más de 235000 juegos de MLB, lo que implica una probabilidad aproximada de 0.14% por juego. Esto indica que de cada 10000 juegos 14 terminan con no-hitters.

Tenis

Probabilidad de que un sacador gane su servicio (ATP). En promedio, un jugador masculino gana su turno de saque el 75% de las veces. Los grandes sacadores (como Isner o Karlovic) superan el 85%. La diferencia de probabilidad de que Karlovic supere a un jugador masculino promedio es del 10%.

Carreras de caballos

Probabilidad de que el favorito gane una carrera. En promedio, el caballo favorito gana solo en torno al 33% de las carreras. Una de cada 3 carreras serían ganadas por el caballo favorito.

Hockey sobre hielo (NHL)

Probabilidad de anotar en un penalty shot Los jugadores convierten aproximadamente el 33% de los tiros penales en la NHL (mucho menos efectivo que el fútbol). En este orden de ideas aproximadamente 1 de cada 3 penales en Hockey sobre hielo terminan en anotación o gol.

Ejercicio 1: Un hombre realiza 600 disparos al blanco, en las mismas condiciones, manteniendo la distancia y el artefacto y acierta 450 veces.

¿Cuál es la probabilidad de que en el próximo disparo, pegue en el blanco?
¿Cuántos disparos se espera que falle en 1500 disparos?
¿Cuántos disparos al blanco aproximadamente ha realizado, si el hombre ha acertado en 1800 ocasiones?

Ejercicio 2: Un hombre vacuna reses y en 1400 veces que pone la ampolla 1190 veces protege al animal de un virus.

¿Cuál es la probabilidad de que una vaca en la próxima vacuna, quede protegida?
¿Cuántas vacunas se espera que fallen en 7700 ampollas colocadas a las reses?
¿Cuántas ampollas aproximadamente ha colocado, si el líquido ha hecho buen efecto en 3400 ocasiones?

Ejercicio 3: En la población de adultos a nivel mundial, 3 de cada 10 adultos seleccionados al azar padece miopía.

¿Cuál es el porcentaje de adultos, a nivel mundial, que padece el defecto visual de miopía?
¿Si esta proporción se mantiene en una localidad de 4000 miembros, cuántas personas se espera que no padezcan de miopía?
¿Cuántos adultos al azar se necesitan evaluar en forma aleatoria para encontrar 600 con el defecto visual mencionado?

Ejercicio 4: En el siguiente listado de eventos, forme grupos de eventos equiprobables y diga en forma organizada, la cantidad de veces que se espera que ocurra cada evento en 1200 lanzamientos de un dado no trucado o corriente.

Evento A: Obtener un número par no primo

Evento B: Obtener un número impar y múltiplo de 3

Evento C: Obtener un número mayor que 4

Evento D: Obtener un número menor o igual a 3

Evento E: Obtener un múltiplo de 3

Evento F: Obtener un número primo

Evento G: Obtener un número igual a 1

Evento H: Obtener un número diferente de 6

Evento I: Obtener un número entre 2 y 5 (inclusive)

Evento J: Obtener un número mayor o igual que 6

Evento K: Obtener un número igual a 4

Evento L: Obtener un número mayor que 2

Evento M: Obtener un número divisible por 2 o 3

Evento N: Obtener un número menor que 5

Evento O: Obtener un número mayor que 1 y menor que 6

Evento P: Obtener un número par mayor que 3

Evento Q: Obtener un número impar menor que 5

Evento R: Obtener un número que sea cuadrado perfecto

Evento S: Obtener un número mayor que 1 y divisible por 5

Evento T: Obtener un número menor o igual que 1

Eventos mutuamente excluyentes y eventos independientes

Dos eventos son mutuamente excluyentes si no tienen resultados comunes, es decir, la intersección entre los dos eventos es vacía. También, se dice que los eventos son disyuntos cuando no tienen resultados comunes. En forma matemática, se tiene que A y B son mutuamente excluyentes o disyuntos si y solo si $A\bigcap B=\phi$.

Otra definición de eventos es la independencia de eventos. Cuando un evento es aislado de otro no influye no afecta, esto obedece a que los dos eventos son independientes. La regla de independencia de eventos dice que A y B son eventos independientes si $P(A\bigcap B)=P(A)*P(B)$.

Ejemplo: Considere que se lanza un dado corriente. Diga de los siguientes eventos los que son disyuntos o mutuamente excluyentes y los que son independientes.

A: “Obtener un puntaje impar”, B: “Obtener un puntaje múltiplo de 3”, C: “Obtener un puntaje menor que 4”, D: “Obtener un puntaje divisor de 20” y E: “Obtener un puntaje de 5”.

Solución

El evento A es $A=\{1, 3, 5\}$, el evento B es $B=\{3, 6\}$, el evento C es $C=\{1, 2, 3\}$, el evento D es $D=\{1, 2, 4, 5\}$ y el evento E es $E=\{5\}$.

Eventos disyuntos o mutuamente excluyentes

B y D, B y E, C y E.

Eventos independientes

A y B pues $P(A\bigcap B)=\frac{1}{6}$ y $P(A)*P(B)=\frac{1}{6}$.

A y D pues $P(A\bigcap D)=\frac{1}{3}$ y $P(A)*P(D)=\frac{1}{3}$.

B y C pues $P(B\bigcap C)=\frac{1}{6}$ y $P(B)*P(C)=\frac{1}{6}$.

C y D pues $P(C\bigcap D)=\frac{1}{3}$ y $P(C)*P(D)=\frac{1}{3}$.

Ejemplo: Considere que se lanza un dado corriente. Diga de los siguientes eventos los que son disyuntos o mutuamente excluyentes y los que son independientes.

A: “Obtener un puntaje impar y mayor que 2”, B: “Obtener un puntaje múltiplo de 3 y menor que 5”, C: “Obtener un puntaje menor que 4 o impar”, D: “Obtener un puntaje divisor de 20 y de 25” y E: “Obtener un puntaje mayor de 4 ó impar”.

Solución

El evento A es $A=\{3, 5\}$, el evento B es $B=\{3\}$, el evento C es $C=\{1, 2, 3, 5\}$, el evento D es $D=\{1, 5\}$ y el evento E es $E=\{1, 3, 5, 6\}$.

Eventos disyuntos o mutuamente excluyentes

B y D.

Eventos independientes

No existe par de eventos, que cumpla la independencia, entonces todos los pares son eventos dependientes. Esto implica que la ocurrencia primitiva de un evento afecta a la ocurrencia de otro alterando su probabilidad.

En el caso, del ejemplo de los deportes y la probabilidad empírica; los eventos en deportes aislados no se afectan unos a otros, en ese caso serían independientes. Pero, aquellos eventos dentro de un mismo deporte pueden o no tener afectación, para averigualro se necesita más información probabilística. Lo cierto es que la independencia es una propiedad que puede no presentarse en análisis de eventos dentro del mismo experimento, que guardan relación.

Ejercicio 1: En el siguiente listado de eventos, forme grupos de eventos equiprobables y diga en forma organizada, la probabilidad por grupos. A continuación diga cuales son mutuamente excluyentes e independientes.

Evento A: Obtener un número par no primo

Evento B: Obtener un número impar y múltiplo de 3

Evento C: Obtener un número mayor que 4

Evento D: Obtener un número menor o igual a 3

Evento E: Obtener un múltiplo de 3

Evento F: Obtener un número primo

Evento G: Obtener un número igual a 1

Evento H: Obtener un número diferente de 6

Evento I: Obtener un número entre 2 y 5 (inclusive)

Evento J: Obtener un número mayor o igual que 6

Evento K: Obtener un número igual a 4

Evento L: Obtener un número mayor que 2

Evento M: Obtener un número divisible por 2 o 3

Evento N: Obtener un número menor que 5

Evento O: Obtener un número mayor que 1 y menor que 6

Evento P: Obtener un número par mayor que 3

Evento Q: Obtener un número impar menor que 5

Evento R: Obtener un número que sea cuadrado perfecto

Evento S: Obtener un número mayor que 1 y divisible por 5

Evento T: Obtener un número menor o igual que 1

Eventos Colectivamente Exhaustivos y Partición del Espacio

Ahora daré dos definiciones a cerca de los conceptos previos a la probabilidad total y regla de Bayes. La primera es la de eventos colectivamente exhaustivos y la segunda es la de Partición del Espacio.

En primer lugar, si tenemos n eventos, digamos, $A_1, A_2,..., A_n$, se dice que los n eventos son colectivamente exhaustivos si cualquier resultado del experimento está en la unión de éstos eventos, es decir $\bigcup_{i=1}^n A_i=S$, donde S es el espacio muestral.

La segunda definición, es la de partición, se dice que $A_1, A_2,..., A_n$, forman una partición del espacio si estos eventos cumplen dos condiciones:

Los eventos son colectivamente exhaustivos.
Cualquier pareja de estos eventos son mutuamente excluyentes o disyuntos.

Ejemplo 1: Diga si al lanzar un dado corriente, los eventos A:“sacar un puntaje impar” y B:“sacar un puntaje par” son colectivamente exhaustivos, son disyuntos y forman una partición del espacio.

Solución

El evento A es $A=\{1, 3, 5\}$ y el B es $B=\{2, 4, 6\}$. La unión de estos eventos origina todos los resultados del espacio, por lo tanto, A y B son colectivamente exhaustivos.

Al ser complementarios A y B son disyuntos; y al ser disyuntos los eventos A y B forman una partición.

Ejemplo 2: Diga si los eventos A:“sacar en el lanzamiento de un dado un puntaje menor que 4”, B:“Sacar un múltiplo de 3” y C:“Sacar un divisor de 25”.

Solución

El evento A es $A=\{1, 2, 3\}$, el B es $B=\{3, 6\}$ y el C es $C=\{1, 5\}$. La unión de estos eventos no origina todos los resultados del espacio porque falta el 4, por lo tanto, A, B y C no son colectivamente exhaustivos.

Tampoco son disyuntos dos a dos; y al no ser disyuntos ni colectivamente exhaustivos; los eventos A, B y C no forman una partición del espacio. (Al fallar una de estas condiciones deja de ser una partición del espacio el grupo de éstos eventos).

Ejemplo 3: Diga si los eventos A:“sacar en el lanzamiento de un dado un puntaje par menor que 5”, B:“Sacar un divisor de 6” y C:“Sacar un múltiplo de 5”.

Solución

El evento A es $A=\{2, 4\}$, el B es $B=\{1, 3, 6\}$ y el C es $C=\{5\}$. La unión de estos eventos origina todos los resultados del espacio, que son los números enteros del 1 al 6, por lo tanto, A, B y C no son colectivamente exhaustivos.

Dos a dos los eventos son disyuntos; y al ser disyuntos y colectivamente exhaustivos; los eventos A, B y C forman una partición del espacio. (Al no fallar alguna de estas condiciones forman una partición del espacio el grupo de éstos eventos).

Ejercicio 1: Considere que se lanza un dado corriente. Diga de los siguientes eventos son colectivamente exhaustivos y forman una partición del espacio muestral.

Ejercicio 2: Considere que se lanza un dado corriente. Diga de los siguientes eventos son colectivamente exhaustivos y forman una partición del espacio muestral.

A: “Obtener un puntaje impar”, B: “Obtener un puntaje múltiplo de 3”, C: “Obtener un puntaje menor que 4”, D: “Obtener un puntaje divisor de 20” y E: “Obtener un puntaje de 5”.

Ejercicio 3: Considere que se lanza un dado corriente. Diga de los siguientes eventos son colectivamente exhaustivos y forman una partición del espacio muestral.

A: “Obtener un múltiplo de 3”, B:“Obtener un puntaje divisor de 20 menor que 5” y C: “Obtener un puntaje mayor de 4 e impar”.

Ejercicio 4: En el siguiente listado de eventos, forme grupos de eventos colectivamente exhaustivos y forme grupos que componen particiones del espacio.

Evento A: Obtener un número par no primo

Evento B: Obtener un número impar y múltiplo de 3

Evento C: Obtener un número mayor que 4

Evento D: Obtener un número menor o igual a 3

Evento E: Obtener un múltiplo de 3

Evento F: Obtener un número primo

Evento G: Obtener un número igual a 1

Evento H: Obtener un número diferente de 6

Evento I: Obtener un número entre 2 y 5 (inclusive)

Evento J: Obtener un número mayor o igual que 6

Evento K: Obtener un número igual a 4

Evento L: Obtener un número mayor que 2

Evento M: Obtener un número divisible por 2 o 3

Evento N: Obtener un número menor que 5

Evento O: Obtener un número mayor que 1 y menor que 6

Evento P: Obtener un número par mayor que 3

Evento Q: Obtener un número impar menor que 5

Evento R: Obtener un número que sea cuadrado perfecto

Evento S: Obtener un número mayor que 1 y divisible por 5

Evento T: Obtener un número menor o igual que 1

Teorema de la Probabilidad Total

Definición: Los eventos $A_1, A_2, ..., A_k$ conforman una partición del espacio muestral E, si se cumplen dos condiciones

$A_i\bigcap A_j=\phi$ para $i\neq j$. Esto es los eventos son disyuntos.
$A_1\bigcup A_2\bigcup...\bigcup A_k=E$. Esto es, la unión de los eventos que forman la partición es igual al espacio.

La propiedad (1) indica que los eventos de la partición, cumplen que la probabilidad de la intersección de cualesquieras dos de ellos es igual a cero.

La propiedad (2) indica que la suma de las probabilidades de los eventos de la partición es igual a 1. Es decir, $\sum\limits_{i=1}^k P(A_i)=1$. Esta tambien se puede dar en porcentajes, para los cuales, la suma es el 100%.

La probabilidad total de un evento B, bajo la partición dada del espacio, es

$P(B)=\sum\limits_{i=1}^k P(A_i)\times P(B/A_i)$.

Este teorema es fundamental para calcular probabilidades donde se tiene información de la probabilidad de las partes de E, y de las probabilidades condicionales de B dada cada parte.

El siguiente ejemplo, es un procedimiento de probabilidad total

Ejemplo: Suponga que en un lago el 50% son mojarras, el 30% son cachamas y el 20% son corvinas. De las mojarras, el 15% son de talla pequeña; de las cachamas, el 10% son de talla pequeña; y de las corvinas, el 5% son de talla pequeña. Encuentre la probabilidad de que al sacar un pez del lago, éste sea de talla pequeña.

Sean A_1: “Que se saque una mojarra”

A_2:“Que se saque una cachama”

A_3: “Que se saque una corvina”

B: “Que se saque un pez de talla pequeña”.

$P(A_1)=0.5$, $P(A_2)=0.3$, $P(A_3)=0.2$,

$P(B/A_1)=0.15$, $P(B/A_2)=0.10$,$P(B/A_3)=0.05$.

$P(B)=\sum\limits_{i=1}^k P(A_i)\times P(B/A_i)$.

$P(B)=0.50(0.15)+0.30(0.10)+0.20(0.05)$

$P(B)=0.075+0.03+0.01$

$P(B)=0.115$

La probabilidad de que el próximo pez que se saque sea de talla pequeña es 0.115. Esto es, el 11.5% de los peces de ese lago son de talla pequeña.

Ejemplo: Suponga que en un Colegio; el 40% son licenciados, el 35% son normalistas y el resto son tecnológos. De los licenciados, el 75% ha asistido a capacitaciones sobre los lineamientos de calidad en los últimos 4 meses; de los normalistas el 70% ha asistido a capacitaciones sobre los lineamientos de calidad en los últimos 4 meses; y de los tecnológos, el 65% ha asistido a tales capacitaciones, en los últimos 4 meses. Encuentre la probabilidad de que al elegir un docente del Colegio, éste halla asistido a capacitación sobre lineamientos de calidad en los últimos 4 meses.

Sean A_1: “Que se elija un licenciado”

A_2:“Que se elija un normalista”

A_3: “Que se elija un tecnologo”

B: “Que se elija un docente que haya asistido al menos a una capacitación de calidad, en los últimos 4 meses”.

$P(A_1)=0.4$, $P(A_2)=0.35$, $P(A_3)=0.25$,

$P(B/A_1)=0.75$, $P(B/A_2)=0.70$,$P(B/A_3)=0.65$.

$P(B)=\sum\limits_{i=1}^k P(A_i)\times P(B/A_i)$.

$P(B)=0.40(0.75)+0.35(0.70)+0.25(0.65)$

$P(B)=0.30+0.245+0.1625$

$P(B)=0.7075$

La probabilidad de que se escoja aleatoriamente un docente que haya asistido al menos a una capacitación durante los últimos cuatro meses es 0.7075. Esto es, el 70.75% de los docentes de dicho colegio ha asistido a capacitaciones sobre lineamientos de calidad en los últimos cuatro meses.

Reglas de Probabilidad

Al estudiar las reglas de probabilidad se estudian las operaciones básicas de tres o menos eventos. Antes de entrar en materia, se enuncian las reglas claves para obtener las probabilidades y el lenguaje coloquial usado en cada caso.

Los términos $\bigcap$ implica la operación de intersección, que son los elementos comunes o repetidos en dos conjuntos.

La diferencia - indica la operación de conjuntos que define el conjunto sobrante después de quitar los elementos repetidos a un conjunto. Digamos $A-B$ es quitar a A los elementos de B.

La diferencia simétrica entre dos conjuntos denotada $A\triangle B$ denota el evento de ocurrencia de sólo A ó solo B.

Regla del Complemento

La no ocurrencia del evento A, se conoce como evento complemento de A, denotado $\overline{A}$ y su probabilidad es tal que se cumple que $P(A)+P(\overline{A})=1$. En forma empírica, los sucesos o eventos complementarios se asocian a porcentajes que suman 100% y homologan la probabilidad del espacio muestral.

El complemento se representa con una negación de la condición que define al conjunto por comprensión.

Regla de la Diferencia

La diferencia de A y B, denotada por $A-B=A\bigcap \overline{B}$ denota el evento de que A ocurra y B no ocurra. Su probabilidad es $P(A-B)=P(A)-P(A\bigcap B)$. En general, $P(A-B)\neq P(B-A)$.

A menudo, se expresa como el evento que ocurra A y que B no ocurra. Tambien se dice que ocurra A pero que B no ocurra.

Regla de la Diferencia Simétrica

La diferencia simétrica de dos eventos A y B, denotada $A\triangle B$ es el evento de que ocurra sólo uno de los dos eventos. Esto coincide para dos eventos con la siguiente formulación $P(A\triangle B)=P(A\bigcup B)-P(A\bigcap B)$, que tambien es $P(A\triangle B)=P(A-B)+P(B-A)$.

Cuando se aplica esta propiedad la pregunta se traduce en que ocurra uno sólo de los dos eventos. Por otra parte, esta propiedad de que ocurra un sólo evento es extensible pero como diferencia exclusiva, es decir, no como diferencia simétrica sino en el proceso de que ocurra uno sólo de los eventos involucrados.

Regla de la Unión de dos eventos

La union de dos eventos cualesquieras A y B, pertenencientes a la familia de eventos especificada, se denota con $A\bigcup B$ y su probabilidad es $P(A\bigcup B)=P(A)+P(B)-P(A\bigcap B)$.

Esta regla se puede extender como suma para eventos disyuntos y para eventos colectivamente exhaustivos. La unión maneja que ocurra esto o que ocurra aquello, que ocurra al menos uno de los dos eventos, tambien se dice que ocurra alguno de los dos eventos.

Regla de Morgan de la Union

La regla de Morgan de la union se traduce en la propiedad $\overline{A}\bigcap\overline{B}=\overline{A\bigcup B}$, que implica que no ocurra A y tampoco ocurra B, se traduce en el complemento de la union.

Esta regla implica que $P(\overline{A}\bigcap\overline{B})=1- P(A\bigcup B)$.

Regla de Morgan de la Interseccion

La regla de Morgan de la interseccion se traduce en la propiedad $\overline{A}\bigcup\overline{B}=\overline{A\bigcap B}$, que implica que no ocurra A ó que no ocurra B, se traduce en el complemento de la interseccion.

Esta regla implica que $P(\overline{A}\bigcup\overline{B})=1- P(A\bigcap B)$.

Ejercicio: Suponga que se lanza un dado corriente. Considere los eventos A:“Sacar un puntaje mayor que 3” y B:“Sacar un puntaje impar mayor o igual que 3”.

Encuentre e Interprete cada punto.

Por extensión A, B y $A\bigcap B$.
Las probabilidades de A, B y $A\bigcap B$.
La probabilidad de $A-B=A\bigcap \overline{B}$, dada por $P(A-B)=P(A)-P(A\bigcap B)$.
La probabilidad de $B-A=B\bigcap \overline{A}$, dada por $P(B-A)=P(B)-P(A\bigcap B)$.
La probabilidad de $A\bigcup B$, dada por $P(A\bigcup B)=P(A)+ P(B)-P(A\bigcap B)$.
La probabilidad de $A\triangle B$, dada por $P(A\triangle B)=P(A\bigcup B)-P(A\bigcap B)$.
La probabilidad de $\overline{A}\bigcap \overline{B}=\overline{A\bigcup B}$.
La probabilidad de $\overline{A}\bigcup \overline{B}=\overline{A\bigcap B}$.

Regla de Diferencia Específica de orden uno

Dados tres eventos A, B y C se define la probabilidad de que ocurra A pero que no ocurra B y no ocurra C como regla de diferencia específica de orden uno

$P(A\bigcap\overline{B}\bigcap\overline{C})=P(A)-P(A\bigcap B)-P(A\bigcap C)+P(A\bigcap B\bigcap C)$

Regla de Diferencia Específica de orden dos

Dados tres eventos A, B y C se define la probabilidad de que ocurra A y ocurra B pero no ocurra C como regla de diferencia específica de orden dos

$P(A\bigcap B\bigcap\overline{C})=P(A\bigcap B)-P(A\bigcap B\bigcap C)$

Regla de Diferencia General de orden uno

Dados tres eventos A, B y C se define la probabilidad de que ocurra sólo uno de tres eventos como regla de diferencia general de orden uno

$P(A\triangle_1 B\triangle_1 C)=P(A)+P(B)+P(C)-2P(A\bigcap B)-2P(A\bigcap C)-2P(B\bigcap C)+3P(A\bigcap B\bigcap C)$

Regla de Diferencia General de orden dos

Dados tres eventos A, B y C se define la probabilidad de que ocurran sólo dos de tres eventos como regla de diferencia general de orden dos

$P(A\triangle_2 B\triangle_2 C)=P(A\bigcap B)+P(A\bigcap C)+P(B\bigcap C)-3P(A\bigcap B\bigcap C)$

Regla de la Union

Dados tres eventos A, B y C se define la probabilidad de que ocurra alguno de tres eventos como regla de union

$P(A\bigcup B\bigcup C)=P(A)+P(B)+P(C)-P(A\bigcap B)-P(A\bigcap C)-P(B\bigcap C)+P(A\bigcap B\bigcap C)$

Regla de Morgan de la Union

Dados tres eventos A, B y C se define la ley de Morgan de la union como $\overline{A\bigcup B\bigcup C}=\overline{A}\bigcap\overline{B}\bigcap\overline{C}$. Esto es el complemento de la unión es la intersección de los complementos.

Por lo tanto $P(\overline{A}\bigcap\overline{B}\bigcap\overline{C})=1-P(A\bigcup B\bigcup C)$

Ley de Morgan de la Intersección

Dados tres eventos A, B y C se define la ley de Morgan de la interseccion como $\overline{A\bigcap B\bigcap C}=\overline{A}\bigcup\overline{B}\bigcup\overline{C}$. Esto es el complemento de la interseccion es la unión de los complementos.

Por lo tanto $P(\overline{A}\bigcup\overline{B}\bigcup\overline{C})=1-P(A\bigcap B\bigcap C)$

Ejemplo: La probabilidad de que Alfonso pierda Matemáticas es 0.4, la probabilidad de que pierda Lenguaje es 0.35 y la probabilidad de que pierda Sociales es 0.3. La probabilidad de que pierda Matemáticas y Lenguaje es 0.21, la probabilidad de que pierda Matemáticas y Sociales es 0.18, y la probabilidad de que pierda Lenguaje y Sociales es 0.19. La probabilidad de que pierda las 3 asignaturas al tiempo es 0.09. Encuentre las siguientes probabilidades:

A:“Que Alfonso no pierda Matemáticas”
B:“Que Alfonso pierda Lenguaje pero no Matemáticas”
C:“Que Alfonso pierda sólo Lenguaje ó sólo Sociales”
D:“Que Alfonso pierda Lenguaje ó Sociales”
E:“Que Alfonso no pierda Lenguaje y no pierda Sociales”
F:“Que Alfonso Gane Matemáticas ó Gane Lenguaje”
G:“Que Alfonso pierda sólo Lenguaje”
H:“Que Alfonso pierda Lenguaje y Sociales, pero no Matemáticas”
I:“Que Alfonso pierda sólo una materia”
J:“Que Alfonso pierda sólo dos Materias.”
K:“Que Alfonso pierda alguna de las tres materias”
L:“Que Alfonso no pierda Matemáticas, no pierda Lenguaje y no pierda Sociales”
M:“Que Alfonso no pierda alguna de las tres materias”

Solución

Sean los eventos $M_1$ que Alfonso pierda Matemáticas, $L_1$ que Alfonso pierda Lenguaje y $S_1$ que Alfonso pierda Sociales.

Tenemos $P(M_1)=0.4$, $P(L_1)=0.35$, $P(S_1)=0.3$, $P(M_1\bigcap L_1)=0.21$, $P(M_1\bigcap S_1)=0.18$, $P(L_1\bigcap S_1)=0.19$ y $P(M_1\bigcap L_1\bigcap S_1)=0.09$.

A:“Que Alfonso no pierda Matemáticas” $P(A)=1-P(M_1)$, esto es, $P(A)=1-0.4$, es decir, $P(A)=0.6$.
B:“Que Alfonso pierda Lenguaje pero no Matemáticas” $P(B)=P(L_1\bigcap \overline{M_1})$. Luego, $P(B)=P(L_1)-P(L_1\bigcap M_1)$, esto es, $P(B)=0.35-0.21$, es decir, $P(B)=0.14$.
C:“Que Alfonso pierda sólo Lenguaje ó sólo Sociales” $P(C)=P(L_1\triangle S_1)$. Luego, $P(C)=P(L_1)+P(S_1)-2P(L_1\bigcap S_1)$, esto es, $P(C)=0.35+0.3-2*0.19$, es decir, $P(C)=0.27$.
D:“Que Alfonso pierda Lenguaje ó Sociales” $P(D)=P(L_1\bigcup S_1)$. Luego, $P(D)=P(L_1)+P(S_1)-P(L_1\bigcap S_1)$, esto es, $P(D)=0.35+0.3-0.19$, es decir, $P(D)=0.46$.
E:“Que Alfonso no pierda Lenguaje y no pierda Sociales” $P(E)=P(\overline{L_1}\bigcap\overline{S_1})$. Luego, $P(E)=1-P(L_1\bigcup S_1)$, esto es, $P(E)=1-0.46$, es decir, $P(E)=0.54$.
F:“Que Alfonso Gane Matemáticas ó Gane Lenguaje” $P(F)=P(\overline{L_1}\bigcup\overline{S_1})$. Luego, $P(F)=1-P(L_1\bigcap S_1)$, esto es, $P(F)=1-0.19$, es decir, $P(F)=0.81$.
G:“Que Alfonso pierda sólo Lenguaje” $P(L_1\bigcap\overline{M_1}\bigcap\overline{S_1})=P(L_1)-P(L_1\bigcap M_1)-P(L_1\bigcap S_1)+P(L_1\bigcap S_1\bigcap M_1)$. Por lo tanto, $P(G)=0.35-0.21-0.19+0.09$, es decir, $P(G)=0.04$
H:“Que Alfonso pierda Lenguaje y Sociales, pero no Matemáticas” $P(L_1\bigcap S_1\bigcap\overline{M_1})=P(L_1\bigcap S_1)-P(L_1\bigcap S_1\bigcap M_1)$. Por lo tanto, $P(H)=0.19-0.09$, es decir, $P(H)=0.10$
I:“Que Alfonso pierda sólo una materia” $P(L_1\triangle_1 M_1\triangle_1 S_1)=P(L_1)+P(M_1)+P(S_1)-2P(L_1\bigcap M_1)-2P(L_1\bigcap S_1)-2P(M_1\bigcap S_1)+3P(L_1\bigcap M_1\bigcap S_1)$. Por lo tanto, $P(I)=0.35+0.4+0.3-2(0.21)-2(0.19)-2(0.18)+3(0.09)$. Esto es $P(I)=0.16$.
J:“Que Alfonso pierda sólo dos Materias.” $P(L_1\triangle_2 M_1\triangle_2 S_1)=P(L_1\bigcap M_1)+P(L_1\bigcap S_1)+P(M_1\bigcap S_1)-3P(L_1\bigcap M_1\bigcap S_1)$. Por lo tanto, $P(J)=0.21+0.19+0.18-3(0.09)$. Esto es $P(J)=0.31$.
K:“Que Alfonso pierda alguna de las tres materias” $P(L_1\bigcup M_1\bigcup S_1)=P(L_1)+P(M_1)+P(S_1)-P(L_1\bigcap M_1)-P(L_1\bigcap S_1)-P(M_1\bigcap S_1)+P(L_1\bigcap M_1\bigcap S_1)$. Por lo tanto, $P(K)=0.35+0.4+0.3-0.21-0.19-0.18+0.09$. Esto es $P(K)=0.56$.
L:“Que Alfonso no pierda Matemáticas, no pierda Lenguaje y no pierda Sociales” $P(\overline{M_1}\bigcap\overline{L_1}\bigcap\overline{S_1})=1-P(M_1\bigcup L_1\bigcup S_1)$. Por lo tanto, $P(L)=1-0.56$, esto es $P(L)=0.44$.
M:“Que Alfonso no pierda alguna de las tres materias” $P(\overline{M_1}\bigcup\overline{L_1}\bigcup\overline{S_1})=1-P(M_1\bigcap L_1\bigcap S_1)$. Por lo tanto, $P(M)=1-0.09$, esto es $P(M)=0.91$.

Ejercicio 1: La probabilidad de que Alfonso pierda Matemáticas es 0.36, la probabilidad de que pierda Lenguaje es 0.31 y la probabilidad de que pierda Sociales es 0.27. La probabilidad de que pierda Matemáticas y Lenguaje es 0.18, la probabilidad de que pierda Matemáticas y Sociales es 0.16, y la probabilidad de que pierda Lenguaje y Sociales es 0.15. La probabilidad de que pierda las 3 asignaturas al tiempo es 0.07. Encuentre las siguientes probabilidades:

A:“Que Alfonso no pierda Matemáticas”
B:“Que Alfonso pierda Lenguaje pero no Matemáticas”
C:“Que Alfonso pierda sólo Lenguaje ó sólo Sociales”
D:“Que Alfonso pierda Lenguaje ó Sociales”
E:“Que Alfonso no pierda Lenguaje y no pierda Sociales”
F:“Que Alfonso Gane Matemáticas ó Gane Lenguaje”
G:“Que Alfonso pierda sólo Lenguaje”
H:“Que Alfonso pierda Lenguaje y Sociales, pero no Matemáticas”
I:“Que Alfonso pierda sólo una materia”
J:“Que Alfonso pierda sólo dos Materias.”
K:“Que Alfonso pierda alguna de las tres materias”
L:“Que Alfonso no pierda Matemáticas, no pierda Lenguaje y no pierda Sociales”
M:“Que Alfonso no pierda alguna de las tres materias”

Ejercicio 2: La probabilidad de que Alfonso pierda Matemáticas es 0.45, la probabilidad de que pierda Lenguaje es 0.38 y la probabilidad de que pierda Sociales es 0.35. La probabilidad de que pierda Matemáticas y Lenguaje es 0.25, la probabilidad de que pierda Matemáticas y Sociales es 0.19, y la probabilidad de que pierda Lenguaje y Sociales es 0.18. La probabilidad de que pierda las 3 asignaturas al tiempo es 0.11. Encuentre las siguientes probabilidades:

A:“Que Alfonso no pierda Matemáticas”
B:“Que Alfonso pierda Lenguaje pero no Matemáticas”
C:“Que Alfonso pierda sólo Lenguaje ó sólo Sociales”
D:“Que Alfonso pierda Lenguaje ó Sociales”
E:“Que Alfonso no pierda Lenguaje y no pierda Sociales”
F:“Que Alfonso Gane Matemáticas ó Gane Lenguaje”
G:“Que Alfonso pierda sólo Lenguaje”
H:“Que Alfonso pierda Lenguaje y Sociales, pero no Matemáticas”
I:“Que Alfonso pierda sólo una materia”
J:“Que Alfonso pierda sólo dos Materias.”
K:“Que Alfonso pierda alguna de las tres materias”
L:“Que Alfonso no pierda Matemáticas, no pierda Lenguaje y no pierda Sociales”
M:“Que Alfonso no pierda alguna de las tres materias”

Ejercicio 3: La probabilidad de que Alfonso pierda Matemáticas es 0.49, la probabilidad de que pierda Lenguaje es 0.39 y la probabilidad de que pierda Sociales es 0.37. La probabilidad de que pierda Matemáticas y Lenguaje es 0.26, la probabilidad de que pierda Matemáticas y Sociales es 0.22, y la probabilidad de que pierda Lenguaje y Sociales es 0.21. La probabilidad de que pierda las 3 asignaturas al tiempo es 0.13. Encuentre las siguientes probabilidades:

A:“Que Alfonso no pierda Matemáticas”
B:“Que Alfonso pierda Lenguaje pero no Matemáticas”
C:“Que Alfonso pierda sólo Lenguaje ó sólo Sociales”
D:“Que Alfonso pierda Lenguaje ó Sociales”
E:“Que Alfonso no pierda Lenguaje y no pierda Sociales”
F:“Que Alfonso Gane Matemáticas ó Gane Lenguaje”
G:“Que Alfonso pierda sólo Lenguaje”
H:“Que Alfonso pierda Lenguaje y Sociales, pero no Matemáticas”
I:“Que Alfonso pierda sólo una materia”
J:“Que Alfonso pierda sólo dos Materias.”
K:“Que Alfonso pierda alguna de las tres materias”
L:“Que Alfonso no pierda Matemáticas, no pierda Lenguaje y no pierda Sociales”
M:“Que Alfonso no pierda alguna de las tres materias”

Conteo Combinatorio

El conteo combinatorio se refiere a combinaciones y permutaciones. Las selecciones de n objetos de una población de N elementos puede hacerse de 4 formas: sin reemplazo sin orden, con reemplazo sin orden, sin reemplazo con orden y con reemplazo con orden.

El formato sin orden, el orden no interesa y no es relevante, se llaman $\textbf{combinaciones}$ y el formato con orden, el orden si interesa y es relevante para la selección, se llaman $\textbf{permutaciones}$.

Se define la combinación sin reemplazo como ${N\choose n}=\frac{N!}{n!(N-n)!}$.

Se define la combinación con reemplazo como ${N\choose n}_r={N+n-1\choose n}$.

Se define la permutación sin reemplazo como $NPn=\frac{N!}{(N-n)!}$.

Se define la permutación con reemplazo como $NP_rn=N^n$.

El conteo combinatorio es quizás el más difícil de las técnicas de conteo descritas debido al empleo de fórmulas que requieren el cálculo factorial. Se distinguen dos formas básicas de conteo combinatorio, que son el uso de combinaciones y el uso de permutaciones. Una combinación es un arreglo de elementos en el que no interesa el orden. La combinación se utiliza para calcular el número de formas en que puede resultar elegir n elementos de un total N. La fórmula de la combinación sin reemplazo ha sido descrita anteriormente, al igual que la fórmula de la combinación con reemplazo y se aplica cuando la escogencia no admite el orden pero si el reemplazamiento.

Ejemplo: Suponga que se quiere formar un comité de 3 biólogos, 4 químicos y 5 físicos. El número total de biólogos es 10, el número total de químicos es 8 y el número total de físicos es 12. Obtenga el número de formas posibles en que puede hacerse esto.

Solución En la primera fase se aplica conteo por combinaciones.

Para escoger los 3 biólogos, se puede hacer esta operación de 10C3= 120 formas.

Para escoger los 4 químicos, se puede hacer esta operación de 8C4= 70 formas.

Para escoger los 5 físicos, se puede hacer esta operación de 12C5= 792 formas.

En la fase final se aplica el teorema fundamental del conteo.

Por lo tanto, el comité se puede elegir de 120 × 70 × 792 = 6652800 formas diferentes.

Ejemplo: Se tienen 5 números positivos y 4 números negativos. A continuación se eligen al azar 3 de estos números y se multiplican.

Determine de cuántas maneras posibles se puede obtener un resultado negativo.

Solución Para obtener un resultado negativo con la multiplicación de tres números hay sólo 2 opciones: La primera, que los 3 números sean negativos. La segunda, que uno sólo de los 3 números sea negativo.

Por lo tanto, se tienen $4C3+4C1×5C2= 44$ formas distintas.

Ejemplo: Se seleccionan, sin reemplazo, 15 bolas de una urna; que contiene 18 amarillas, 15 rojas y 14 azules. Encuentre el número de posibilidades que existen para sacar 6 amarillas, 5 azules y 4 rojas. Las bolas de un mismo color son indistinguibles.

En ese orden específico
En cualquier orden
Repita los cálculos si la selección es con reemplazo.

Solución

Se aplica la combinación sin reemplazo y se multiplican los resultados:

$18C6×15C4×14C5= 50730399720$ formas diferentes.

Se aplica la combinación sin reemplazo, se ponen en cualquier orden, y se multiplican los resultados:

En este caso, se pueden arreglar en cualquier orden, y como son indistinguibles, serán $\frac{15!}{6!5!4!} = 630630$ formas.

Luego, se tienen $50730399720 × 630630 = 3, 19921 × 10^{16}$ formas diferentes.

(c)- Se aplica la combinación con reemplazo y se multiplican los resultados:

$23C6×18C4×18C5=2.64664 × 10^{12}$ formas diferentes.

Se aplica la combinación con reemplazo, se ponen en cualquier orden, y se multiplican los resultados:

En este caso, se pueden arreglar en cualquier orden, y como son indistinguibles, serán $\frac{15!}{6!5!4!} = 630630$ formas.

Luego, se tienen $2.64664x10^{12} × 630630 = 1.66905 × 10^{18} formas diferentes.

PROBLEMAS. TÉCNICAS DE CONTEO

Una mujer tiene 6 pares de calzados, 8 faldas y 5 blusas. Suponiendo que puede utilizar cualquier combinación de estos, De cuántas formas diferentes puede vestirse?
En un tour por Cartagena ofrecen 3 destinos, y en cada destino se puede elegir 1 de 3 modalidades diferentes. Obtenga el número de formas en que una familia puede realizar su tour durante 4 días.
Una familia de 10 miembros está formada por sus 2 padres y los 5 hijos: 3 varones y 2 hembras. Los miembros se sientan en una mesa redonda y cada silla ofrece un plato diferente, a excepción de los platos mayores que son 2.

Obtenga el número de formas en que se pueden sentar si los padres deben disfrutar sólo de los platos mayores.

Se tienen 5 números impares y 6 números pares diferentes. Obtenga el número de formas diferentes que existen para obtener un producto impar si se eligen 3 sin reemplazo y sin orden.
Suponga que se quiere formar un comité de 2 biólogos, 3 químicos y 4 físicos. El número total de biólogos es 8, el número total de químicos es 6 y el número total de físicos es 12. Obtenga el número de formas posibles en que puede hacerse esto.
Se seleccionan, sin reemplazo, 4 bolas de una urna; que contiene 7 amarillas, 6 rojas y 5 azules. Encuentre el número de posibilidades que existen para sacar 1 amarilla, 2 azules y una roja. Las bolas de un mismo color son indistinguibles.

En ese orden específico
En cualquier orden
Repita los cálculos si la selección es con reemplazo.

Se tienen 6 números positivos y 8 números negativos. A continuación se eligen al azar 3 de estos números y se multiplican. Determine de cuántas maneras posibles se puede obtener un resultado negativo.
Se seleccionan, sin reemplazo, 12 bolas de una urna; que contiene 12 amarillas, 14 rojas y 10 azules. Encuentre el número de posibilidades que existen para sacar 3 amarillas, 7 azules y 2 rojas. Las bolas de un mismo color son indistinguibles.

En ese orden específico
En cualquier orden
Repita los cálculos si la selección es con reemplazo.

EJERCICIOS RESUELTOS

Un depósito de agua tiene 5 caños de desagüe, que arrojan 1, 3, 5, 10 y 20 litros por minuto respectivamente. Abriendo indistintamente cuatro de estos caños, ¿en cuántos tiempos diferentes se puede desaguar el depósito?

De los 5 caños se eligen 4 sin reemplazo y sin orden, esto es, ${5\choose 4}=\frac{5!}{4!*1!}$, serían 5 tiempos distintos.

Una clase tiene 24 alumnos y el profesor pregunta cada día la lección a dos de ellos. El profesor desea que no se repita nunca la misma pareja ¿Durante cuántos días le tomará conseguirlo?

En este caso, supongamos que el va preguntando de dos en dos, no al azar, sino en orden consecutivo, serían 12 días.

Pero, si pregunta al azar debe elegir dos diferentes cada día sin volver a elegirlos, de modo que tardaría 12 días en elegirlos también.

Averiguar cuántas guardias de cinco personas se pueden programar con 14 soldados, con la condición de que el más antiguo de ellos ha de participar en todas.

Sería escoger el antiguo de 1 forma multiplicado por escoger los 4 restantes de los 13 soldados restantes, esto es ${1\choose1}{13\choose4}=715$.

En una carrera en la que participan 10 caballos existen dos tipos de apuesta: en la primera hay que acertar quién va a quedar primero, quién segundo y quién tercero; en la segunda hay que acertar cuáles van a ser los cuatro primeros caballos en llegar, pero no su clasificación. ¿Cuál de los dos tipos de apuesta crees que es más sencilla? Sustente su respuesta.

La primera apuesta hay que escoger de 10: el primero, el segundo y el tercero, que son permutaciones sin reemplazo de 3 de los 10, esto es $\frac{10!}{(10-3)!}= 10\times9\times8$, es decir, 720 formas de hacerlo.

En el segundo caso, se van a elegir 4 finalistas de los 10, esto es, una combinación sin reemplazo, esto es ${10\choose4}= 210$. Se puede observar que la segunda apuesta es más sencilla, esto es, por tener menos posibilidades es más fácil de acertar y ganar. En general, la permutación selección con orden de elementos es más numerosa que la combinación en la cual no interesa el orden en que son seleccionados sino sólo los elementos. Es por eso, que la segunda apuesta es más sencilla que la primera.

Cuatro libros de matemáticas, seis de física y dos de química han de ser colocados en una estantería. ¿Cuántas colocaciones distintas admiten sí a. Los libros de cada materia han de estar juntos.

En este caso, se tienen 3 clases de libros: Matemáticas, F'{i}sica y Química. Pero, se ordenan por tipo y entre los tipos, por ejemplo, en ese orden MFQ serían $4!\times6!\times2!=34560$; ahora bien, se ordenan los tipos, esto es la terna MFQ da origen a 6 permutaciones: MFQ, MQF, FMQ, FQM, QMF, QFM.

Por lo que, serian $34560\times 6=207360$ formas de hacerlo.

Informacion para las preguntas 1-4

En una institucion educativa de primaria se cuenta con la siguiente distribucion de salones: transicion A, 34; transicion B, 38; Primero A, 42; Primero B,41; Segundo A, 40; Segundo B, 39; Tercero A, 36; Tercero B, 35; Cuarto A, 35; Cuarto B, 34; Quinto A, 34 y Quinto B, 33.

Si se desea formar 6 grupos al elegir 8 estudiantes de cada grado; exprese la cantidad de formas diferentes que resultan.

Solución

72C8X83C8X79C8X71C8X69C8X67C8

¿De cuantas maneras diferentes se pueden formar 6 grupos de 8 en la institucion de primaria?

${72+83+79+71+69+67\choose 8,8,8,8,8,8}$

Si se desea formar 12 grupos al elegir 10 estudiantes de cada grupo; exprese la cantidad de formas diferentes que resultan.

34C10X38C10X42C10X…X34C10X33C10

¿De cuantas maneras diferentes se pueden formar 6 grupos de 5 en la institucion de primaria?

${72+83+79+71+69+67\choose 5,5,5,5,5,5}$

Informacion para las preguntas 5-8

En una institucion educativa de bachillerato se cuenta con la siguiente distribuci'on de salones: Sexto A, 31; Sexto B, 35; Sexto C, 40; Sexto D, 42; Septimo A, 41; Septimo B, 38; Octavo A, 35; Octavo B, 34; Noveno A, 34; Noveno B, 34; Decimo A, 33; Decimo B, 32; Undecimo A, 36 y Undecimo B, 37.

Explique como son las combinaciones de cada grupo, en cada punto.

Si se desea formar 6 grupos al elegir 8 estudiantes de cada grado; exprese la cantidad de formas diferentes que resultan.
¿De cuantas maneras diferentes se pueden formar 6 grupos de 8 en la institucion de bachillerato?
Si se desea formar 14 grupos al elegir 10 estudiantes de cada grupo; exprese la cantidad de formas diferentes que resultan.
¿De cuantas maneras diferentes se pueden formar 9 grupos de 5 en la institucion de bachillerato?

Medidas Estadísticas de Centralización

Las medidas estadísticas de tendencia central son, basicamente: la media aritmética, la mediana y la moda.

La media aritmética simple, de los valores $x_1, x_2,..., x_n$, es la suma de los valores entre el total de valores; es decir, con su notación, puede escribirse $\overline{x}=\frac{\sum\limits_{i=1}^n x_i}{n}$.

La mediana de ese mismo conjunto de datos, se obtiene primero ordenando los valores de menor a mayor, y luego se obtienen los valores $y_{(1)}, y_{(2)},..., y_{(n)}$. La mediana de los valores $x_1, x_2,..., x_n$, es $\tilde{x}=y_{(\frac{n+1}{2})}$ si n es impar y $\tilde{x}=\frac{y_{(\frac{n}{2})}+y_{(\frac{n}{2}+1)}}{2}$ si n es par.

La moda del conjunto de datos es el valor $\widehat{x}$ que más se repite.

Ejemplo #1 En una familia se registró el consumo eléctrico en un total de 7 meses, en la siguiente tabla. f es la fecha, C es el consumo en Kw.h y Tf es la tarifa de pesos por Kw.h. Obtenga el valor de la media aritmética y de la mediana de los consumos en Kw.h, y de los valores del recibo en cada mes, y compute sus promedios.

f=c(0324,0424,0524,0624,0724,0824,0924)
C=c(235,307,277,311,314,315,302)
Tf=1072.78

Solución

f=c(0324,0424,0524,0624,0724,0824,0924)
C=c(235,307,277,311,314,315,302)
Tf=1072.78
cbind(f,C, C*Tf)

##        f   C         
## [1,] 324 235 252103.3
## [2,] 424 307 329343.5
## [3,] 524 277 297160.1
## [4,] 624 311 333634.6
## [5,] 724 314 336852.9
## [6,] 824 315 337925.7
## [7,] 924 302 323979.6

mean(C)

## [1] 294.4286

mean(C)*Tf

## [1] 315857.1

quantile(C,0.5)

## 50% 
## 307

quantile(C,0.5)*Tf

##      50% 
## 329343.5

“mean” es el comando para la media aritmética y “quantile” es el comando para la medida de posición relativa o localización, se especifica el 50% o 0.5 para la mediana.

Si ordenamos los valores se tiene 235, 277, 302, 307, 311, 314, 315. El valor central es el cuarto dato, ya que $n=7$ y $\frac{7+1}{2}=4$. Por lo tanto, la mediana es 307.

El 50% de los meses el consumo es de 307 kw.h o menos.

f=c(0324,0424,0524,0624,0724,0824,0924)
C=c(235,307,277,311,314,315,302)
Tf=1072.78
V=C*Tf
barplot(C~f, xlab="Mes de registro", ylab="Energía Electrica Kw.h", main="Comparación de consumos mensuales")

barplot(V~f, xlab="Mes de registro", ylab="Valor en pesos según tarifa", main="Comparación de valores mensuales")

Las gráficas sugieren que la moda se puede tomar como el promedio de los 4 valores similares, esto es, $\widehat{x}=\frac{307+311+314+315}{4}$, esto es, $\widehat{x}\approx 312$ en Kw.h y $\widehat{V}=334707$ en pesos colombianos.

Ejemplo #2 Un profesor realiza un cuestionario de 10 preguntas a 100 estudiantes y encuentra los porcentajes de respuestas correctas. Los resultados se muestran a continuación.

x=c(25,32,36, 15, 45, 46, 48, 56, 47, 60)
media=mean(x)
mediana=quantile(x,0.5)
moda=mean(c(45,46,47,48))
c(media,mediana, moda)

##       50%      
## 41.0 45.5 46.5

La moda, particularmente ocurre con la tendencia de similitudes, por lo que se puede medir el coeficiente de asimetría de Pearson.

Diagnóstico de Centralización

El diagnóstico de centralización se realiza de la siguiente manera:

-Si las medidas de tendencia central anteriores son iguales la distribución de datos estudiada es simétrica.

-Si la media aritmetica es mayor que la mediana o la media aritmética es mayor que la moda la distribución es asimétrica a la derecha o sesgada positivamente.

-Si la media aritmetica es menor que la mediana o la media aritmética es menor que la moda la distribución es asimétrica a la izquierda o sesgada negativamente.

Ejemplo: Realice un diagnóstico de la distribución de consumo y especifique la forma de la distribución.

Solución

En el caso anterior, la cantidad de Kw.h consumidos tiene una media aritmética de 294.43, tiene una mediana de 307 y una moda de 312.

Con esto se tiene $\overline{x}<\tilde{x}<\widehat{x}$. Esto indica que la media aritmetica es menor que la mediana o la media aritmética es menor que la moda la distribución es asimétrica a la izquierda o sesgada negativamente.

Ejemplo #2 Un profesor realiza un cuestionario de 10 preguntas a 100 estudiantes y encuentra los porcentajes de respuestas correctas. Los resultados se muestran a continuación.

x=c(25,32,36, 15, 45, 46, 48, 56, 47, 60)
media=mean(x)
mediana=quantile(x,0.5)
moda=mean(c(45,46,47,48))
varianza=var(x)
Asimetria=(media-moda)/sqrt(varianza)
varrel=sqrt(varianza)/media*100
c(media,mediana, moda,Asimetria,varrel)

##                   50%                                  
## 41.0000000 45.5000000 46.5000000 -0.3944254 34.0105702

La media es menor que la mediana y la mediana es menor que la moda; por lo tanto la asimetria es a la izquierda, es decir, distribución sesgada negativamente.

Ejercicio 1: Consiga el último recibo de aire de su casa y repita los ejercicios anteriores. Tenga en cuenta que su tarifa cambia y los consumos tambien, pero el procedimiento es el mismo.

Coeficiente de Asimetría de Pearson

El coeficiente de asimetría de Pearson, se define como

$A_p=\frac{\overline{x}-\widehat{x}}{s_x}$, donde $s_x$ es la desviación estándar, que se obtiene como la raíz cuadrada de la varianza. La varianza y la desviación estándar son medidas de dispersión. Para interpretar $A_p$ se toma como referencia la distribución de holgura, del siguiente modo

-Si $|A_p|<\frac{1}{2}$ la asimetría es baja.

-Si $\frac{1}{2}\leq |A_p|<\frac{\sqrt{2}}{2}$ la asimetría es moderada.

-Si $|A_p|\geq\frac{\sqrt{2}}{2}$ la asimetría es alta.

-El signo del sesgo puede ser positivo o negativo.

La varianza muestral se define $S_x^2=\frac{\sum\limits_{i=1}^n x_i^2-n\overline{x}^2}{n-1}$.

Para tener una idea del comportamiento de la varianza, se tiene en cuenta que si los datos son muy parecidos la variación es baja. Existe un coeficiente de variación relativa para comparar distribuciones de variables de magnitudes diferentes, este se define como $CV_x=|\frac{s_x}{\overline{x}}|*100\%$. Este se interpreta así

-Si $CV_x<0.5$ la distribución tiene baja variabilidad.

-Si $0.5\leq CV_x<\frac{\sqrt{2}}{2}$ la distribución tiene variabilidad moderada.

-Si $CV_x\geq \frac{\sqrt{2}}{2}$ la distribución tiene alta variabilidad.

Ejemplo #1 En una familia se registró el consumo eléctrico en un total de 7 meses, en la siguiente tabla. f es la fecha, C es el consumo en Kw.h y Tf es la tarifa de pesos por Kw.h. Obtenga el valor de los coeficientes de Pearson y de la variabilidad relativa. Interprete sus resultados.

f=c(0324,0424,0524,0624,0724,0824,0924)
C=c(235,307,277,311,314,315,302)
Tf=1072.78

Solución

A continuación elevamos al cuadrado los valores y los sumamos, obtenemos la media y la varianza

f=c(0324,0424,0524,0624,0724,0824,0924)
C=c(235,307,277,311,314,315,302)
Tf=1072.78
n=7
Cd=C^2
C2=sum(Cd)
Cm=mean(C)
S_x2=(C2-n*Cm^2)/(n-1)
S_x2

## [1] 855.2857

## la varianza tambien puede calcularse como var(C).
S_x=sqrt(S_x2)
Ap=(Cm-312)/S_x
Ap

## [1] -0.6008298

## Una asimetría negativa y en valor absoluto entre 0.5 y 0.707, es moderada
CV_x=S_x/Cm*100
CV_x

## [1] 9.932891

## Un coeficiente de variación relativa de 9\% indica baja variabilidad.

Ejemplo #2 Un profesor realiza un cuestionario de 10 preguntas a 100 estudiantes y encuentra los porcentajes de respuestas correctas. Los resultados se muestran a continuación.

x=c(25,32,36, 15, 45, 46, 48, 56, 47, 60)
media=mean(x)
mediana=quantile(x,0.5)
moda=mean(c(45,46,47,48))
varianza=var(x)
Asimetria=(media-moda)/sqrt(varianza)
CVx=sqrt(varianza)/media*100
c(media,mediana, moda,Asimetria,CVx)

##                   50%                                  
## 41.0000000 45.5000000 46.5000000 -0.3944254 34.0105702

La asimetría absoluta es menor que 0.5 y la variación relativa es menor que el 50%, por lo que la distribución es de baja asimetría y de baja variabilidad.

Ejercicio 2: Consiga el último recibo de aire de su casa y repita los ejercicios anteriores. Tenga en cuenta que su tarifa cambia y los consumos tambien, pero el procedimiento es el mismo.

Resumen de Cinco números

El resumen de 5 números consiste en hallar: valor minimo, los cuartiles (inferior (25%), mediana (50%) y superior (75%)) y el valor máximo. Con esto se construye el gráfico de caja y bigotes (boxplot).

Ejemplo #1 En una familia se registró el consumo eléctrico en un total de 7 meses, en la siguiente tabla. f es la fecha, C es el consumo en Kw.h y Tf es la tarifa de pesos por Kw.h. Obtenga el resumen de 5 números y trace el diagrama de caja y bigotes. Interprete sus resultados.

f=c(0324,0424,0524,0624,0724,0824,0924)
C=c(235,307,277,311,314,315,302)
Tf=1072.78

Solución

A continuación hacemos el resumen de 5 números. (ver [1]).

f=c(0324,0424,0524,0624,0724,0824,0924)
C=c(235,307,277,311,314,315,302)
Tf=1072.78
n=7
min(C)

## [1] 235

max(C)

## [1] 315

quantile(C, c(0.25,0.5,0.75))

##   25%   50%   75% 
## 289.5 307.0 312.5

boxplot(C, main="Gráfico de Caja y Bigotes")

En este caso se observa que el bigote superior es más pequeño que el inferior y la porción superior de la caja es más pequeña que la porción inferior; de este modo, la distribución es sesgada negativamente o asimétrica a la izquierda.

Ejemplo #2 Un profesor realiza un cuestionario de 10 preguntas a 100 estudiantes y encuentra los porcentajes de respuestas correctas. Los resultados se muestran a continuación.

x=c(25,32,36, 15, 45, 46, 48, 56, 47, 60)
xmin=min(x)
q1=quantile(x,0.25)
q2=quantile(x,0.5)
q3=quantile(x,0.75)
xmax=max(x)
c(xmin,q1,q2,q3,xmax)

##         25%   50%   75%       
## 15.00 33.00 45.50 47.75 60.00

boxplot(x,main="Caja y Bigotes")

Se observa que el bigote inferior es mayor que el superior, por lo que la distribución es asimétrica a la izquierda. También el área del lado inferior de la caja es mayor que el área del lado superior.

Ejercicio 3: Consiga el último recibo de aire de su casa y repita los ejercicios anteriores. Tenga en cuenta que su tarifa cambia y los consumos tambien, pero el procedimiento es el mismo.

Análisis en frecuencias no agrupadas

Para variables cuantitativas discretas como el número de hijos en una familia, el número de fallas, la cantidad de días de incapacidad o el número de defectos en un artefacto; se mantienen las definiciones de las medidas de centralización, la variabilidad, asimetría y cuartiles.

Ejemplo: Un profesor analiza las ausencias de un grupo de 25 estudiantes durante 3 meses. Los datos son los siguientes

$x=c(2,1,2,1,0,3,3,4,4,5,2,1,1,1,3,2,1,1,0,0,1,1,2,1,6)$.

Organice los datos en una tabla de frecuencias no agrupadas y trace un gráfico de barras.
Determine la media, mediana y moda.
Realice el diagnóstico de centralización.
Halle la varianza, la desviación estándar y el coeficiente de variación.
Realice el diagnóstico de variabilidad.
Halle la asimetría de Pearson.
Interprete la asimetría de la distribución.
Halle el resumen de 5 números.
Haga el gráfico de caja y bigotes e interprete.

Solución

A continuación, se organizan

x=c(2,1,2,1,0,3,3,4,4,5,2,1,1,1,3,2,1,1,0,0,1,1,2,1,6)
table(x)

## x
##  0  1  2  3  4  5  6 
##  3 10  5  3  2  1  1

barplot(table(x))

Las medidas de centralización

x=c(2,1,2,1,0,3,3,4,4,5,2,1,1,1,3,2,1,1,0,0,1,1,2,1,6)
mean(x)

## [1] 1.92

median(x)

## [1] 1

moda=1;moda

## [1] 1

La media es mayor que la mediana y que la moda. Por lo tanto, la distribución es asimétrica a la derecha osesgada positivamente.
Las medidas de dispersión

x=c(2,1,2,1,0,3,3,4,4,5,2,1,1,1,3,2,1,1,0,0,1,1,2,1,6)
var(x)

## [1] 2.41

sqrt(var(x))

## [1] 1.552417

sqrt(var(x))/mean(x)*100

## [1] 80.85508

El coeficiente de variación es de 80.85%, mayor que 70.7%, y por lo tanto, la distribución es de alta variabilidad.
La asimetría de Pearson

x=c(2,1,2,1,0,3,3,4,4,5,2,1,1,1,3,2,1,1,0,0,1,1,2,1,6)
media=mean(x)
moda=1
sx=sqrt(var(x)) #desviación estándar
Ap=(media-moda)/sx
Ap

## [1] 0.5926241

Como la asimetría de Pearson está entre 0.50 y 0.707 se tiene que la asimetría de la distribución de ausencias es moderada.
El resumen de 5 números

x=c(2,1,2,1,0,3,3,4,4,5,2,1,1,1,3,2,1,1,0,0,1,1,2,1,6)
xmin=min(x)
q1=quantile(x,0.25)
q2=median(x)
q3=quantile(x,0.75)
xmax=max(x)
c(xmin,q1,q2,q3,xmax)

##     25%     75%     
##   0   1   1   3   6

El gráfico de caja y bigotes

x=c(2,1,2,1,0,3,3,4,4,5,2,1,1,1,3,2,1,1,0,0,1,1,2,1,6)
boxplot(x)

Se evidencia en el gráfico de caja y bigotes, la asimetría a la derecha o sesgo positivo.

Ejercicio: Un profesor analiza las ausencias de un grupo de 25 estudiantes durante 3 meses. Los datos son los siguientes

$x=c(2,2,2,1,0,3,3,4,4,5,2,3,1,1,3,2,1,1,0,0,1,1,2,1,6)$.

Organice los datos en una tabla de frecuencias no agrupadas y trace un gráfico de barras.
Determine la media, mediana y moda.
Realice el diagnóstico de centralización.
Halle la varianza, la desviación estándar y el coeficiente de variación.
Realice el diagnóstico de variabilidad.
Halle la asimetría de Pearson.
Interprete la asimetría de la distribución.
Halle el resumen de 5 números.
Haga el gráfico de caja y bigotes e interprete.

Distribución Estadística

Una distribución estadística es la estructura de comportamiento de una variable.

A continuación, se esboza la gráfica de una densidad gamma con parámetro de forma $\alpha=4$ y parámetro de escala $\beta=\frac{1}{125}$.

x=seq(from=0,to=2000,by=0.1)
y=x^3*2.7182^(-x/125)/(125^4*6)
plot(x,y,xlab="Gastos en electricidad en miles de pesos", ylab="Proporción de Familias", main="Distribución Asimétrica a la derecha")

En esta gráfica, se observa el sesgo positivo de la distribución de gastos.

A continuación, se grafica la densidad normal con media 50 y desviación estándar de 7, de las calificaciones por materia, en un Colegio.

x=seq(from=0,to=100,by=0.01)
y=1/(2*3.14159*49)*2.7182^(-(x-50)^2/98)
plot(x,y,xlab="Calificaciones Definitivas en un Curso", ylab="Proporción de Estudiantes", main="Distribución Simétrica")

En esta gráfica se visualiza un comportamiento normal, propio de la campana de Gauss, para la calificación definitiva de un grupo. El hecho de que la calificación definitiva se compone del promedio de varias notas, hace que exista un comportamiento gaussiano. Un ejemplo de esto son las pruebas estandarizadas nacionales e internacionales, como la prueba I.C.F.E.S y la prueba PISA.

Ejemplo 1: Se selecciona una muestra de 16 estudiantes y se les pregunta la edad. Los datos se muestran a continuación.

x=c(14,15,16,17)
f=c(5,3,4,4)
mu=sum(x*f)/sum(f)
varx=(sum(x^2*f)/sum(f)-mu^2)*sum(f)/(sum(f)-1)
desv=(varx)^0.5
c(mu,varx,desv)

## [1] 15.437500  1.462500  1.209339

En orden, se visualizan la edad promedio, la varianza y la desviación típica estándar.

Existen cinco grandes clases de medidas estadísticas:

Medidas de centralización o de tendencia central
Medidas de dispersión o de variabilidad
Medidas de posición o de localización
Medidas de forma
Medidas de correlación

Medidas de tendencia central

Son aquellas que se utilizan para medir el centro de una distribución.
La principal medida de centralización es la media aritmética, que por sus buenas propiedades llega a ser la medida más recomendada para medir el centro de cualquier distribución de datos.

Sin embargo, para distribuciones asimétricas se puede proponer el uso de la mediana como principal medida de tendencia central, ya que en esos casos puede representar mejor el centro de la distribución de datos considerada.

La media aritmética

Para datos sueltos y una muestra conformada por los elementos
$x_1, x_2, \ldots, x_n$, se define la media muestral como:

\[ \overline{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} \]

Esto es, la suma de los datos dividida entre el total de observaciones.

Propiedades de la media aritmética

El total de los valores de la variable es igual al número de datos multiplicado por la media: \[ \sum_{i=1}^{n} x_i = n\overline{x} \]
La suma de las desviaciones respecto a la media es cero: \[ \sum_{i=1}^{n} (x_i - \overline{x}) = 0 \]
La media es una medida de grupo y no representa necesariamente a los valores individuales: \[ x_i \neq \overline{x} \]
El valor esperado de la media aritmética bajo muestreo aleatorio es igual a la media poblacional: \[ E(\overline{X}) = \mu_x \]
Para muestras aleatorias grandes ($n > 50$) provenientes de poblaciones con asimetría no extrema, la media se aproxima a una distribución normal: \[ \overline{X} \sim N\left(\mu_x, \frac{\sigma}{\sqrt{v}}\right) \]

donde: - $\mu_x$ es la media poblacional
- $\sigma$ es la desviación estándar poblacional
- $v = n$ con reemplazo
- $v = \frac{n(N-1)}{N-n}$ sin reemplazo en población finita

La media es sensible a valores extremos.
La media de una constante es la misma constante.
Si $y = aX + b$, entonces: \[ \overline{y} = a\overline{X} + b \]

Ejemplo 1

A partir de los siguientes datos, muestre que las desviaciones respecto a la media suman cero:

\[ X = \{2, 3, 4, 4, 5, 6, 6, 8, 9, 13\} \]

Solución

Usando la fórmula del promedio se obtiene: \[ \overline{x} = 6 \]

No.	$x$	$d = x - \overline{x}$
1	2	-4
2	3	-3
3	4	-2
4	4	-2
5	5	-1
6	6	0
7	6	0
8	8	2
9	9	3
10	13	7

La suma de las desviaciones es:

\[ -4 - 3 - 2 - 2 - 1 + 0 + 0 + 2 + 3 + 7 = 0 \]

Ejemplo 2

Se selecciona al azar una muestra sin reemplazo de 60 familias de una población de 415.
La variable $x$ representa la cantidad de hermanos por familia y el promedio es $\overline{x} = 4.4$.

Determine:

a) Gasto promedio semanal

Dado: \[ y = 5x + 3 \]

Aplicando la propiedad de linealidad:

\[ \overline{y} = 5\overline{x} + 3 = 5(4.4) + 3 = 25 \]

b) Gasto total semanal de la población

\[ \widehat{Y} = 415 \times 25 = 10\,375 \]

La mediana

Se define la mediana muestral como aquel valor para el cual al menos el 50 % de los valores de la distribución de datos son menores o iguales que este.

Si se tiene una muestra de datos $x_1, x_2, \ldots, x_n$, y estos se ordenan de menor a mayor como
$o_1, o_2, \ldots, o_n$, entonces la mediana viene dada por:

\[ \tilde{x} = o_{(n+1)/2} \quad \text{si } n \text{ es impar} \]

\[ \tilde{x} = \frac{o_{n/2} + o_{(n/2)+1}}{2} \quad \text{si } n \text{ es par} \]

Por lo tanto, antes de realizar los cálculos, los datos deben ordenarse de menor a mayor, de tal forma que el dato $o_i$ represente el valor en la posición $i$ de la ordenación.

Propiedades de la mediana

Para distribuciones desconocidas: \[ \sum_{i=1}^{n} x_i \neq n\tilde{x} \]
Las desviaciones respecto a la mediana no suman cero: \[ \sum_{i=1}^{n} (x_i - \tilde{x}) \neq 0 \]
La mediana representa adecuadamente el centro de distribuciones asimétricas: \[ x_i \neq \tilde{x} \]
El valor esperado de la mediana no es igual a la mediana poblacional: \[ E(\tilde{X}) \neq \tilde{\mu}_x \]
Para muestras grandes ($n > 50$) provenientes de poblaciones normales: \[ \tilde{X} \sim N\left(\mu_x, \frac{2.17\sigma_x}{\sqrt{v}}\right) \]

donde: - $\mu_x$ es la media poblacional
- $\sigma_x$ es la desviación estándar poblacional
- $v = n$ con reemplazo
- $v = \frac{n(N-1)}{N-n}$ sin reemplazo

La mediana no es afectada por valores extremos, por lo cual es una medida adecuada en distribuciones asimétricas.

La moda

La moda es el valor que más se repite en una distribución y se simboliza como $\widehat{x}$.

Una propiedad importante de la moda es que es la única medida de tendencia central aplicable a datos categóricos.

Ejemplo 1

El precio (en millones de pesos) de una muestra aleatoria de 5 apartamentos en el barrio La Victoria de Barranquilla es:

110, 130, 150, 175, 120

Determine la media, la mediana y la moda.

Solución

Media:

\[ \overline{x} = \frac{110 + 130 + 150 + 175 + 120}{5} = 137 \]

El precio promedio estimado es de 137 millones de pesos.

Mediana:

Ordenando los datos:

110, 120, 130, 150, 175

Como $n = 5$ es impar:

\[ \tilde{x} = o_{(n+1)/2} = o_3 = 130 \]

Esto indica que al menos el 50 % de los apartamentos tiene un precio de 130 millones de pesos o menos.

Moda:

No existe moda, ya que todos los valores tienen la misma frecuencia.

Media ponderada

Si el dato $x_1$ se repite $f_1$ veces, $x_2$ se repite $f_2$ veces, y así sucesivamente, la media ponderada se define como:

\[ \overline{x} = \frac{\sum_{i=1}^{c} x_i f_i}{\sum_{i=1}^{c} f_i} \]

Ejemplo 2

En una empresa de electrodomésticos se registran los precios de 20 computadores con la siguiente distribución:

Precio (millones $)	1.4	1.6	2.0	2.5	3.2
Número de computadores	3	5	7	3	2

Solución

Media:

\[ \overline{x} = \frac{1.4(3) + 1.6(5) + 2.0(7) + 2.5(3) + 3.2(2)}{20} = \frac{40.1}{20} = 2.005 \]

El precio promedio es 2 millones cinco mil pesos.

Mediana:

Los valores 10 y 11 corresponden al precio de 2.0, por lo tanto:

\[ \tilde{x} = \frac{2 + 2}{2} = 2 \]

Moda:

\[ \widehat{x} = 2 \]

ya que este valor se repite 7 veces.

Como la media, la mediana y la moda son prácticamente iguales, se concluye que la distribución es simétrica.

Media poblacional

Para una población finita de tamaño $N$:

\[ \mu_x = \frac{X_1 + X_2 + \cdots + X_N}{N} \]

Si la población es infinita, la media poblacional se estima mediante muestreo repetitivo como un promedio muestral a largo plazo.

Medidas de variabilidad

Entre las principales medidas de variabilidad se encuentran: el rango, la varianza, la desviación estándar y el coeficiente de variación.

El rango

El rango se define como la diferencia entre el valor máximo y el valor mínimo de un conjunto de datos, o como la diferencia absoluta entre dos valores.

Matemáticamente:

\[ R = X_{\text{max}} - X_{\text{min}} \]

El rango se utiliza principalmente para construir tablas de frecuencias agrupadas. En muchos casos, el rango entre dos valores puede dividirse entre algún número para promediar y estimar el comportamiento de una variable en un período más corto.

Propiedades del rango

El rango es no negativo: \[ R \geq 0 \]
El rango no permite identificar los valores extremos de la distribución, solo su diferencia absoluta.
Si el valor mínimo es cero, el rango es igual al valor máximo.
El rango es mayor o igual que la desviación estándar: \[ R \geq S \]

La varianza muestral

La varianza muestral para datos sueltos se define como:

\[ S^2 = \frac{\sum_{i=1}^{n} x_i^2 - \frac{1}{n}\left(\sum_{i=1}^{n} x_i\right)^2}{n-1} \]

Para datos agrupados en una tabla de frecuencias, la varianza se calcula como:

\[ S^2 = \frac{\sum_{i=1}^{c} f_i x_i^2 - \frac{1}{n}\left(\sum_{i=1}^{c} f_i x_i\right)^2}{n-1} \]

La varianza se expresa en unidades al cuadrado, lo cual dificulta su interpretación directa. Por esta razón, se utiliza la desviación estándar, que es la raíz cuadrada de la varianza.

Propiedades de la varianza

La varianza es no negativa: \[ S^2 \geq 0 \]
La varianza de una constante es cero: \[ V(C) = 0 \]
La varianza de una variable sumada con una constante no cambia: \[ V(X + C) = V(X) \]
La varianza de una variable multiplicada por una constante es: \[ V(CX) = C^2 V(X) \]

La desviación estándar

La desviación estándar es una medida de dispersión que indica la separación promedio de los valores respecto al centro de la distribución, caracterizado por la media muestral.

Se define como:

\[ S = \sqrt{S^2} \]

Propiedades de la desviación estándar

La desviación estándar es no negativa: \[ S \geq 0 \]
La desviación estándar de una constante es cero: \[ D(C) = 0 \]
La desviación estándar de una variable sumada con una constante no cambia: \[ D(X + C) = D(X) \]
La desviación estándar de una variable multiplicada por una constante es: \[ D(CX) = |C| D(X) \]

Coeficiente de variación

El coeficiente de variación (CV) es una medida de variabilidad relativa que permite comparar la dispersión de diferentes conjuntos de datos, independientemente de las unidades de medida.

Se define como:

\[ CV = \left| \frac{S}{\overline{x}} \right| \times 100\%, \quad \overline{x} \neq 0 \]

Criterios de interpretación:

Alta variabilidad:
\[ CV \geq 100\% \]
Variabilidad moderada:
\[ 50\% \leq CV < 100\% \]
Baja dispersión:
\[ CV < 50\% \]

Propiedades del coeficiente de variación

El coeficiente de variación es no negativo: \[ CV \geq 0 \]
El coeficiente de variación de una constante es cero: \[ CV(C) = 0 \]
El coeficiente de variación no cambia ante transformaciones de escala: \[ CV(CX) = CV(X), \quad C \geq 0 \]

Ejemplo 1

Considere los precios (en millones de pesos) de los apartamentos en el barrio La Victoria:

110, 130, 150, 175, 120

Solución

Rango:

\[ R = 175 - 110 = 65 \]

Varianza muestral:

\[ S^2 = \frac{(110 - 137)^2 + (130 - 137)^2 + \cdots + (120 - 137)^2}{5 - 1} = 670 \]

Desviación estándar:

\[ S = \sqrt{670} = 25.88 \]

Coeficiente de variación:

\[ CV = \frac{25.88}{137} \times 100\% = 18.89\% \]

La distribución presenta baja dispersión.

Ejemplo 2

Considere la siguiente tabla de frecuencias correspondiente a los precios de venta de 20 computadores:

Precio (millones)	Frecuencia	$f(x - \overline{x})^2$
1.4	3	1.098075
1.6	5	0.820125
2.0	7	0.000175
2.5	3	0.735075
3.2	2	2.856050
Total	20	5.5095

Solución

Rango:

\[ R = 3.2 - 1.4 = 1.8 \]

Varianza muestral:

\[ S^2 = \frac{5.5095}{19} = 0.28997 \]

Desviación estándar:

\[ S = \sqrt{0.28997} = 0.53849 \]

Coeficiente de variación:

\[ CV = \frac{0.53849}{2.005} \times 100\% = 26.86\% \]

La distribución presenta baja dispersión.

Ejemplo

A continuación se presentan los gastos en servicios públicos, expresados en miles de pesos, correspondientes a 10 viviendas.
Determine las principales medidas de tendencia central y de dispersión.

Observación	Gasto (miles de pesos)	$(x_i - \overline{x})^2$
1	175	53.29
2	153	858.49
3	188	32.49
4	176	39.69
5	124	3398.89
6	135	2237.29
7	250	4583.29
8	210	767.29
9	220	1421.29
10	192	94.09
Suma	1823	13486.10

Solución

Media aritmética

\[ \overline{x} = \frac{175 + 153 + \cdots + 192}{10} = 182.3 \]

Es decir, el gasto promedio en servicios públicos se estima en 182 300 pesos.

Mediana

Al ordenar los datos de menor a mayor se obtiene:

124, 135, 153, 175, 176, 188, 192, 210, 220, 250

Como el tamaño de la muestra es par, la mediana es:

\[ \tilde{x} = \frac{O_{(n/2)} + O_{(n/2+1)}}{2} = \frac{176 + 188}{2} = 182 \]

Esto indica que el 50 % de las viviendas no supera los 182 000 pesos en gastos por servicios públicos.

Moda

En esta muestra no existe moda, ya que todos los valores aparecen una sola vez.

Medidas de dispersión

Rango

\[ R = 250 - 124 = 126 \]

Varianza muestral

\[ S^2 = \frac{(175 - 182.3)^2 + (153 - 182.3)^2 + \cdots + (192 - 182.3)^2}{10 - 1} \]

\[ S^2 = \frac{13486.1}{9} = 1498.46 \]

Desviación estándar

\[ S = \sqrt{1498.46} = 38.71 \]

Coeficiente de variación

\[ CV = \left|\frac{S}{\overline{x}}\right| \times 100\% = \frac{38.71}{182.3} \times 100\% = 21.23\% \]

Interpretación

La distribución presenta baja dispersión, lo que indica que los gastos en servicios públicos de las viviendas son relativamente homogéneos.

Medidas de posición relativa

Los percentiles de una distribución se definen como el valor de la variable que deja al menos un $p\%$ de los datos por debajo de él y un $(100-p)\%$ por encima.

Los percentiles más utilizados son los deciles, que acumulan hasta el 10 %, 20 %, 30 %, 40 %, 50 %, 60 %, 70 %, 80 % y 90 % de los datos, respectivamente. Se nombran desde el primer hasta el noveno decil.

Otros percentiles ampliamente usados son los cuartiles, los cuales dividen la distribución en cuatro partes iguales, cada una con el 25 % de los datos. En este contexto se definen:

Primer cuartil $Q_1$: 25 %
Segundo cuartil $Q_2$: 50 % (coincide con la mediana)
Tercer cuartil $Q_3$: 75 %

Para calcular un percentil $L_p$, los datos de la muestra deben ordenarse de menor a mayor.

Las fórmulas empleadas para el cálculo de percentiles en Excel mediante PERCENTIL.INC (o PERCENTIL) son las mismas que utiliza el lenguaje de programación R a través del comando quantile().

Ejemplo

Calcule:

El percentil 65
El percentil 40

de los siguientes datos, que representan los precios de la gasolina corriente en Colombia desde enero de 2014 hasta abril de 2015:

8480, 8565, 8586, 8569, 8722, 8722, 8722, 8727, 8748, 8495, 8402, 8264, 7963, 7963

Solución

Se utiliza la función quantile() del lenguaje R.
Definiendo el vector de datos como:

\[ x = (8480, 8565, 8586, \ldots, 7963, 7963) \]

Para el percentil 65:

\[ L_{65} = \text{quantile}(x, 0.65) = 8647.2 \]

En al menos el 65 % de los meses, el valor de la gasolina en Colombia fue menor o igual a $8647.2.

Para el percentil 40:

\[ L_{40} = \text{quantile}(x, 0.40) = 8509 \]

En al menos el 40 % de los meses, el valor de la gasolina en Colombia fue menor o igual a $8509.

Ejemplo

Con los datos del ejemplo anterior, determine e interprete los cuartiles.

Solución

Se utiliza nuevamente la función quantile() del lenguaje R.

Primer cuartil:

\[ L_{25} = \text{quantile}(x, 0.25) = 8421.5 \]

En al menos el 25 % de los meses, el valor de la gasolina fue menor o igual a $8421.5.

Segundo cuartil (mediana):

\[ L_{50} = \text{quantile}(x, 0.50) = 8567 \]

En al menos el 50 % de los meses, el valor de la gasolina fue menor o igual a $8567.

Tercer cuartil:

\[ L_{75} = \text{quantile}(x, 0.75) = 8722 \]

En al menos el 75 % de los meses, el valor de la gasolina fue menor o igual a $8722.

Existen múltiples definiciones alternativas para el cálculo de percentiles que pueden generar resultados diferentes.
Una alternativa consiste en construir la distribución de frecuencias relativas acumuladas y aplicar interpolación lineal entre los puntos más cercanos, lo cual proporciona una buena aproximación a las medidas de posición relativa.

Medidas de forma

Las medidas de forma describen la apariencia de una distribución. Las principales son:

Coeficiente de asimetría (o sesgo)
Coeficiente de curtosis (o apuntamiento)

Coeficiente de asimetría de Fisher

La medida más utilizada para cuantificar la asimetría es el coeficiente de asimetría de Fisher, representado por $A$, y definido como:

\[ A = \frac{E(X - \mu)^3}{\sigma^3} \]

donde $\mu$ es la media y $\sigma$ es la desviación estándar.

Si $A > 0$, la distribución es asimétrica positiva (cola a la derecha).
Si $A < 0$, la distribución es asimétrica negativa (cola a la izquierda).
Si $A = 0$, la distribución es simétrica.

Propiedades

El coeficiente de asimetría de Fisher cumple $A \leq \sqrt{n}$.
Puede tomar cualquier valor real.
No cambia bajo transformaciones lineales:
\[ A(aX + b) = A(X), \quad a > 0 \]
Permite identificar la dirección de la cola de la distribución.

Coeficiente de curtosis de Fisher

El coeficiente de curtosis de Fisher, representado por $K$, se define como:

\[ K = \frac{E(X - \mu)^4}{\sigma^4} \]

donde $\mu$ es la media y $\sigma$ la desviación estándar.

Si $K > 3$, la distribución es leptocúrtica.
Si $K < 3$, la distribución es platicúrtica.
Si $K = 3$, la distribución es mesocúrtica (normal).

Muchos programas estadísticos utilizan la curtosis ajustada $K - 3$ y la comparan con cero.

Propiedades

El coeficiente de curtosis muestral satisface $K \geq 1$.
En otros contextos, el mínimo puede ser $-2$.
Puede tomar cualquier valor real mayor o igual que 1 (o mayor o igual que −2 si se ajusta).
No cambia bajo transformaciones lineales:
\[ K(aX + b) = K(X) \]
Permite identificar el grado de apuntamiento de la distribución y la presencia de concentraciones o grupos extremos.

Ejemplo

Hallar las medidas de asimetría de Fisher y curtosis con los valores de la gasolina corriente:

7963, 7963, 8264, 8402, 8480, 8495, 8565, 8569, 8586, 8722, 8722, 8722, 8727, 8748

Solución

Para la asimetría y la curtosis se puede aplicar el siguiente procedimiento.

La fórmula de la asimetría de Fisher es:

\[ A = \frac{\sum_{i=1}^n x_i^3 - n\overline{x}^3 - 3s^2(n-1)\overline{x}}{n s^3} \]

Se tienen los siguientes valores:

\[ \sum_{i=1}^n x_i = 118928 \]

\[ \sum_{i=1}^n x_i^2 = 1\,011\,195\,730 \]

\[ \sum_{i=1}^n x_i^3 = 8.60533 \times 10^{12} \]

\[ \sum_{i=1}^n x_i^4 = 7.3294 \times 10^{16} \]

La media muestral es:

\[ \overline{x} = \frac{118928}{14} = 8494.86 \]

La varianza muestral:

\[ S^2 = \frac{1\,011\,195\,730 - \frac{(118928)^2}{14}}{13} = 70719.978 \]

La desviación estándar:

\[ S = \sqrt{70719.978} = 265.93 \]

La desviación estándar corregida:

\[ \widehat{S} = \sqrt{\frac{13}{14} \times 70719.978} = 256.26 \]

Sustituyendo en la fórmula de asimetría:

\[ A = \frac{8.60533 \times 10^{12} - 14(8494.86)^3 - 3(70719.978)(13)(8494.86)}{14(256.26)^3} \]

\[ A = -1.05 < 0 \]

Por lo tanto, la distribución es asimétrica negativa, es decir, sesgada hacia la izquierda.

La curtosis de Fisher se define como:

\[ K = \frac{\sum_{i=1}^n x_i^4 - 4\overline{x}\sum_{i=1}^n x_i^3 + 6\overline{x}^2\sum_{i=1}^n x_i^2 - 3n\overline{x}^4}{n s^4} \]

Sustituyendo los valores:

\[ K = \frac{7.3294 \times 10^{16} - 4(8494.86)(8.60533 \times 10^{12})}{14(256.26)^4} \]

\[ + \frac{6(8494.86)^2(1\,011\,195\,730) - 3(14)(8494.86)^4}{14(256.26)^4} \]

\[ K = 2.95 \]

Como $K < 3$, la distribución es platicúrtica.

Ejemplo

Considere la siguiente tabla de datos agrupados:

Clases	Frecuencia $f$	Frecuencia acumulada $F$	Marca de clase $X$	$X \times f$
20 – 60	38	38	40	1520
60 – 100	24	62	80	1920
100 – 140	17	79	120	2040
140 – 180	12	91	160	1920
180 – 220	6	97	200	1200
220 – 260	3	100	240	720
Total	100			9320

Media

\[ \overline{x} = \frac{\sum x_i f_i}{\sum f_i} = \frac{9320}{100} = 93.2 \]

Moda

\[ \widehat{x} = L_i + \frac{f_i - f_{i-1}}{(f_i - f_{i-1}) + (f_i - f_{i+1})} \times W \]

\[ \widehat{x} = 20 + \frac{38 - 0}{(38 - 0) + (38 - 24)} \times 40 = 49.23 \]

Donde:

$L_i$: límite inferior de la clase modal
$f_i$: frecuencia de la clase modal
$f_{i-1}$: frecuencia de la clase anterior
$f_{i+1}$: frecuencia de la clase siguiente
$W$: amplitud de la clase

Mediana

\[ \tilde{x} = L_j + \frac{\frac{n}{2} - F_{j-1}}{f_j} \times W \]

\[ \tilde{x} = 60 + \frac{50 - 38}{24} \times 40 = 80 \]

Donde:

$L_j$: límite inferior de la clase mediana
$F_{j-1}$: frecuencia acumulada anterior
$f_j$: frecuencia de la clase mediana
$W$: amplitud

Percentil

\[ L_p = L_k + \frac{np - F_{k-1}}{f_k} \times W \]

Donde:

$L_k$: límite inferior de la clase percentil
$F_{k-1}$: frecuencia acumulada anterior
$f_k$: frecuencia de la clase percentil
$W$: amplitud

Datos atípicos

Un análisis que suele hacerse a los datos es determinar si existe la presencia de valores atípicos o defectuosos en la muestra. Para ello, el gráfico habitual es el gráfico de caja y bigotes.

Ejemplo

Con los datos encontrados por el profesor de Física al liquidar la suma de 7 calificaciones del tercer periodo académico, construya un gráfico de cajas y bigotes.

Calificación total	Número de estudiantes
11	1
13	2
14.5	1
15.5	1
17	2
18.8	1
19	1
21	6
21.8	1
23	1
23.8	1
24	1
28	4
29.8	1
35	1

Solución

En primera medida, se determinan los cuartiles:

\[ Q_1 = \text{quantile}(x, 0.25) = 17 \]

\[ Q_2 = x_{(13)} = 21 \]

\[ Q_3 = \text{quantile}(x, 0.75) = 24 \]

El rango intercuartílico es:

\[ RI = Q_3 - Q_1 = 24 - 17 = 7 \]

Los límites de los bigotes son:

\[ b.i = Q_1 - 1.5RI = 17 - 1.5(7) = 6.5 \]

\[ b.d = Q_3 + 1.5RI = 24 + 1.5(7) = 34.5 \]

Se detecta un valor atípico, el cual indica un estudiante con mayor rendimiento que el resto durante el período académico en la asignatura de Física.

La gráfica se presenta colocando la caja intercuartílica y los extremos, donde los bigotes regresan siempre hacia el centro.

Diagrama de caja y bigotes

La distribución es aproximadamente normal, ya que los bigotes son de tamaños similares y la distancia entre la mediana y el primer cuartil es ligeramente mayor que la distancia entre el tercer cuartil y la mediana.

Ejemplo

Considere el experimento de lanzar un dado y dos monedas.
- Si la moneda sale sello, se asignan 100 puntos; si sale cara, se asignan 20 puntos.
- Si el dado es menor que 5, se asignan 200 puntos; si sale 5 o 6, se asignan 500 puntos.

Determine la distribución teórica del puntaje total, calcule la media, moda, mediana, primer y tercer cuartil, y construya un gráfico de cajas y bigotes para interpretar la asimetría de la distribución.

Solución

A partir del experimento se obtiene la siguiente tabla:

Observación	Dado	Moneda 1	Moneda 2	Puntaje	Frecuencia
1	{1,2,3,4}	sello	sello	400	4
2	{1,2,3,4}	sello	cara	320	4
3	{1,2,3,4}	cara	sello	320	4
4	{1,2,3,4}	cara	cara	240	4
5	{5,6}	sello	sello	700	2
6	{5,6}	sello	cara	620	2
7	{5,6}	cara	sello	620	2
8	{5,6}	cara	cara	540	2

La distribución final del puntaje es:

Puntaje $x$	Frecuencia $f$	$x f$	Frecuencia acumulada $F$
240	4	960	4
320	8	2560	12
400	4	1600	16
540	2	1080	18
620	4	2480	22
700	2	1400	24
Total	24	9080

La media es:

\[ \overline{x} = \frac{\sum x f}{\sum f} = \frac{9080}{24} = 378.33 \]

La moda es:

\[ Mo = 320 \]

La mediana es:

\[ Me = \frac{o_{(12)} + o_{(13)}}{2} = \frac{320 + 400}{2} = 360 \]

Los cuartiles son:

\[ Q_1 = 320 \]

\[ Q_2 = 360 \]

\[ Q_3 = 560 \]

El rango intercuartílico:

\[ RI = 560 - 320 = 240 \]

Límites de los bigotes:

\[ b.i = 320 - 1.5(240) = -40 \]

\[ b.d = 560 + 1.5(240) = 920 \]

No se detectan valores atípicos.

Diagrama de caja y bigotes del puntaje

La distribución es asimétrica a la derecha, ya que existe mayor concentración de datos hacia la izquierda y una cola extendida hacia la derecha.

Medidas de Correlación

A menudo se pretende establecer la relación entre un par de variables. En ese caso, es de interés medir el grado de asociación entre dos variables. Para ello se utiliza la correlación, que es una medida del grado de asociación lineal entre ellas.

Por lo tanto, dos variables que tienen relaciones no lineales exhibirán una correlación baja; mientras que variables asociadas linealmente tendrán una alta correlación.

No obstante, si la correlación es fuerte, la tendencia puede ser una línea creciente o una línea recta decreciente.

Covarianza muestral

Antes de definir la correlación se define la covarianza, del siguiente modo:

\[ S_{xy} = \frac{\sum_{i=1}^{n} x_i y_i - n \overline{x}\,\overline{y}}{n-1} \]

Las propiedades de la covarianza son:

La covarianza puede tomar cualquier valor real.
La covarianza no se afecta al sumarle una constante a cualquiera de las variables.
Matemáticamente:
\[ COV(X+a, Y+b) = COV(X,Y) \]
La covarianza entre una variable cualquiera y una constante es igual a cero:
\[ COV(X,a) = 0 \]
Si la covarianza de dos variables no es cero, se puede afirmar categóricamente que las variables no son linealmente independientes.

Correlación

La correlación muestral se define como:

\[ r = \frac{S_{xy}}{S_x S_y} \]

y cumple las siguientes propiedades:

$-1 \leq r \leq 1$
Si $r = 1$ o $r = -1$, la relación lineal entre las variables $x$ e $y$ es exacta y de la forma
\[ ax + by + c = 0 \]
Si $|r| > 0.8$, la correlación es fuerte; si $0.5 < |r| < 0.8$, es moderada; y si $|r| < 0.5$, es débil.
El coeficiente de correlación lineal de Pearson no se afecta ante transformaciones lineales:
\[ COR(aX+b, cY+d) = COR(X,Y), \quad ac \geq 0 \]
El coeficiente de correlación entre una variable cualquiera y una constante no está definido.
Si la correlación entre dos variables no es cero, se puede afirmar que existe alguna dependencia lineal entre ellas, por muy débil que esta sea.

Ejemplo

Se estudian las calificaciones de Estadística y Física de 10 estudiantes de décimo grado:

$X_1$: Estadística, periodo 1
$X_2$: Estadística, periodo 2
$X_3$: Promedio de Estadística
$Y_1$: Física, periodo 1
$Y_2$: Física, periodo 2
$Y_3$: Promedio de Física

Se pide realizar un análisis de las correlaciones por pares y analizar una gráfica de dispersión entre los promedios.

Nro	X₁	X₂	X₃	Y₁	Y₂	Y₃
1	2.0	2.5	2.3	2.3	3.0	2.7
2	4.2	3.0	3.6	3.4	3.8	3.6
3	3.5	3.9	3.7	4.0	4.5	4.3
4	2.0	2.0	2.0	2.1	3.1	2.6
5	3.5	3.3	3.4	2.5	3.3	2.9
6	4.1	3.8	4.0	3.5	3.7	3.6
7	3.0	3.0	3.0	3.0	3.0	3.0
8	3.5	3.3	3.4	3.3	3.4	3.4
9	4.1	3.5	3.8	4.0	3.4	3.7
10	3.2	3.0	3.1	2.0	2.2	2.1

Matriz de correlaciones

1.000	0.798	0.961	0.727	0.453	0.622
0.798	1.000	0.933	0.770	0.570	0.716
0.961	0.933	1.000	0.784	0.530	0.697
0.727	0.770	0.784	1.000	0.790	0.954
0.453	0.570	0.530	0.790	1.000	0.936
0.622	0.716	0.697	0.954	0.936	1.000

Se observa que todas las correlaciones son positivas, lo que indica que al aumentar la calificación promedio en Estadística también tiende a aumentar la calificación promedio en Física.

Esto se evidencia claramente en la gráfica de dispersión, donde se aprecia una correlación moderada positiva.

Gráfica de dispersión de promedios

Problemas

Una persona realiza una encuesta a 50 familias para saber si existen condiciones de hacinamiento. Para ello, se pregunta la cantidad de individuos que viven en cada vivienda.

Los resultados aparecen en la tabla:

Cantidad de personas	Cantidad de familias
4	2
5	9
6	11
7	14
8	8
9	6

Obtenga las medidas de tendencia central: moda, mediana y media aritmética.
Haga la interpretación correcta del centro de la distribución.

Se estudia la cantidad de materias que les gusta a un grupo de estudiantes de bachillerato.

x	f
0-2	41
3-5	93
6-8	26
9-11	15
12-14	11

Obtenga las medidas de tendencia central: moda, mediana y media aritmética.
Haga la interpretación correcta del centro de la distribución.
Obtenga el número de estudiantes que prefieren 6 materias o más.
Obtenga los porcentajes de estudiantes que prefieren de 3 a 11 materias.

La estatura media de 7 muchachos es 1,54 m y la de 6 niñas es 1,45 m. Halle la estatura promedio de los 13, expresada en metros como fracción mixta.

Los gastos mensuales de una muestra de 30 empleados de una empresa industrial son los siguientes (en miles de pesos):

850 para 12 empleados
920 para 9 empleados
1040 para 5 empleados
1150, 1230, 1300 y 1600 para 1 empleado cada uno

Calcule las medidas de tendencia central de estos datos.
Interprete el sesgo de la distribución apoyándose en los resultados anteriores.

El siguiente diagrama de tallo y hojas representa la cantidad de salarios que perciben los individuos de una población:

Tallo	Hojas
1	2 3 4 4 5 5 6 6
2	1 1 2 2 3 3 4 5 7 7
3	0 0 0 1 1 3 5 5 6 6 8 8 8 9
4	2 2 3 3 4 4 5 5 6 9
5	1 1 3 4 5 5 6 9

Haga una apreciación acerca de las medidas de centralización y dispersión de esta distribución.
Comente acerca de la forma de esta distribución.
Haga los cálculos apropiados para obtener los valores de media, moda y mediana.
Calcule las medidas de dispersión: rango, varianza, desviación estándar, coeficiente de variación.
Calcule las medidas de forma: asimetría y curtosis, y juzgue si la distribución se aproxima a una normal.

Distribución de frecuencias de salarios mensuales para 200 trabajadores (en miles de pesos):

Salario Mensual	Número de trabajadores
750-1000	15
1000-1250	36
1250-1500	69
1500-1750	54
1750-2000	20
2000-2250	6

Halle el porcentaje de trabajadores con salarios entre 1250 y 2000.
Determine el porcentaje de trabajadores que superan 1500.
Determine la fracción de trabajadores que no superan 1000.
Calcule las medidas de tendencia central.

Diagrama de tallo y hojas sobre calificaciones de un grupo de estudiantes:

Tallo	Hojas
5	2 3 4 4 5
6	1 1 2 2 3 3 4
7	0 0 0 1 1 3 5 5 6 6 8
8	2 2 3 3
9	1 7

Obtenga el número de estudiantes con calificaciones menores que 85 y mayores o iguales que 66.
Encuentre el porcentaje de estudiantes con calificaciones mayores que 65, pero menores que 85.
Obtenga el porcentaje de estudiantes que no aprobaron (mínimo aprobado = 60).

Distribución de frecuencias de salarios semanales de un grupo de empleados de la empresa Fundadores (en miles de pesos):

Tallo	Hojas
50	0 0
62	0 0 2 3 3
75	0 0 0 5 6 6
81	2 2 3
95	0

Haga una apreciación acerca de las medidas de centralización y dispersión de esta distribución.
Comente acerca de la forma de esta distribución.
Haga los cálculos apropiados para obtener los valores de media, moda y mediana.
Calcule las medidas de dispersión: rango, varianza, desviación estándar, coeficiente de variación.
Calcule las medidas de forma: asimetría y curtosis, y juzgue si la distribución se aproxima a una normal.

Los siguientes datos indican los tiempos, en horas, que un grupo de 38 estudiantes dedican diariamente a las redes:

Cantidad de horas	Número de estudiantes
0-1	3
1-2	4
2-3	7
3-4	9
4-5	5
5-6	4
6-7	3
7-8	2
8-10	1

Obtenga el porcentaje de estudiantes cuyo tiempo diario dedicado a las redes supera las 4 horas.
Halle el porcentaje de estudiantes cuyo tiempo dedicado a las redes es inferior a 5 horas.
Encuentre el porcentaje de estudiantes cuyo tiempo dedicado a las redes se halla entre 5 y 8 horas.
¿Cuántos estudiantes estima que utilizan las redes entre 8 y 10 horas, en un grupo de 760?
Calcule media, moda y mediana.

Un analista de datos realizó sus cálculos en Excel y obtuvo la siguiente tabla:

x	f	x*f	f(x-mean)^2
300.5	10	3005	400000
500.5	4	2002	0
700.5	3	2101.5	120000
900.5	2	1801	320000
1100.5	1	1100.5	360000
Totales	20	10010	1200000
	media	500.5

Haga un diagnóstico para las medidas de tendencia central.
Juzgue si las medidas de centralización son iguales.
Interprete la variabilidad y la asimetría de esta distribución.
Determine qué porcentaje de los datos, si la desviación estándar es 251,31, se encuentra dentro de una desviación estándar de la media.

Datos de la cantidad de materias favoritas $x$, en frecuencias no agrupadas:

Cantidad de Materias (x)	Número de estudiantes (f)
0	8
1	9
2	24
3	38
4	26
5	29
6	11
7	8
8	7
9	5
10	8
11	2
12	6
13	1
14	4

Calcule media, moda y mediana.
Calcule varianza, desviación estándar, coeficiente de variación y rango.
Obtenga los cuartiles usando RStudio.
Haga la gráfica de cajas y bigotes usando RStudio.

Utilice una base de datos de dos variables dependientes, trace una gráfica de dispersión y comente si la relación tiene una tendencia lineal.

Experimento: lanzar un dado y tres monedas.

Moneda: sello = 200 puntos, cara = 50 puntos
Dado: inferior a 5 = 100 puntos, 5 o 6 = 600 puntos

Determine la distribución teórica del puntaje total, y luego encuentre:
- Media, moda y mediana
- Primer y tercer cuartil
- Gráfica de cajas y bigotes e interprete la asimetría

Experimento: lanzar dos dados y una moneda.

Moneda: sello = 200 puntos, cara = 50 puntos
Dado: inferior a 6 = 100 puntos, 6 = 600 puntos

Determine la distribución teórica, luego calcule:
- Media, moda y mediana
- Primer y tercer cuartil
- Gráfica de cajas y bigotes e interprete la asimetría

Experimento: lanzar un dado y tres monedas.

Moneda: sello = 200 puntos, cara = 0 puntos
Dado: inferior a 5 = 50 puntos, 5 o 6 = 100 puntos

Determine la distribución teórica, luego calcule:
- Media, moda y mediana
- Primer y tercer cuartil
- Gráfica de cajas y bigotes e interprete la asimetría

Experimento: lanzar dos dados y una moneda.

Moneda: sello = 200 puntos, cara = 0 puntos
Dado: inferior a 6 = 100 puntos, 6 = 300 puntos

Determine la distribución teórica, luego calcule:
- Media, moda y mediana
- Primer y tercer cuartil
- Gráfica de cajas y bigotes e interprete la asimetría

Experimento: lanzar un dado y cuatro monedas.

Moneda: sello = 200 puntos, cara = 50 puntos
Dado: inferior a 5 = 100 puntos, 5 o 6 = 600 puntos

Determine la distribución teórica, luego calcule:
- Media, moda y mediana
- Primer y tercer cuartil
- Gráfica de cajas y bigotes e interprete la asimetría

Experimento: lanzar dos dados y dos monedas.

Moneda: sello = 200 puntos, cara = 50 puntos
Dado: inferior a 6 = 100 puntos, 6 = 600 puntos

Determine la distribución teórica, luego calcule:
- Media, moda y mediana
- Primer y tercer cuartil
- Gráfica de cajas y bigotes e interprete la asimetría

Selección de 15 cartas (8 números, 4 letras, 3 Joker), se eligen 2 cartas sin reemplazo y en orden:

Número = 10 puntos, letra = 25 puntos, Joker = 60 puntos

Obtenga la distribución del puntaje total
Haga una gráfica de barras que represente la puntuación
Determine las medidas de tendencia central (media, moda y mediana)
Interprete la asimetría de la distribución

Selección de 16 cartas (9 números, 4 letras, 3 Joker), se eligen 2 cartas sin reemplazo y en orden:

Número = 15 puntos, letra = 35 puntos, Joker = 80 puntos

Obtenga la distribución del puntaje total
Haga una gráfica de barras que represente la puntuación
Determine las medidas de tendencia central (media, moda y mediana)
Interprete la asimetría de la distribución

Selección de 13 cartas (6 números, 4 letras, 3 Joker), se eligen 2 cartas sin reemplazo y en orden:

Número = 20 puntos, letra = 55 puntos, Joker = 90 puntos

Obtenga la distribución del puntaje total
Haga una gráfica de barras que represente la puntuación
Determine las medidas de tendencia central (media, moda y mediana)
Interprete la asimetría de la distribución

Selección de 10 cartas (5 números, 3 letras, 2 Joker), se eligen 2 cartas sin reemplazo y en orden:

Número = 40 puntos, letra = 75 puntos, Joker = 120 puntos

Obtenga la distribución del puntaje total
Haga una gráfica de barras que represente la puntuación
Determine las medidas de tendencia central (media, moda y mediana)
Interprete la asimetría de la distribución

Selección de 16 cartas (9 números, 4 letras, 3 Joker), se eligen 2 cartas sin reemplazo y en orden:

Número = 40 puntos, letra = 80 puntos, Joker = 160 puntos

Obtenga la distribución del puntaje total
Haga una gráfica de barras que represente la puntuación
Determine las medidas de tendencia central (media, moda y mediana)
Interprete la asimetría de la distribución

Fuentes de Información y Variables Estadísticas

Las fuentes de información son los medios por los cuales se recogen datos o hechos.

-primarias: la encuesta, la entrevista, el experimento y el estudio de caso.

-secundarias: la radio, la televisión, el internet, la revisión de literatura y el estado del arte.

Las variables estadísticas pueden ser de dos tipos:

-Cualitativas: códigos numéricos, códigos alfanuméricos y códigos alfabéticos.

-Cuantitativas: las cantidades.

Ejemplo 2: Escribe una definición de cada fuente de información y variable estadística.

-La encuesta: las encuestas estadísticas acostumbran a recolectar información cualitativa o cuantitativa sobre los elementos de una población.

Las encuestas se utilizan para obtener información sobre actividades, opiniones, comportamientos y otros aspectos.

f=c(6,5, 4,3,2)
x=c("Natacion", "Futbol", "Voleibol", "Tenis", "Baloncesto")
xf=c("Natacion", "Natacion", "Natacion","Natacion", "Natacion", "Natacion","Futbol","Futbol","Futbol","Futbol","Futbol", "Voleibol","Voleibol","Voleibol","Voleibol","Tenis","Tenis", "Tenis", "Baloncesto","Baloncesto")
xe=table(xf)
xe

## xf
## Baloncesto     Futbol   Natacion      Tenis   Voleibol 
##          2          5          6          3          4

barplot(xe, xlab="Deporte favorito", ylab="Número de Estudiantes", main="Diagrama de barras", col=c("red", "orange", "yellow", "green", "blue"))

-Entrevista: la Entrevista es un método de recopilación de datos que implica la interacción directa entre un entrevistador y un encuestado. Durante la entrevista se hacen preguntas para recopilar información detallada sobre opiniones, experiencias y comportamientos del entrevistado.

Ejemplo 3: Se recogió la edad de 36 estudiantes que pertenecen a la escuela deportiva de la Universidad. La variable x es la edad y f es la cantidad de estudiantes, p el porcentaje absoluto y P el porcentaje acumulado.

x=c(21,22,23,24,25)
f=c(2,6,17,10,1)
p=f/sum(f)*100
P=c(p[1],p[1]+p[2],p[1]+p[2]+p[3],p[1]+p[2]+p[3]+p[4],100)
cbind(x,f,p,P )

##       x  f         p          P
## [1,] 21  2  5.555556   5.555556
## [2,] 22  6 16.666667  22.222222
## [3,] 23 17 47.222222  69.444444
## [4,] 24 10 27.777778  97.222222
## [5,] 25  1  2.777778 100.000000

-El Experimento: es un método de recopilación de datos, que implica una manipulación controlada de variables independientes para observar sus efectos en una o más variables respuestas.

Ojiva de porcentajes

La ojiva es una gráfica de linea poligonal acumulada.

Partimos de la tabla de frecuencias agrupadas

x=c("De 2 a menos de 2.5", "De 2.5 a menos de 3.0", "De 3.0 a menos de 3.5", "De 3.5 a menos de 4.0", "De 4.0 a 4.5")
f=c(4,10,6,3,2)
cbind(x,f)

##      x                       f   
## [1,] "De 2 a menos de 2.5"   "4" 
## [2,] "De 2.5 a menos de 3.0" "10"
## [3,] "De 3.0 a menos de 3.5" "6" 
## [4,] "De 3.5 a menos de 4.0" "3" 
## [5,] "De 4.0 a 4.5"          "2"

xs=c(2,2.5,3,3.5,4,4.5)
P=c(0,16,56,80,92,100)
plot(xs,P,type="l",xlab="fronteras superiores", ylab="Porcentajes acumulados", main="Ojiva de porcentajes")

Para obtener la mediana, el septimo decil, el tercer decil y el 85-ésimo punto percentil; existen 3 maneras: el método gráfico, el método de interpolación y el método de medidas agrupadas.

En el método gráfico, se da un vistazo a la Ojiva y se busca el valor que corresponde al porcentaje acumulado señalado.

La mediana es $Q_2=2.9$, el septimo decil es $D_7=3.3$, el tercer decil es $D_3=2.7$ y el 85-ésimo punto percentil es $P_{85}=3.75$.

Para calcular el percentil mediante la tabla de frecuencias absolutas agrupadas, se utiliza la formulación

$X_p=L_p + \frac{n\times p\%-F}{f_p}\times w$

X_p es el p-ésimo punto percentil

L_p es el límite inferior de la clase que contiene a X_p.

p es el tanto por ciento que acumula el percentil

F es la frecuencia acumulada anterior a la clase donde se ubica el percentil

f_p es la frecuencia absoluta de la clase percentil

w es la amplitud de la clase percentil

Aplicando la fórmula, se tiene $Me=L_{50}+\frac{n/2-F}{f_{50}}\times w$

En este caso $n=25$ y la mitad de n es 12.5.

El valor de $L_{50}=2.5$ y $F=4$ y $w=0.5$.

$Me=2.5+\frac{12.5-4}{10}\times 0.5$

$Me=2.5+0.425$, esto es, $Me=2.925$.

El 50% de los estudiantes tiene una calificación de 2.925 o menos.

$X_p=L_p + \frac{n\times p\%-F}{f_p}\times w$

Aplicando la fórmula, se tiene $D_7=L_{70}+\frac{n\times 70\%-F}{f_{70}}\times w$

En este caso $n=25$ y el 70% de n es 17.5.

El valor de $L_{70}=3.0$ y $F=14$ y $w=0.5$.

$D_7=3.0+\frac{17.5-14}{6}\times 0.5$

$D_7=3.0+0.2916$, esto es, $D_7=3.2916$.

El 70% de los estudiantes tiene una calificación de 3.2916 o menos.

$X_p=L_p + \frac{n\times p\%-F}{f_p}\times w$

Aplicando la fórmula, se tiene $D_3=L_{30}+\frac{n\times 30\%-F}{f_{30}}\times w$

En este caso $n=25$ y el 30% de n es 7.5.

El valor de $L_{30}=2.5$ y $F=4$ y $w=0.5$.

$D_3=2.5+\frac{7.5-4}{10}\times 0.5$

$D_3=2.5+0.175$, esto es, $D_3=2.675$.

El 30% de los estudiantes tiene una calificación de 2.675 o menos.

$X_p=L_p + \frac{n\times p\%-F}{f_p}\times w$

Aplicando la fórmula, se tiene $P_{85}=L_{85}+\frac{n\times 85\%-F}{f_{85}}\times w$

En este caso $n=25$ y el 85% de n es 21.25.

El valor de $L_{85}=3.5$ y $F=20$ y $w=0.5$.

$P_{85}=3.5+\frac{21.25-20}{3}\times 0.5$

$P_{85}=3.5+0.21$, esto es, $P_{85}=3.71$.

El 85% de los estudiantes tiene una calificación de 3.71 o menos.

Grado Séptimo (Cuarto Periodo)

Semana 1: Introducción a la predicción con datos

Indicador: Interpreta datos y realiza predicciones simples basadas en la información proporcionada.

Ejemplos prácticos:

Observar un gráfico de temperaturas semanales y predecir cuál podría ser la temperatura del próximo lunes.

Analizar la cantidad de estudiantes que asisten cada día a clase y predecir cuál será el día con mayor asistencia la próxima semana.

Usar los resultados de un examen anterior para predecir cuántos estudiantes podrían aprobar el siguiente.

Predecir el sabor de helado más vendido el próximo mes con base en los datos del mes anterior.

Leer una tabla con datos de ventas y predecir si estas aumentarán, disminuirán o se mantendrán estables.

Semana 2: Concepto de predicción estadística

Indicador: Resuelve problemas usando datos estadísticos para predecir posibles resultados.

Ejemplos prácticos:

Usar los datos de participación en clase para predecir quién podría ganar un concurso escolar.

Resolver un problema donde se predice cuántas botellas de agua se venderán en una jornada deportiva según los datos de ventas anteriores.

Predecir cuántos días al mes llueve usando el número de días lluviosos de los últimos tres meses.

Usar los resultados de una encuesta para predecir qué actividad prefieren los estudiantes para la salida pedagógica.

Calcular cuántos libros se podrían leer en un trimestre si cada semana se leen dos, basándose en registros anteriores.

Semana 3: Justificación de predicciones

Indicador: Justifica sus predicciones con base en datos concretos y razonamientos lógicos.

Ejemplos prácticos:

Explicar por qué se predice que aumentará el uso de bicicleta en el barrio usando una encuesta local.

Justificar por qué el estudiante piensa que el equipo A ganará el torneo según sus estadísticas de goles.

Presentar razones lógicas para predecir un aumento de ventas de jugos durante la semana de calor.

Justificar una predicción sobre la preferencia musical de un grupo, usando datos de una encuesta.

Comparar predicciones personales con datos y explicar si fueron acertadas o no, justificando las diferencias.

Semana 4: Relación entre predicción y datos

Indicador: Compara predicciones con resultados reales utilizando diversas fuentes.

Ejemplos prácticos:

Revisar una predicción de temperaturas y comparar con los valores reales reportados por el clima.

Comparar los resultados de un partido con lo que se había predicho en base a estadísticas previas.

Evaluar si la cantidad de estudiantes que se predijo que asistirían a una actividad coincide con la asistencia real.

Usar datos oficiales de consumo de agua para comparar con predicciones hechas por los estudiantes.

Contrastar la cantidad de frutas vendidas en la tienda escolar con la predicción basada en semanas anteriores.

Semana 5: Predicción en datos indagados

Indicador: Formula predicciones a partir de conjuntos de datos investigados y resuelve problemas.

Ejemplos prácticos:

Recolectar datos sobre cuántas horas estudian los compañeros y predecir quién podría tener mejor rendimiento.

Investigar cuántas veces se utiliza el transporte público y predecir su uso en un evento escolar.

Obtener datos de ventas de la tienda escolar y predecir cuál será el producto más vendido en diciembre.

Indagar sobre la cantidad de residuos generados en una semana y predecir cuántos se generarán en un mes.

Recolectar datos de tiempo en actividades recreativas y predecir qué actividad es la más popular.

Semana 6: Análisis de predicciones en contextos variados

Indicador: Discute si las predicciones obtenidas son razonables y lógicas dentro de un contexto dado.

Ejemplos prácticos:

Analizar si predecir 30 días de lluvia en un mes es lógico para el clima local.

Debatir si una predicción de ventas escolares es realista en épocas de vacaciones.

Evaluar si una predicción sobre el uso de celulares es razonable en el contexto de una salida al campo.

Cuestionar la lógica de una predicción sobre el aumento de consumo de agua durante un mes frío.

Reflexionar si es razonable predecir un aumento de lectura en vacaciones según hábitos anteriores.

Semana 7: Justificación visual de predicciones

Indicador: Representa gráficamente las predicciones y compara fuentes.

Ejemplos prácticos:

Dibujar un gráfico de barras que muestre predicciones sobre los sabores de jugo más vendidos.

Comparar un gráfico de líneas con predicciones climáticas frente a los datos reales.

Crear un pictograma para representar predicciones sobre medios de transporte más usados por los compañeros.

Hacer una gráfica circular con predicciones sobre preferencias de actividades lúdicas.

Representar datos de encuestas con histogramas y discutir visualmente si la predicción es coherente.

Semana 8: Evaluación de predicciones

Indicador: Evalúa la precisión de las fuentes y analiza posibles errores.

Ejemplos prácticos:

Evaluar si una predicción fue inexacta porque se usó una muestra demasiado pequeña.

Analizar por qué la predicción del día más caluroso de la semana no se cumplió.

Detectar errores en una predicción sobre asistencia escolar basada en datos antiguos.

Evaluar si los datos estaban mal organizados y eso afectó la predicción.

Discutir si una predicción fue influenciada por opiniones personales más que por datos.

Semana 9: Predicción en fenómenos aleatorios

Indicador: Justifica la predicción en fenómenos aleatorios como eventos de probabilidad.

Ejemplos prácticos:

Lanzar una moneda 20 veces y predecir cuántas veces caerá cara o sello.

Justificar por qué se espera que al lanzar un dado, cada número tiene la misma probabilidad de salir.

Analizar si sacar una ficha roja de una bolsa con más fichas azules es más o menos probable.

Predecir qué color saldrá más veces al girar una ruleta dividida en partes desiguales.

Justificar una predicción sobre cuántas veces se acertará en un juego de adivinanzas al azar.

Semana 10: Conclusiones y justificación final

Indicador: Formula conclusiones sobre los resultados de las predicciones basadas en datos.

Ejemplos prácticos:

Redactar una conclusión final explicando si las predicciones sobre ventas escolares fueron correctas y por qué.

Concluir si los datos utilizados fueron suficientes para justificar la predicción del clima semanal.

Escribir una reflexión sobre las predicciones hechas al inicio del mes y los resultados reales obtenidos.

Explicar cómo la organización de datos ayudó (o no) a hacer una predicción correcta.

Realizar una presentación en grupo mostrando los datos recolectados, las predicciones hechas, los resultados reales y las conclusiones.

Grado Octavo (Cuarto Periodo)

Semana 1: Selección de información relevante de diferentes fuentes

Indicador: Identifica y selecciona datos relevantes de fuentes diversas (prensa, revistas, entrevistas) para el análisis.

Ejemplos prácticos:

Leer una noticia económica y extraer los datos más importantes sobre inflación para una presentación en clase.

Revisar una entrevista en una revista juvenil y seleccionar los datos estadísticos utilizados para respaldar opiniones.

Analizar un gráfico en una noticia sobre el consumo de azúcar y elegir la información que ayuda a responder si está aumentando o disminuyendo.

Comparar los resultados de dos encuestas sobre hábitos de lectura de adolescentes y decidir cuál tiene datos más relevantes.

Ver una noticia televisiva sobre desempleo juvenil y anotar los datos clave para explicar una tendencia.

Semana 2: Interpretación de datos de experimentos y consultas

Indicador: Resuelve problemas formulados a partir de conjuntos de datos obtenidos de diferentes fuentes.

Ejemplos prácticos:

Usar los resultados de una encuesta escolar para identificar el alimento más consumido en los recreos.

Resolver un problema sobre ahorro familiar usando estadísticas de una revista económica.

Interpretar datos de un experimento sobre consumo de agua por persona y calcular el promedio diario.

A partir de una encuesta hecha en clase, determinar qué género musical es el más escuchado y en qué grado.

Usar los datos de una campaña de vacunación para identificar qué grupo etario tuvo mayor cobertura.

Semana 3: Análisis de fuentes estadísticas (prensa, entrevistas, etc.)

Indicador: Justifica la relevancia de los datos seleccionados de fuentes externas y cómo afectan la resolución de un problema.

Ejemplos prácticos:

Justificar por qué un artículo sobre cambio climático con datos precisos es más útil que una opinión sin cifras para un debate.

Analizar si los datos presentados en una infografía sobre el uso de redes sociales por adolescentes son representativos.

Explicar por qué una fuente con fecha reciente es más confiable para hablar sobre desempleo que una de hace 10 años.

Determinar si los resultados de una entrevista pueden aplicarse para generalizar sobre una población.

Evaluar dos artículos con datos distintos sobre violencia escolar y decidir cuál tiene información más útil para intervenir.

Semana 4: Presentación de datos de distintas fuentes (revistas, televisión)

Indicador: Presenta los datos seleccionados en gráficos o tablas adecuadas para una correcta interpretación.

Ejemplos prácticos:

Diseñar una tabla que resuma los resultados de una encuesta sobre uso del celular en el colegio.

Crear un gráfico de barras para comparar los datos de consumo de frutas en estudiantes de varios grados.

Representar con un diagrama de pastel las preferencias de transporte hacia la escuela según una encuesta local.

Organizar los datos de tres noticias en una tabla comparativa sobre acceso a internet en diferentes regiones.

Realizar un histograma con los puntajes obtenidos en un examen para analizar el rendimiento por curso.

Semana 5: Cálculo de estadísticas descriptivas con datos de diferentes fuentes

Indicador: Realiza cálculos de medidas de tendencia central (media, mediana, moda) a partir de datos obtenidos de diversas fuentes.

Ejemplos prácticos:

Calcular la media de horas de sueño de un grupo de estudiantes a partir de una encuesta.

Determinar la mediana del número de libros leídos por estudiantes de octavo grado en un trimestre.

Identificar la moda en la cantidad de minutos diarios que dedican al celular según un registro de cinco días.

Comparar la media de precios de productos básicos en tres supermercados según datos de una revista económica.

Calcular media y mediana de los resultados de un experimento sobre velocidad de conexión a internet.

Semana 6: Comparación de datos obtenidos de fuentes diversas

Indicador: Compara y argumenta sobre los datos obtenidos de distintas fuentes y su relevancia en el contexto del problema planteado.

Ejemplos prácticos:

Comparar los datos de desempleo juvenil entre dos periódicos y argumentar cuál fuente es más confiable.

Analizar cómo varía la cantidad de accidentes de tránsito según la fuente (tránsito municipal vs. ONG de seguridad vial).

Justificar por qué la información del DANE puede ser más representativa que la de una encuesta escolar.

Contrastar datos sobre consumo de azúcar en Colombia provenientes de una revista de salud y una entidad gubernamental.

Comparar cifras de calentamiento global entre una fuente científica y una de redes sociales y discutir su validez.

Semana 7: Visualización de resultados de investigaciones y encuestas

Indicador: Organiza y presenta de manera clara y precisa los resultados obtenidos de experimentos, encuestas o entrevistas.

Ejemplos prácticos:

Organizar los resultados de una encuesta sobre hábitos alimenticios en una tabla y un gráfico de barras.

Presentar visualmente los resultados de una entrevista sobre tiempo libre en adolescentes en un diagrama circular.

Crear un informe visual de un experimento sobre el uso de apps educativas en clase.

Exponer gráficamente los resultados de una encuesta sobre tipos de música preferida, separados por género.

Mostrar en un gráfico de líneas cómo ha cambiado el interés en las carreras universitarias durante los últimos cinco años según datos del MEN.

Semana 8: Resolución de problemas complejos utilizando datos de múltiples fuentes

Indicador: Resuelve problemas complejos utilizando información de diversas fuentes y diferentes tipos de representación de datos.

Ejemplos prácticos:

Usar datos del DANE, noticias locales y encuestas escolares para proponer soluciones a la deserción escolar.

Resolver un problema sobre escasez de agua comparando cifras de consumo, clima y campañas de ahorro.

Proponer una solución al problema del sedentarismo juvenil usando datos de actividad física de la OMS, colegios y encuestas locales.

Analizar el acceso a internet en zonas rurales utilizando datos del gobierno, entrevistas a estudiantes y cifras de proveedores.

Diseñar una propuesta para mejorar la alimentación escolar basándose en datos nutricionales, presupuestos y preferencias estudiantiles.

Semana 9: Justificación de conclusiones basadas en datos estadísticos

Indicador: Justifica las conclusiones a partir de la interpretación y comparación de los datos de diferentes fuentes.

Ejemplos prácticos:

Explicar por qué se concluye que hay más uso de redes sociales que de libros con base en tres encuestas distintas.

Justificar la decisión de priorizar una campaña de salud en adolescentes usando datos locales y nacionales.

Argumentar con datos por qué es importante aumentar la educación financiera en jóvenes.

Explicar con evidencia por qué un tipo de transporte es más eficiente en una zona de la ciudad.

Redactar una conclusión sobre los efectos del cambio climático en la región basándose en fuentes científicas y medios de comunicación.

Semana 10: Resumen y presentación de información final

Indicador: Presenta un informe final con los resultados de su análisis de datos obtenidos de diversas fuentes.

Ejemplos prácticos:

Elaborar un informe que resuma los resultados de una investigación sobre hábitos digitales en adolescentes.

Presentar oralmente y por escrito los resultados de una encuesta sobre alimentación saludable.

Crear un póster con gráficos y conclusiones sobre el uso de la bicicleta como medio de transporte.

Hacer una presentación en grupo sobre los resultados de una investigación sobre el tiempo de estudio en casa.

Compartir un informe final sobre el impacto del reciclaje escolar utilizando datos internos y externos.

Grado Noveno (Cuarto Periodo)

Semana 1: Introducción a la estadística descriptiva: media, mediana, moda y su interpretación en diferentes fuentes

Indicador: Identifica y calcula la media, mediana y moda en conjuntos de datos extraídos de diferentes fuentes (prensa, televisión, etc.).

Ejemplos prácticos:

Calcular la media de edades de un grupo de personas que aparecen en un artículo de prensa.

Determinar la mediana del número de horas que estudiantes de diferentes colegios dedican a estudiar según una encuesta televisiva.

Identificar la moda en las calificaciones de un grupo de estudiantes según un reporte escolar.

Analizar un conjunto de datos sobre temperaturas diarias y calcular sus medidas de tendencia central para un informe meteorológico.

Interpretar la media y moda de precios de productos alimenticios publicados en diferentes periódicos para comparar costos.

Semana 2: Análisis de datos de fuentes externas: cómo interpretarlos (artículos, noticias, encuestas)

Indicador: Formula preguntas clave basadas en los datos presentados en diferentes fuentes y justifica las respuestas.

Ejemplos prácticos:

Leer un artículo sobre consumo de agua y preguntar: ¿Cuál es el promedio diario de consumo en hogares urbanos?

Analizar una noticia sobre hábitos alimenticios y preguntar: ¿Qué grupo de edad consume más frutas? Justifica con los datos.

Examinar resultados de una encuesta sobre uso de tecnología y preguntar: ¿Qué porcentaje usa dispositivos móviles para estudiar?

Interpretar datos de una encuesta sobre transporte y preguntar: ¿Cuál es el medio más utilizado? ¿Por qué?

Formular preguntas sobre estadísticas de deserción escolar y justificar las respuestas basadas en los datos.

Semana 3: Interpretación crítica de tablas y gráficos de fuentes como revistas, prensa o entrevistas

Indicador: Interpreta tablas y gráficos de diferentes fuentes, identificando posibles sesgos o limitaciones en la presentación.

Ejemplos prácticos:

Analizar un gráfico de barras sobre consumo de energía y discutir si la escala puede distorsionar la interpretación.

Evaluar una tabla de resultados electorales y detectar posibles omisiones o datos poco claros.

Interpretar un gráfico circular de una revista y cuestionar si los porcentajes suman correctamente.

Revisar una entrevista que presenta datos de salud y señalar si falta información importante para entender el contexto.

Criticar un reporte con datos incompletos o desactualizados sobre contaminación ambiental.

Semana 4: Uso de gráficos estadísticos (barras, líneas, circular) para representar datos de diversas fuentes

Indicador: Elabora gráficos estadísticos a partir de datos provenientes de encuestas, artículos o entrevistas.

Ejemplos prácticos:

Crear un gráfico de barras con los resultados de una encuesta sobre deportes preferidos en la escuela.

Elaborar un gráfico de líneas que muestre la variación de temperatura mensual según datos meteorológicos.

Diseñar un gráfico circular para representar la distribución de gasto mensual en una familia, basado en una entrevista.

Construir un histograma con datos de puntajes en un examen escolar para analizar la frecuencia de calificaciones.

Representar en un gráfico de barras los resultados de una encuesta sobre hábitos de lectura en estudiantes.

Semana 5: Evaluación crítica de cómo los datos se presentan en medios de comunicación (noticias, informes)

Indicador: Compara y evalúa la precisión de la representación gráfica de datos en diferentes medios.

Ejemplos prácticos:

Comparar cómo dos periódicos diferentes presentan un mismo conjunto de datos sobre desempleo y discutir cuál es más claro y preciso.

Evaluar un informe televisivo donde los datos se presentan con gráficos poco claros y sugerir mejoras.

Analizar si los gráficos en una noticia digital sobre contaminación utilizan escalas adecuadas para representar la realidad.

Criticar la presentación de estadísticas en un reportaje y proponer alternativas más efectivas para comunicar la información.

Comparar tablas de diferentes medios sobre resultados deportivos y discutir posibles manipulaciones visuales.

Semana 6: Comparación de datos provenientes de diferentes fuentes: la misma noticia en distintos medios

Indicador: Analiza y compara la representación de los mismos datos en diferentes medios, identificando posibles sesgos.

Ejemplos prácticos:

Revisar una noticia sobre cifras de violencia y comparar los datos en dos periódicos; discutir diferencias y razones.

Analizar la cobertura de una noticia económica en televisión y prensa escrita, detectando posibles omisiones o énfasis diferentes.

Comparar los datos de una encuesta sobre consumo de alcohol publicada en revista y sitio web.

Evaluar cómo distintos medios presentan estadísticas de accidentes de tránsito y argumentar sobre la confiabilidad.

Contrastar gráficos sobre indicadores de salud en diferentes fuentes y discutir qué sesgos pueden tener.

Semana 7: Análisis de la confiabilidad de los datos provenientes de diferentes fuentes: experimentos, entrevistas, etc.

Indicador: Evalúa la calidad y confiabilidad de los datos obtenidos de diferentes fuentes, haciendo comparaciones y discutiendo su relevancia.

Ejemplos prácticos:

Evaluar la confiabilidad de datos obtenidos de un experimento escolar versus datos de una institución científica.

Comparar entrevistas con expertos y encuestas a población general para validar información sobre hábitos saludables.

Analizar si los datos de un reporte gubernamental son más confiables que los de una publicación de redes sociales.

Discutir la importancia de la metodología usada para recolectar datos en un estudio sobre hábitos de estudio.

Valorar la precisión de datos meteorológicos de diferentes fuentes y explicar las diferencias.

Semana 8: Aplicación de conocimientos estadísticos para resolver problemas planteados en artículos o informes

Indicador: Resuelve problemas estadísticos a partir de los datos presentados en artículos o reportes periodísticos.

Ejemplos prácticos:

Resolver un problema sobre promedios de consumo energético a partir de datos de un informe gubernamental.

Analizar datos de un artículo sobre contaminación y calcular promedios o porcentajes para proponer soluciones.

Usar estadísticas de un reporte sobre salud para identificar factores de riesgo y sugerir medidas preventivas.

Resolver problemas de probabilidad basados en datos de un estudio sobre accidentes de tránsito.

Aplicar medidas de tendencia central para comparar resultados de dos encuestas sobre hábitos de alimentación.

Semana 9: Identificación de la relevancia de los datos para tomar decisiones basadas en estadísticas de distintas fuentes

Indicador: Justifica la relevancia de los datos en la toma de decisiones basadas en estadísticas y analiza sus implicaciones.

Ejemplos prácticos:

Justificar la importancia de datos estadísticos en la decisión de implementar campañas de vacunación.

Analizar cómo las estadísticas de un informe pueden ayudar a mejorar políticas educativas.

Explicar la relevancia de datos sobre consumo de agua para tomar decisiones sobre ahorro energético.

Argumentar la importancia de datos confiables para decisiones en el área ambiental.

Discutir cómo la falta de datos precisos puede afectar decisiones en salud pública.

Semana 10: Reflexión final sobre la interpretación crítica de la información estadística proveniente de diversas fuentes

Indicador: Reflexiona sobre los principios éticos y la responsabilidad al interpretar datos de diversas fuentes.

Ejemplos prácticos:

Debatir sobre la responsabilidad de los medios al presentar datos estadísticos y evitar manipulaciones.

Reflexionar sobre la ética en la presentación de datos en investigaciones escolares.

Discutir las consecuencias de interpretar erróneamente estadísticas en decisiones públicas.

Analizar casos donde la mala interpretación de datos causó problemas sociales o económicos.

Redactar una reflexión personal sobre la importancia de ser crítico y cuidadoso con los datos estadísticos.

$\textbf{Referencias}$

[1] Llinás, Humberto. Estadística y Distribuciones de Probabilidad. Ediciones Uninorte. 2006.

Estrato / Ingreso	2–3	3–4	5–6	6 y más
I	150	80	35	9
II	85	90	20	8
III	70	70	38	17
IV	30	98	135	28
V	20	65	40	67
VI	10	35	50	100

Nro	X₁	X₂	X₃	Y₁	Y₂	Y₃
1	2.0	2.5	2.3	2.3	3.0	2.7
2	4.2	3.0	3.6	3.4	3.8	3.6
3	3.5	3.9	3.7	4.0	4.5	4.3
4	2.0	2.0	2.0	2.1	3.1	2.6
5	3.5	3.3	3.4	2.5	3.3	2.9
6	4.1	3.8	4.0	3.5	3.7	3.6
7	3.0	3.0	3.0	3.0	3.0	3.0
8	3.5	3.3	3.4	3.3	3.4	3.4
9	4.1	3.5	3.8	4.0	3.4	3.7
10	3.2	3.0	3.1	2.0	2.2	2.1

Estrato / Ingreso	2–3	3–4	5–6	6 y más
I	150	80	35	9
II	85	90	20	8
III	70	70	38	17
IV	30	98	135	28
V	20	65	40	67
VI	10	35	50	100

Nro	X₁	X₂	X₃	Y₁	Y₂	Y₃
1	2.0	2.5	2.3	2.3	3.0	2.7
2	4.2	3.0	3.6	3.4	3.8	3.6
3	3.5	3.9	3.7	4.0	4.5	4.3
4	2.0	2.0	2.0	2.1	3.1	2.6
5	3.5	3.3	3.4	2.5	3.3	2.9
6	4.1	3.8	4.0	3.5	3.7	3.6
7	3.0	3.0	3.0	3.0	3.0	3.0
8	3.5	3.3	3.4	3.3	3.4	3.4
9	4.1	3.5	3.8	4.0	3.4	3.7
10	3.2	3.0	3.1	2.0	2.2	2.1

Estadística Básica

JTilano

2025-06-16

Tabulación de Datos

Datos cualitativos y sus escalas de medida

Frecuencias y porcentajes

Frecuencias no agrupadas

Ejemplo 1

Solución

Ejemplo 2

Solución

Tabla de Contingencia

Ejemplo

Solución

Ejemplo

Solución

Ejemplo

Solución

Gráficos Cualitativos

Gráficos

Ejemplo

Gráfico de Pastel

Gráfico de Anillo

Ejemplo

Gráfico de Pareto

Gráfico de Pastel

Ejemplo

Solución

Ejemplo

Solución

a)

Ejemplo

Solución

Problemas

(1)

(2)

(3)

(4)

(5)

(6)

(7)

Cuantitativos

Porcentajes

Ejemplo

Solución

Ejemplo

Solución

Ejemplo

Solución

Ejemplo

Solución

Tablas agrupadas

Ejemplo 1

Solución

Ejemplo: Distribución de costos de un artículo

Solución

Gráficos Cuantitativos

Histograma

Ejemplo 1

Ejemplo 2

Ejemplo 3

Ejemplo 1

Ejemplo 2

Polígono

Ejemplo 1

Ejemplo 2

Ejemplo 3

Ejemplo: Polígono de frecuencias para gastos en papelería

Ojiva

Ejemplo 1: Cantidad de salarios por artículo

Ejemplo 2: Cantidad de horas de llegada de buses

Ojiva

Ejemplo 1: Gastos en servicio de gas

Ejemplo 2: Salario semanal de trabajadores

Problemas

Probabilidades Simples

Probabilidades Compuestas

Probabilidades Empíricas

Eventos mutuamente excluyentes y eventos independientes

Eventos Colectivamente Exhaustivos y Partición del Espacio

Estrato / Ingreso	2–3	3–4	5–6	6 y más
I	150	80	35	9
II	85	90	20	8
III	70	70	38	17
IV	30	98	135	28
V	20	65	40	67
VI	10	35	50	100

Nro	X₁	X₂	X₃	Y₁	Y₂	Y₃
1	2.0	2.5	2.3	2.3	3.0	2.7
2	4.2	3.0	3.6	3.4	3.8	3.6
3	3.5	3.9	3.7	4.0	4.5	4.3
4	2.0	2.0	2.0	2.1	3.1	2.6
5	3.5	3.3	3.4	2.5	3.3	2.9
6	4.1	3.8	4.0	3.5	3.7	3.6
7	3.0	3.0	3.0	3.0	3.0	3.0
8	3.5	3.3	3.4	3.3	3.4	3.4
9	4.1	3.5	3.8	4.0	3.4	3.7
10	3.2	3.0	3.1	2.0	2.2	2.1