La tabulación de datos es una de las herramientas más poderosas de la Estadística porque de esta depende la presentación adecuada de la información contenida en la o las variables.
En estadística, existen dos escalas principales para clasificar los datos: la escala cualitativa y la escala cuantitativa.
La escala cualitativa se compone de variables categóricas, en las cuales cada uno de los datos toma una de las tantas categorías de las que asume la variable medida. A menudo, estas categorías representan una cualidad que a su vez se puede representar por un nombre o por un código numérico.
En presencia de variables cualitativas se debe realizar el análisis haciendo una representación gráfica particular y un estudio de los datos basado en frecuencias y porcentajes. Estas representaciones gráficas útiles son: el diagrama de barras, el diagrama de Pareto y el gráfico de pastel; pero, previamente se deben organizar los datos en una tabla donde aparezcan las distintas frecuencias y los porcentajes de aparición de cada una de las categorías.
La escala cualitativa presenta dos tipos de datos: los datos nominales y los datos ordinales. Este tipo de dato no se puede procesar matemáticamente mediante operaciones de suma o multiplicación, ya que no tendría un significado de cantidad.
En la escala nominal los datos toman el nombre de una categoría en la que no existe una jerarquía natural sino que cada elemento se puede únicamente identificar con el nombre de una cualidad. En la escala ordinal se pueden tener nombres o códigos numéricos que se pueden jerarquizar siguiendo un orden natural. Aún estos códigos no representan cantidades con las que se pueden hacer operaciones, son sólo identificables y ordenables. Ejemplos de datos cualitativos son el rango militar, el estado civil de una persona, la religión que practica una persona y el grado de escolaridad. De estos 4 ejemplos el estado civil y la religión representan datos cualitativos nominales porque se da un nombre distintivo que no puede ser ordenado; los otros dos ejemplos, el rango militar y el grado de escolaridad, son datos cualitativos ordinales ya que además de identificar a la persona se pueden ordenar siguiendo una jerarquía.
Por su parte, la escala cuantitativa está conformada por datos que tienen el significado de cantidad. Aquellos datos que sólo permiten operaciones de suma, resta y multiplicación están en la escala de intervalo, ya que no es factible medir una razón entre dos mediciones. En estos el cociente no presenta un significado de ser interpretado como una parte de la otra. Especialmente, el cero ocupa una posición relativa en lo qu se está midiendo.
Ejemplos de datos cuantitativos de intervalos son los puntajes en una prueba de matemáticas y las edades de un grupo de personas.
En ambos casos, el cero es arbitrario. Una cuestión es que una persona de 14 años no siempre doblará la edad de una de 7 años, lo cierto es que se mantiene la diferencia de sus edades, en vida.
La otra escala cuantitativa es la escala de razón, que es la escala más completa porque las operaciones de división entre dos mediciones tienen un significado práctico. En esta escala el cero es absoluto, y es por eso que una medida puede duplicar a otra haciendo comparables dos mediciones en términos de porcentajes. Otros ejemplos en la escala cuantitativa de razón son: el ingreso de una persona y la masa corporal. En este caso, el cero indica ausencia de lo que se mide. Una persona con ingreso de $2000000 gana el doble que una persona con ingreso de $1000000.
Ejemplo: Mencione el tipo de dato y la escala a la que pertenecen los siguientes datos.
Número de hijos
número de cédula
Edad
Estrato
Tipo de sangre
Organización política
Nivel educativo
Grado de escalafón
Calificación del examen
Estatura.
Solución
A continuación se han clasificado
• Cualitativos Nominales
Tipo de sangre, organización política.
• Cualitativos Ordinales
Número de cédula, estrato, nivel educativo, grado de escalafón.
• Cuantitativos de intervalo
Calificación del examen, edad.
• Cuantitativos de razón
Número de hijos, estatura.
Los conceptos que se emplean comúnmente para datos cualitativos son:
Frecuencia absoluta: Se simboliza por f, y se define como el número de veces que se repite un dato. En el caso, se nombran varias categorías y para la categoría i la frecuencia absoluta es \(f_i\).
Número de datos: Se simboliza por n, y se define como el número total de elementos en una muestra. Matemáticamente, n corresponde a la suma de las frecuencias absolutas; esto es, \(n=f_1+f_2+\cdots+f_k\).
Frecuencia Relativa: Se simboliza por \(f_r\), y se define como el cociente entre la frecuencia absoluta y el total de datos, es decir, \(f_r= \frac{f}{n}\). La suma de frecuencias relativas es igual a 1.
Frecuencia Acumulada: Se simboliza por F, y se define como la suma de la frecuencia absoluta de un dato y las frecuencias absolutas anteriores; esto es, \(F_c=f_1+f_2+\cdots+f_c\). Además, se tiene que \(F_{c+1}=F_c+f_{c+1}\). También \(F_k=n\).
Frecuencia Relativa Acumulada: Se simboliza por \(F_r\), y se define como la suma de la frecuencia relativa de un dato y las frecuencias relativas anteriores; esto es, \(F_{cr}=f_{1r}+f_{2r}+\cdots+f_{cr}\). Además, se tiene que \(F_{(c+1)r}=F_{cr}+f_{(c+1)r}\). También \(F_{kr}=1\).
Porcentaje: Se simboliza por p, y se define como el tanto por ciento de una categoría. Este, se determina multiplicando la frecuencia relativa por 100. Esto es, \(p=f_r\times 100\).
Porcentaje acumulado: Se simboliza por P, y se define como el tanto por ciento acumulado hasta una categoría. Este, se determina multiplicando la frecuencia relativa acumulada por 100. Esto es, \(P=F_r\times 100\).
Angulo: Se simboliza por A, y se define como la porción sectorial de una categoría. Este, se determina multiplicando la frecuencia relativa por 360. Esto es, \(A=f_r\times 360\).
Ejemplo
Suponga que en una localidad, se clasificó a una muestra de 300 personas mayores de edad, de acuerdo con el nivel educativo alcanzado.
Los datos se presentan en la tabla con estimaciones de porcentajes acumulados. A partir de ello, obtenga las frecuencias absolutas y relativas, las frecuencias acumuladas y los pocentajes absolutos.
Nivel Educativo Porcentaje Acumulado
Primaria 40%
Bachiller 62%
Técnico 80%
Universitario 95%
Magíster 99%
Doctor 100%
Solución
De acuerdo a la información y a las definiciones dadas anteriormente, se tiene
\(f_i=\left(P_i-P_{i-1}\right)\times n\) para \(i=1\) primaria, hasta \(i=6\) doctor.
El \(P_0=0\) corresponde al porcentaje acumulado antes de primaria.
Por lo tanto, las frecuencias para primaria, caso \(i=1\), es
\(f_1=\left(40\%-0\%\right)\times 300\), es decir, \(f_1=40\%\times 300\), que es 120.
Para bachiller, \(i=2\), se tiene
\(f_2=\left(62\%-40\%\right)\times 300\), es decir, \(f_2=22\%\times 300\), que es 66.
Para técnico, \(i=3\), se tiene
\(f_3=\left(80\%-62\%\right)\times 300\), es decir, \(f_3=18\%\times 300\), que es 54.
Para Universitario \(i=4\), se tiene
\(f_4=\left(95\%-80\%\right)\times 300\), es decir, \(f_4=15\%\times 300\), que es 45.
Para Magíster, \(i=5\), se tiene
\(f_5=\left(99\%-95\%\right)\times 300\), es decir, \(f_5=4\%\times 300\), que es 12.
Por último, el nivel doctor \(i=6\)
\(f_6=\left(100\%-99\%\right)\times 300\), es decir, \(f_1=1\%\times 300\), que es 3.
Ahora bien, la frecuencia relativa, en la tabla Rel, se puede calcular como \(f_{ir}=\frac{\left(P_i-P_{i-1}\right)}{100\%}\), para \(i=1, 2, ..., 6\).
La p simboliza porcentaje absoluto y P porcentaje acumulado. En esta ley, el porcentaje absoluto se obtiene de las restas sucesivas de porcentajes acumulados, que al dividir por 100% producen la frecuencia relativa. Este ejemplo, ofrece la manera de obtener la frecuencia, frecuencia relativa, frecuencia acumulada y porcentaje a partir de los porcentajes acumulados dados.
Primero, para primaria, \(i=1\), se tiene
\(f_{1r}=\frac{\left(P_1-P_0\right)}{100\%}\), es decir, \(f_{1r}=\frac{\left(40\%-0\%\right)}{100\%}\), esto da 0.4.
Segundo, para Bachiller, \(i=2\), se tiene
\(f_{2r}=\frac{\left(P_2-P_1\right)}{100\%}\), es decir, \(f_{2r}=\frac{\left(62\%-40\%\right)}{100\%}\), esto da 0.22.
Tercero, para Técnico, \(i=3\), se tiene
\(f_{3r}=\frac{\left(P_3-P_2\right)}{100\%}\), es decir, \(f_{3r}=\frac{\left(80\%-62\%\right)}{100\%}\), esto da 0.18.
Cuarto, para Universitario, \(i=4\), se tiene
\(f_{4r}=\frac{\left(P_4-P_3\right)}{100\%}\), es decir, \(f_{4r}=\frac{\left(95\%-80\%\right)}{100\%}\), esto da 0.15.
Quinto, para Magíster, \(i=5\), se tiene
\(f_{5r}=\frac{\left(P_5-P_4\right)}{100\%}\), es decir, \(f_{5r}=\frac{\left(99\%-95\%\right)}{100\%}\), esto da 0.04.
Por último, para Doctor, \(i=6\), se tiene
\(f_{6r}=\frac{\left(P_6-P_5\right)}{100\%}\), es decir, \(f_{6r}=\frac{\left(100\%-99\%\right)}{100\%}\), esto da 0.01.
A partir de estos cálculos se consolida la tabla y el lector debe realizar los cálculos de las dos últimas columnas: frecuencia acumulada y porcentaje, para verificar la solución presentada en la tabla anterior.
Una de las primeras operaciones que se debe realizar después de recoger los datos, es organizar los datos a través de las frecuencias de aparición de estos.
El resultado de organizar los datos es una tabla de frecuencias no agrupadas que puede tener una sola entrada o dos o más entradas según el número de variables que se utilicen.
Tablas de una sola entrada
Para las tablas de una sola entrada se tiene en cuenta una única variable cualitativa y la organización se basa en la obtención de las frecuencias de aparición de cada categoría, es decir, el número de veces que se repite. Se colocan las categorías de la variable en la primera columna y se calculan las frecuencias y los porcentajes para cada categoría ubicándolas en otras columnas.
Ejemplo: Suponga que una muestra de 25 personas adultas, que pertenecen a un programa, se clasifica por el estado civil y se dan los resultados siguientes:
Soltero - casado - casado - viudo - casado - casado - soltero casado - viudo - unión libre - divorciado - casado - soltero - viudo - casado - unión libre - viudo - soltero - soltero - casado - divorciado - soltero - unión libre - unión libre - soltero
Organice los datos en una tabla de frecuencias donde aparezca frecuencia absoluta, frecuencia relativa y porcentaje.
Realice una estimación de cuántas personas pertenecen a cada categoría si en la población hay 1200.
Solución
Estadocivil=c("Casado", "Soltero", "Union libre", "Viudo", "divorciado")
Frecuencia=c(8,7,4,4,2)
Frec.Relativa=Frecuencia/25
Porcentaje=Frec.Relativa*100
cbind(Estadocivil, Frecuencia, Frec.Relativa, Porcentaje)
## Estadocivil Frecuencia Frec.Relativa Porcentaje
## [1,] "Casado" "8" "0.32" "32"
## [2,] "Soltero" "7" "0.28" "28"
## [3,] "Union libre" "4" "0.16" "16"
## [4,] "Viudo" "4" "0.16" "16"
## [5,] "divorciado" "2" "0.08" "8"
Número de casados \(= 0,32 (1200) = 384\)
Número de solteros $ = 0,28 (1200) = 336$
Número de unión libre \(= 0,16 (1200) = 192\)
Número de viudos \(= 0,16 (1200) = 192\)
Número de divorciados \(= 0,08 (1200) = 96\)
Estos valores son estimaciones y naturalmente pueden ser diferentes a los valores de la población. Lo ideal es que la muestra origine unas proporciones muy cercanas a los respectivos parámetros.
Ejemplo: En una encuesta se utilizó el muestreo por conveniencia para medir la apreciación que tienen los estudiantes de bachillerato a cerca de sus dificultades en el área de Matemáticas.
GradodeDificultad=c("NINGUNO", "POCO", "MEDIO", "BASTANTE", "total")
frecuencia=c(15,59,90,22,186)
cbind(GradodeDificultad,frecuencia)
## GradodeDificultad frecuencia
## [1,] "NINGUNO" "15"
## [2,] "POCO" "59"
## [3,] "MEDIO" "90"
## [4,] "BASTANTE" "22"
## [5,] "total" "186"
Coloque los resultados en una tabla de frecuencias donde aparezca frecuencia absoluta, frecuencia relativa, frecuencia acumulada, frecuencia relativa acumulada, porcentaje y porcentaje acumulado.
Haga la interpretación de los datos.
Solución
GradodeDificultad=c("NINGUNO", "POCO", "MEDIO", "BASTANTE", "total")
f=c(15,59,90,22,186)
Frec.Rel=round(f/186,2)
Porcentaje=Frec.Rel*100
Porc.acum=round(c(15/186*100,74/186*100,164/186*100,100,100),0)
cbind(GradodeDificultad, f, Frec.Rel, Porcentaje, Porc.acum)
## GradodeDificultad f Frec.Rel Porcentaje Porc.acum
## [1,] "NINGUNO" "15" "0.08" "8" "8"
## [2,] "POCO" "59" "0.32" "32" "40"
## [3,] "MEDIO" "90" "0.48" "48" "88"
## [4,] "BASTANTE" "22" "0.12" "12" "100"
## [5,] "total" "186" "1" "100" "100"
Ejemplo: Se tomó una muestra aleatoria de 21 asociaciones de un departamento de Colombia; los datos aparecen en datos abiertos Colombia, y se clasificaron por actividad como agrícola, ganadera o pesquera. Los datos aparecen a continuación.
Pesquera Agrícola Agrícola Ganadera Agrícola Ganadera Agrícola Agrícola Pesquera Agrícola Ganadera Ganadera Pesquera Agrícola Agrícola Ganadera Agrícola Agrícola Agrícola Agrícola Agrícola
Organice los datos en una tabla donde aparezca frecuencia, frecuencia relativa, frecuencia acumulada, frecuencia relativa acumulada, porcentaje y porcentaje acumulado.
Actividad=c("Agricola", "Ganadera", "Pesquera")
f=c(13, 5, 3)
cbind(Actividad,f)
## Actividad f
## [1,] "Agricola" "13"
## [2,] "Ganadera" "5"
## [3,] "Pesquera" "3"
Actividad=c("Agricola", "Ganadera", "Pesquera")
f=c(13, 5, 3)
fr=round(f/21,2)
F=c(13,18,21)
Fr=round(F/21,2)
p=fr*100
P=Fr*100
cbind(Actividad,f,fr,F,Fr,p,P)
## Actividad f fr F Fr p P
## [1,] "Agricola" "13" "0.62" "13" "0.62" "62" "62"
## [2,] "Ganadera" "5" "0.24" "18" "0.86" "24" "86"
## [3,] "Pesquera" "3" "0.14" "21" "1" "14" "100"
Se observa que casi dos terceras partes de las asociaciones se dedican a actividades agrícolas. Casi la cuarta parte explota la ganadería.
Se clasificó una muestra de 150 empresarios por el tipo de empresa, resultando en los siguientes:
| Tipo de Empresa | Número de empresarios |
|---|---|
| Pequeña | 45 |
| Mediana | 75 |
| Grande | 30 |
(a) Obtenga las frecuencias acumuladas, las frecuencias relativas y relativas acumuladas, los porcentajes y los porcentajes acumulados.
(b) ¿Qué porcentaje pertenece a los dos primeros tipos de empresa?
(c) ¿Qué porcentaje pertenece a los tipos mediana y grande?
(a) A continuación se completa la tabla:
| Tipo | Frec. | Frec. Acum. | Frec. Rel. | Rel. Acum. | Porc. | Porc. Acum. |
|---|---|---|---|---|---|---|
| Pequeña | 45 | 45 | 0.30 | 0.30 | 30 | 30 |
| Mediana | 75 | 120 | 0.50 | 0.80 | 50 | 80 |
| Grande | 30 | 150 | 0.20 | 1.00 | 20 | 100 |
(b)
El porcentaje de empresarios que pertenecen a los dos primeros tipos es
del 80%, como se observa en el acumulado del tipo
Mediana.
(c)
El porcentaje que pertenece a los tipos mediana o
grande es:
\[ 50\% + 20\% = 70\% \]
A continuación se presentan los causantes de accidentes de tránsito en un país latinoamericano:
| Causante | No. de accidentes | Porcentaje |
|---|---|---|
| Conductor | 3136 | 62.72% |
| Peatón | 1701 | 34.02% |
| Carretera | 96 | 1.92% |
| Auto | 49 | 0.98% |
| Pasajero | 18 | 0.36% |
| Total | 5000 | 100% |
Obtenga los siguientes porcentajes:
(a) Alguna de las dos causas más comunes.
(b) Que la causa involucre al conductor.
(c) Que ocurra alguna de las 3 causas menos
importantes.
(a)
El porcentaje de que ocurra alguna de las dos causas más comunes es:
\[ 62.72\% + 34.02\% = 96.74\% \]
(b)
El porcentaje de accidentes que involucran al conductor es
62.72%, como se observa en la primera categoría.
(c)
El porcentaje de accidentes que involucra alguna de las tres causas
menos importantes es:
\[ 1.92\% + 0.98\% + 0.36\% = 3.26\% \]
Se resalta que el principal causante de accidentes de tránsito es el conductor, con casi **2 de cada 3, de ellos.
Una tabla de contingencia consiste en una tabla de
dos o más entradas donde se presentan las frecuencias de aparición
conjunta de dos o más variables categóricas.
El caso que se presenta en este texto es el de una tabla que maneja
dos criterios: el primero con sus categorías en las
filas y el segundo con sus categorías en las columnas.
A continuación se tomó una muestra de 186 estudiantes, y se clasificó por el grado de escolaridad y la apreciación del nivel de dificultad en Matemáticas.
| Grado / Dificultad | Ninguna | Poca | Media | Bastante | Total |
|---|---|---|---|---|---|
| Sexto | 2 | 7 | 9 | 2 | 20 |
| Octavo | 7 | 14 | 14 | 4 | 39 |
| Noveno | 3 | 15 | 22 | 3 | 43 |
| Décimo | 1 | 13 | 16 | 4 | 34 |
| Undécimo | 2 | 10 | 29 | 9 | 50 |
| Total | 15 | 59 | 90 | 22 | 186 |
Determine los siguientes porcentajes:
a) Los estudiantes que presentan poco nivel de dificultad en Matemáticas.
b) Los estudiantes de sexto u octavo grado que presentan nivel medio o bastante nivel de dificultad en Matemáticas.
c) Los estudiantes de noveno, décimo o undécimo que presentan ninguno o poco nivel de dificultad en Matemáticas.
Con base en la información suministrada en la tabla, se tiene:
a)
Los estudiantes que presentan poco nivel de dificultad en Matemáticas
son:
\[ \frac{59}{186} \times 100 = 31.72\% \]
b)
Los estudiantes de sexto u octavo que presentan nivel medio o bastante
dificultad en Matemáticas son:
\[ \frac{9 + 2 + 14 + 4}{20 + 39} \times 100 = 49.15\% \]
c)
Los estudiantes de noveno, décimo o undécimo que presentan ninguno o
poco nivel de dificultad en Matemáticas son:
\[ \frac{3 + 15 + 1 + 13 + 2 + 10}{43 + 34 + 50} \times 100 = 34.64\% \]
En las instituciones públicas distritales de primaria se realizó una encuesta que clasificó a los estudiantes de acuerdo con la materia preferida, con el propósito de determinar si en todos los grados de primero a quinto grado todas las materias tienen la misma preferencia.
Realice el procedimiento para probar la hipótesis de que los grados son homogéneos con respecto a la preferencia por las distintas asignaturas en cuestión. Sustente su respuesta a través de una gráfica de barras agrupadas.
| Materia / Grado | Primero | Segundo | Tercero | Cuarto | Quinto |
|---|---|---|---|---|---|
| Matemáticas | 35 | 34 | 30 | 29 | 10 |
| Biología | 17 | 32 | 38 | 36 | 39 |
| Sociales | 23 | 35 | 31 | 24 | 19 |
| Español | 32 | 34 | 31 | 28 | 22 |
| Educación Física | 42 | 47 | 39 | 38 | 17 |
En la tabla se muestran los porcentajes condicionales por grado:
| Materia / Grado | Primero | Segundo | Tercero | Cuarto | Quinto |
|---|---|---|---|---|---|
| Matemáticas | 23% | 19% | 18% | 19% | 9% |
| Biología | 11% | 18% | 22% | 23% | 36% |
| Sociales | 15% | 19% | 18% | 15% | 18% |
| Español | 21% | 19% | 18% | 18% | 21% |
| Educación Física | 28% | 26% | 23% | 25% | 16% |
Todas las columnas suman 100%, reflejando el porcentaje de cada grado que prefiere una materia específica.
Por ejemplo: - El 22% de los estudiantes de tercero prefieren Biología. - El 16% del grado quinto prefiere Educación Física. - El 23% del grado primero prefieren Matemáticas.
Se observa que las preferencias en esta encuesta no presentan una diferencia sistemática, sino una variación atribuible al azar.
En una población: - \(\frac{1}{3}\) de los individuos son casados - \(\frac{1}{4}\) son solteros - \(\frac{1}{5}\) son viudos - El resto son divorciados
Determine la fracción de divorciados y elabore una gráfica de pastel con los datos.
Dado que:
\[ \frac{1}{3} + \frac{1}{4} + \frac{1}{5} + x = 1 \]
\[ \frac{47}{60} + x = 1 \]
\[ x = \frac{13}{60} \]
| Estado civil | Casado | Soltero | Viudo | Divorciado |
|---|---|---|---|---|
| Fracción | 1/3 | 1/4 | 1/5 | 13/60 |
| Porcentaje | 33.3% | 25% | 20% | 21.7% |
| Ángulo | 120° | 90° | 72° | 78° |
Los gráficos principales que se utilizan con datos cualitativos son: el diagrama de barras, el diagrama de Pareto y el gráfico de pastel.
El diagrama de barras con datos nominales suele
presentar las categorías en cualquier orden, cada categoría con su
respectiva frecuencia o porcentaje.
Las categorías se ubican en el eje horizontal, separadas unas de otras,
y se levanta una barra para cada categoría cuya altura sea proporcional
a la frecuencia o al porcentaje.
El gráfico de Pareto es un gráfico de barras ordenadas por frecuencia de mayor a menor. Se utiliza para establecer cuántas y cuáles son las categorías principales de una variable. Su objetivo es identificar los pocos vitales y los muchos triviales.
Por último, el gráfico de pastel divide el círculo
en sectores cuyo ángulo es proporcional al porcentaje de aparición de
cada categoría.
El ángulo en grados sexagesimales se calcula como:
\[ A = f_r \times 360 \]
donde \(f_r\) es la frecuencia relativa de la categoría.
Con los datos de la muestra sobre el Gusto por las Matemáticas, elabore un gráfico de barras, un gráfico de Pareto y un gráfico de pastel, usando los totales.
Tenga presente las convenciones:
N = ninguno, P = poco,
M = medio, B = bastante,
S = superior.
| Grado / Gusto por Matemáticas | N | P | M | B | S | Total |
|---|---|---|---|---|---|---|
| Sexto | 0 | 2 | 10 | 8 | 0 | 20 |
| Octavo | 0 | 1 | 23 | 15 | 0 | 39 |
| Noveno | 1 | 3 | 23 | 16 | 0 | 43 |
| Décimo | 0 | 7 | 22 | 5 | 0 | 34 |
| Undécimo | 1 | 13 | 29 | 3 | 4 | 50 |
| Total | 2 | 26 | 107 | 47 | 4 | 186 |
Elabore también el gráfico de anillo. Explique cómo se elabora cada gráfico, mencionando sus principales propiedades.
A continuación, se presenta el gráfico de barras:
El gráfico de barras para la variable ordinal Gusto por las
Matemáticas se realiza manteniendo el orden natural de las
categorías.
Se incluyen los siguientes elementos: - Eje horizontal: niveles de la
variable
- Eje vertical: frecuencia, con escala constante
- Altura de cada barra: igual a la frecuencia de ocurrencia
El gráfico de pastel para la variable Gusto por las
Matemáticas se realiza con los porcentajes de cada
categoría.
Se incluyen: - Niveles de la variable, asignando un color a cada
uno
- Porcentajes, representados mediante sectores cuyo ángulo es
proporcional a la frecuencia relativa
El área de cada sector es proporcional a la frecuencia de ocurrencia de la categoría.
El gráfico de anillo para la variable ordinal Gusto por las
Matemáticas se realiza con los porcentajes de cada categoría.
Cada corona representa un nivel de la variable, donde el área es
proporcional a la frecuencia relativa.
Realice la gráfica de Pareto y la gráfica de pastel para los causantes de accidentalidad.
El gráfico de Pareto para la variable nominal causantes de
accidentalidad se realiza con los porcentajes de cada
categoría.
Los niveles se ordenan de mayor a menor, comenzando por
las causas más importantes.
La altura de cada barra es proporcional a la frecuencia porcentual.
En este gráfico se destacan los porcentajes principales con colores rosado y gris, correspondientes a Conductor y Peatón, con un porcentaje total del 96.74%.
Las causas de accidentalidad centran la atención principalmente en
dos actores: el conductor y el
peatón.
Aunque el problema se compone de diversas causas, estas pueden agruparse
por responsable, y si bien no siempre se puede culpar al ser humano, en
la mayoría de los casos sí ocurre.
Se recogen datos de la materia favorita de los estudiantes en una institución.
| Materia favorita | Frecuencia porcentual |
|---|---|
| Biología | 18 |
| Matemáticas | 21 |
| Sociales | 18 |
| Español | 19 |
| Educación Física | 24 |
Realice una gráfica de pastel para estos datos.
En la gráfica se muestran los sectores correspondientes a cada materia preferida.
En este caso, se observa que las cinco materias presentan un
favoritismo estadísticamente similar entre los
estudiantes.
Aunque Biología y Sociales presentan
porcentajes ligeramente menores, esta diferencia es irrelevante, ya que
se trata de una población uniforme.
Se realizan a un grupo de 100 estudiantes un total
de 250 preguntas tipo Saber de Matemáticas,
distribuidas en 50 preguntas por cada componente:
Numérico, Métrico, Geométrico, Aleatorio y Variacional.
Los datos se resumen en la siguiente tabla:
| Componente | Respuestas correctas |
|---|---|
| Numérico | 33 |
| Métrico | 28 |
| Geométrico | 32 |
| Aleatorio | 31 |
| Variacional | 26 |
Realice una gráfica de pastel para estos datos.
Aunque la cantidad de respuestas correctas varía por componente, en este caso se puede obtener un porcentaje basado en el total de respuestas correctas.
| Componente | Porcentaje |
|---|---|
| Numérico | 22.00% |
| Métrico | 18.67% |
| Geométrico | 21.33% |
| Aleatorio | 20.67% |
| Variacional | 17.33% |
La gráfica de pastel se muestra a continuación:
En esta gráfica se determina primero el porcentaje y
luego el ángulo correspondiente a cada sector.
Las diferencias observadas son mínimas, lo cual sugiere que se trata de
poblaciones similares. Desde el punto de vista
estadístico, aun cuando las poblaciones sean iguales, es normal
encontrar pequeñas diferencias en las muestras, las cuales obedecen al
azar y no a un comportamiento sistemático o
determinístico.
Para los datos de las asociaciones del departamento del Atlántico, presente un gráfico de anillo y realice la interpretación del mismo.
A continuación se presenta la gráfica de anillo, donde se aprecian los porcentajes de las tres actividades consideradas en el conjunto de datos:
Como se observa, la mayoría de las asociaciones se
dedican a la actividad agrícola, aproximadamente
dos terceras partes.
Cerca del 25% de las asociaciones se dedican a la
ganadería, mientras que una séptima
parte está involucrada en la pesquería.
Por lo tanto: - 2 de cada 3 asociaciones se dedican a la agricultura. - 1 de cada 4 se dedica a la ganadería. - 1 de cada 7 se dedica a la pesquería.
La gráfica de anillo utiliza coronas en lugar de sectores, manteniendo una división similar a la del gráfico de pastel, lo que facilita la comparación visual de las proporciones.
Se ha clasificado un grupo de 186 estudiantes según
categorías de edades.
Con base en los datos, elabore una tabla donde aparezca:
frecuencia relativa, frecuencia acumulada, frecuencia relativa
acumulada, porcentaje, porcentaje acumulado y ángulo.
Interprete sus resultados.
| Categoría | No. de estudiantes |
|---|---|
| Alevines | 15 |
| Infantil | 47 |
| Cadetes | 81 |
| Juveniles | 43 |
| Total | 186 |
De la encuesta a 186 estudiantes, se mide el tiempo
que dedican al lenguaje en cuatro categorías.
Con base en los datos, elabore una tabla donde aparezca:
frecuencia acumulada, frecuencia relativa, frecuencia relativa
acumulada, porcentaje y porcentaje acumulado.
| Tiempo dedicado | No. de estudiantes |
|---|---|
| Insuficiente | 68 |
| Poco | 75 |
| Medio | 32 |
| Bastante | 11 |
| Total | 186 |
Se estudia la cantidad de materias que les gusta a un grupo de
estudiantes de bachillerato.
El número de estudiantes por grupo se ha tabulado a continuación:
| Grupo | No. de estudiantes |
|---|---|
| Mínimo | 41 |
| Poco | 93 |
| Medio | 26 |
| Bastante | 15 |
| Máximo | 11 |
Con base en los datos, elabore una tabla donde aparezca: frecuencia acumulada, frecuencia relativa, frecuencia relativa acumulada, porcentaje y porcentaje acumulado.
Un profesor clasifica los estudiantes varones que van a participar en un torneo de futsal y los discrimina por grado y por su preferencia hacia los estudios, como se muestra en la tabla:
| Grado / Preferencia | Ninguno o poco | Medio o bastante |
|---|---|---|
| Sexto | 7 | 7 |
| Octavo | 9 | 8 |
| Noveno | 15 | 12 |
| Décimo | 10 | 5 |
| Undécimo | 22 | 5 |
Con base en los datos, elabore una tabla donde aparezca: frecuencia, frecuencia relativa, frecuencia acumulada, frecuencia relativa acumulada, porcentaje y porcentaje acumulado por grado.
Defina los porcentajes de preferencia a nivel global.
En 10 cursos de primaria de un colegio distrital se clasificaron los estudiantes de acuerdo con el desempeño académico: insuficiente, básico, sobresaliente y superior.
| Grupo | Insuficiente | Básico | Sobresaliente | Superior | Total |
|---|---|---|---|---|---|
| Primero | 35 | 17 | 10 | 6 | 68 |
| Segundo | 40 | 15 | 8 | 5 | 68 |
| Tercero | 38 | 19 | 7 | 4 | 68 |
| Cuarto | 32 | 21 | 9 | 6 | 68 |
| Quinto | 36 | 15 | 9 | 8 | 68 |
En una pequeña ciudad se realizó una encuesta que clasificó a los individuos de la muestra por estrato y por ingresos, con el propósito de determinar si este último está ligado a la zona de residencia.
Determine los porcentajes condicionales por estrato.
| Estrato / Ingreso | 2–3 | 3–4 | 5–6 | 6 y más |
|---|---|---|---|---|
| I | 150 | 80 | 35 | 9 |
| II | 85 | 90 | 20 | 8 |
| III | 70 | 70 | 38 | 17 |
| IV | 30 | 98 | 135 | 28 |
| V | 20 | 65 | 40 | 67 |
| VI | 10 | 35 | 50 | 100 |
En una escuela de primaria se realizó una encuesta que clasificó a los estudiantes por estrato y por grado, con el propósito de determinar si los grados de primero a quinto contienen exactamente las mismas proporciones de estudiantes de cada estrato.
Realice el procedimiento para encontrar los porcentajes globales.
| Estrato / Grado | Primero | Segundo | Tercero | Cuarto | Quinto |
|---|---|---|---|---|---|
| I | 105 | 108 | 97 | 119 | 118 |
| II | 58 | 57 | 55 | 50 | 59 |
| III | 37 | 34 | 35 | 28 | 33 |
| IV | 28 | 23 | 10 | 15 | 9 |
| V o VI | 12 | 10 | 14 | 11 | 20 |
En este capítulo se hace un análisis de datos agrupados, usando un método de suavización para originar histogramas monótonos, es decir, curvas semejantes a un proceso gamma, relacionadas con una curva que crece y decrece de manera permanente.
En esta sección se estudiarán los porcentajes dentro de un intervalo o alusivos a una región de una recta numérica.
Una persona realiza una compra de 250 artículos, con
el propósito de obtener la distribución de los gastos.
Los resultados aparecen en la siguiente tabla:
| Cantidad de salarios | Cantidad de artículos |
|---|---|
| [1 – 3) | 55 |
| [3 – 5) | 125 |
| [5 – 7) | 50 |
| [7 – 9) | 20 |
a) Obtenga el porcentaje de artículos que tienen un gasto de menos de 3 salarios.
b) Halle el porcentaje de artículos que tienen un costo de 3 o más, pero menos de 5 salarios.
a)
La cantidad total de artículos en la encuesta es
250.
El número de artículos con menos de 3 salarios es
55.
Por lo tanto, el porcentaje es:
\[ P = \frac{55}{250} \times 100 = 22\% \]
b)
El número de artículos con un costo de 3 o más salarios, pero menos de
5, es 125.
Luego, el porcentaje correspondiente es:
\[ P = \frac{125}{250} \times 100 = 50\% \]
La mitad de los artículos tienen un costo entre 3 y menos de 5 salarios.
En una estación de buses se observa la llegada de
120 buses.
El número de horas que tardaron en llegar se registra en la siguiente
tabla:
| Cantidad de horas | Cantidad de buses |
|---|---|
| [0 – 3) | 90 |
| [3 – 8) | 27 |
| [8 – 10] | 3 |
a) Obtenga el número de buses que llegaron en menos de 3 horas.
b) Obtenga el porcentaje de buses que demoraron en llegar a la estación de 3 a menos de 8 horas.
a)
El número total de buses observados es 120.
Los buses que tardaron menos de 3 horas fueron 90.
\[ P = \frac{90}{120} \times 100 = 75\% \]
b)
El número de buses que tardaron de 3 a menos de 8 horas en llegar a la
estación fue 27.
\[ P = \frac{27}{120} \times 100 = 22.5\% \]
El 22.5% de los buses demoraron entre 3 y menos de 8 horas en llegar a la estación.
El siguiente diagrama de tallo y hojas representa la cantidad de gastos en servicio de gas que perciben los individuos de una población.
| Tallo | Hojas |
|---|---|
| 6 | 5 5 6 6 |
| 7 | 1 1 2 2 7 7 |
| 8 | 0 1 3 5 6 6 8 8 9 |
| 9 | 2 2 3 3 4 6 9 |
| 10 | 1 1 5 5 6 |
a) Calcule los porcentajes de cada intervalo de
tallo.
b) Halle el porcentaje de individuos que caen en alguno
de los dos primeros tallos.
a) Porcentaje de cada intervalo de tallo:
| Clases | Porcentaje |
|---|---|
| 60 – 69 | 12.90 % |
| 70 – 79 | 19.35 % |
| 80 – 89 | 29.03 % |
| 90 – 99 | 22.58 % |
| 100 – 110 | 16.13 % |
b) Porcentaje en los dos primeros tallos:
\[ 12.90\% + 19.35\% = 32.25\% \]
Distribución de frecuencias de salarios semanales para 90 trabajadores por prestación de servicios:
| Salario Semanal | Número de trabajadores |
|---|---|
| [1 – 1.2) | 36 |
| [1.2 – 1.4) | 18 |
| [1.4 – 1.6) | 15 |
| [1.6 – 1.8) | 12 |
| [1.8 – 2.0) | 6 |
| [2.0 – 2.2) | 3 |
a) Halle el porcentaje de trabajadores con salarios
entre 1.2 y 1.8.
b) Determine el porcentaje de trabajadores que superan
los 1.8 salarios.
c) Determine la fracción de trabajadores que superan
los 1.6 salarios.
a)
Número total de trabajadores: 90
Trabajadores con salarios entre 1.2 y 1.8: 18 + 15 + 12 = 45
\[ P = \frac{45}{90} \times 100\% = 50\% \]
b)
Trabajadores con salarios superiores a 1.8: 6 + 3 = 9
\[ P = \frac{9}{90} \times 100\% = 10\% \]
El 10% de los trabajadores tiene salarios superiores a 1.8.
c)
Trabajadores con salarios de 1.6 o más: 12 + 6 + 3 = 21
\[ P = \frac{21}{90} \times 100\% \approx 23.3\% \]
El 23.3% de los trabajadores tienen salarios de 1.6 o más.
Una tabla muy útil es la tabla de frecuencias agrupadas, la cual, en muchos casos se elabora con intervalos de clases de igual amplitud.
Los pasos para construir una tabla de frecuencias agrupadas son:
Hallar el rango
\[
R = \text{dato mayor} - \text{dato menor}
\]
Hallar el número de clases
\[
c = 3.3 \log(n) + 1
\]
(regla de Sturges; se redondea al entero más cercano)
Hallar la amplitud
\[
w = \frac{R}{c}
\]
(el rango dividido por el número de clases; se recomienda
redondearlo a la unidad siguiente según el número de
cifras)
Hallar los límites de clase
Primera clase: \(L_1 = \text{dato
menor}\)
Siguientes límites:
\[
L_2 = L_1 + w, \quad L_3 = L_2 + u, \dots
\]
donde \(u\) es la unidad decimal de
medida de los datos. Se obtienen las \(c\) clases sumando la amplitud
sucesivamente.
Intervalos:
\[
L_1 - L_2, \quad L_2 + u - L_3, \quad \dots, \quad L_c + u - L_{c+1}
\]
Para determinar la frecuencia se usa una columna de marcas de cuenta. Las marcas de clase se obtienen como el promedio de los límites inferior y superior de cada clase.
Se presentan los gastos en papelería de una muestra de 50 estudiantes (valores en dólares):
14.2, 15.1, 18.4, 19.5, 20.5, 21.3, 23.1, 24.1, 26.9, 27.4,
29.1, 30.4, 33.3, 36.2, 37.0, 37.1, 37.1, 38.7, 41.7, 42.4,
43.7, 44.1, 45, 45.4, 46.5, 47.8, 49.4, 49.8, 50.4, 53.5,
53.6, 54.5, 55.9, 56.2, 58.6, 60.3, 61.4, 69.7, 73.6, 74.2,
76.2, 76.9, 79.1, 80.9, 83.7, 91.5, 94, 95.9, 102, 129.9
Rango:
\[
R = X_{\text{max}} - X_{\text{min}} = 129.9 - 14.2 = 115.7
\]
Número de clases:
\[
c = 1 + 3.3 \log(50) = 6.6 \approx 7
\]
Amplitud:
\[
w = \frac{R}{c} = \frac{115.7}{7} \approx 16.6
\]
Clases y frecuencias:
| Clase | Límite inferior | Límite superior | f |
|---|---|---|---|
| 1 | 14.2 | 30.8 | 12 |
| 2 | 30.9 | 47.5 | 13 |
| 3 | 47.6 | 64.2 | 12 |
| 4 | 64.3 | 80.9 | 7 |
| 5 | 81.0 | 97.6 | 4 |
| 6 | 97.7 | 114.3 | 1 |
| 7 | 114.4 | 131.0 | 1 |
Estos límites se conocen como límites nominales, porque de clase a clase hay un salto de 0.1.
La segunda clase (30.9 – 47.5) presenta la mayor concentración de datos, con 13 estudiantes.
Se presentan los costos de un artículo en una muestra aleatoria de 35 localidades del departamento. Los costos se expresan en miles de pesos:
516.71, 548.72, 510.53, 401.39, 470.86, 553.23, 463, 472.95, 451.39,
593.77,
339.13, 513.58, 550.56, 482.46, 486.35, 442.97, 468.31, 593.49, 437.03,
482.78,
396.84, 503.91, 423.29, 511.14, 500.86, 519.33, 526.56, 444.11, 400.79,
500.02,
467.96, 509.52, 705.16, 511.62, 448.63
Rango:
\[
R = X_{\text{max}} - X_{\text{min}} = 705.16 - 339.13 = 366.03
\]
Número de clases:
\[
c = 1 + 3.3 \log(35) = 6.09 \approx 6
\]
(se redondea al entero más cercano)
Amplitud:
\[
w = \frac{R}{c} = \frac{366.03}{6} \approx 61.01
\]
(se redondea a la centésima siguiente)
Clases y frecuencias:
| Clase | Límite inferior | Límite superior | f |
|---|---|---|---|
| 1 | 339.13 | 400.14 | 2 |
| 2 | 400.15 | 461.16 | 8 |
| 3 | 461.17 | 522.18 | 18 |
| 4 | 522.19 | 583.20 | 4 |
| 5 | 583.21 | 644.22 | 2 |
| 6 | 644.23 | 705.24 | 1 |
Estos límites se conocen como límites nominales, porque de clase a clase hay un salto de 0.01, es decir, un salto de una centésima.
Las clases tienen igual amplitud y están ordenadas desde el valor mínimo hasta un valor generalmente superior al máximo pero muy próximo a este.
La tercera clase (461.17 – 522.18) presenta la mayor concentración de datos, con un total de 18 localidades.
Para variables cuantitativas unidimensionales, las gráficas que se usan principalmente son el histograma, el polígono de frecuencias y la ojiva.
El histograma que más se utiliza es aquel que representa frecuencias o porcentajes absolutos; de este modo, permite visualizar la distribución de una variable cuantitativa.
Con ayuda de la siguiente tabla de frecuencias agrupadas, trace el histograma y comente:
| Cantidad de salarios | Cantidad de artículos |
|---|---|
| 1 - 3 | 55 |
| 3 - 5 | 125 |
| 5 - 7 | 50 |
| 7 - 9 | 20 |
El siguiente es el histograma de frecuencias absolutas para la distribución de la cantidad de salarios por artículo:
Se observa que la cantidad de salarios más sobresalientes por artículo es de 3 a 5.
Con ayuda de la siguiente tabla de frecuencias agrupadas, trace el histograma y comente:
| Cantidad de horas | Cantidad de buses |
|---|---|
| 0 - 3 | 90 |
| 3 - 8 | 27 |
| 8 - 10 | 3 |
El siguiente es el histograma de frecuencias absolutas:
Se observa que la cantidad de horas más sobresalientes de llegada de
los buses es de 0 a 3.
En este caso, se están empleando intervalos
semiabiertos. La gráfica tiene intervalos de distinto ancho,
por lo que se redefine la frecuencia, manteniendo constante el
área de cada barra.
Con ayuda de la tabla de frecuencias agrupadas de gastos en servicios de gas, trace el histograma y comente:
| Clases | Porcentaje |
|---|---|
| 60 - 69 | 12.90% |
| 70 - 79 | 19.35% |
| 80 - 89 | 29.03% |
| 90 - 99 | 22.58% |
| 100 - 110 | 16.13% |
El siguiente es el histograma de frecuencias absolutas:
Se observa que la cuarta clase es la más
sobresaliente, esto es, 80 a 89.
Esta distribución es asimétrica a la izquierda.
Con ayuda de la siguiente tabla de frecuencias agrupadas, trace el histograma y comente:
| Salario Semanal | Número de trabajadores |
|---|---|
| 1 - 1.2 | 36 |
| 1.2 - 1.4 | 18 |
| 1.4 - 1.6 | 15 |
| 1.6 - 1.8 | 12 |
| 1.8 - 2.0 | 6 |
| 2.0 - 2.2 | 3 |
El siguiente es el histograma de frecuencias absolutas:
Se observa que la primera clase es la más
sobresaliente, esto es, de 1 a 1.2.
Esta distribución es asimétrica a la derecha, ya que
presenta una cola a la derecha, evidenciando que la frecuencia de los
intervalos de clase va disminuyendo al aumentar la variable.
Los siguientes datos representan los gastos en papelería
mensuales, en miles de pesos, de un grupo de 60
estudiantes.
Con ayuda de la siguiente tabla de frecuencias agrupadas, trace el
histograma y comente:
| Clases | Frecuencia |
|---|---|
| 6 - 12 | 22 |
| 12 - 18 | 15 |
| 18 - 24 | 12 |
| 24 - 30 | 6 |
| 30 - 36 | 3 |
| 36 - 42 | 2 |
El siguiente es el histograma de frecuencias absolutas:
Se observa que la primera clase es la más
sobresaliente, esto es, de 6 a menos de 12.
Esta distribución es asimétrica a la derecha, ya que
presenta una cola hacia la derecha, evidenciando que la frecuencia de
los intervalos de clase tiende a ir disminuyendo de izquierda a
derecha.
Los polígonos de frecuencias permiten representar la forma de la
distribución de los datos agrupados.
En algunos casos, suele reemplazarse con una curva de densidad
suavizada.
Con ayuda de la tabla de frecuencias agrupadas del ejemplo 2.1, trace el polígono de frecuencias y comente.
| Cantidad de salarios | Marca de Clase | Cantidad de artículos |
|---|---|---|
| 0 | 0 | |
| 1 - 3 | 2 | 55 |
| 3 - 5 | 4 | 125 |
| 5 - 7 | 6 | 50 |
| 7 - 9 | 8 | 20 |
| 10 | 0 |
El siguiente es el polígono aproximado de frecuencias absolutas para la distribución de la cantidad de salarios por artículo:
Se observa que la cantidad de salarios más sobresalientes es 4, correspondiente al centro del intervalo.
Con ayuda de la tabla de frecuencias agrupadas del ejemplo 2.2, trace el polígono de frecuencias y comente.
| Cantidad de horas | Cantidad de buses |
|---|---|
| 0 - 3 | 90 |
| 3 - 8 | 27 |
| 8 - 10 | 3 |
Primero, se reacomodan las clases y se colocan las marcas de clase:
| Cantidad de horas | Marca de Clase | Cantidad de buses |
|---|---|---|
| 0 | 0 | |
| 0 - 3 | 1.5 | 60 |
| 3 - 8 | 5.5 | 10.8 |
| 8 - 10 | 9 | 3 |
| 11 | 0 |
El siguiente es el polígono aproximado de frecuencias absolutas:
Se observa que la cantidad de horas más sobresalientes por bus es
1.5.
Además, la distribución tiene sesgo positivo.
Aquí también se utilizó la corrección del histograma.
Con ayuda de la siguiente tabla de frecuencias agrupadas, trace el polígono de frecuencias y comente:
| Clases | Porcentaje |
|---|---|
| 60 - 69 | 12.90% |
| 70 - 79 | 19.35% |
| 80 - 89 | 29.03% |
| 90 - 99 | 22.58% |
| 100 - 110 | 16.13% |
Primero, se reacomodan los valores de la tabla con marcas de clase:
| Clases | Marca de Clase | Porcentaje |
|---|---|---|
| 55 | 0 | |
| 60 - 69 | 65 | 12.90% |
| 70 - 79 | 75 | 19.35% |
| 80 - 89 | 85 | 29.03% |
| 90 - 99 | 95 | 22.58% |
| 100 - 109 | 105 | 16.13% |
| 115 | 0 |
El siguiente es el polígono de frecuencias:
Se observa que la clase de 80 a 89 es la más
sobresaliente, esto es, la marca de clase 85.
Esta distribución es simétrica, ya que los valores
hacia los extremos igualmente distanciados del centro parecen tener
igual frecuencia.
Con ayuda de la tabla de frecuencias agrupadas siguiente, trace el polígono de frecuencias y comente:
| Clases | Frecuencia |
|---|---|
| [6 - 12) | 22 |
| [12 - 18) | 15 |
| [18 - 24) | 12 |
| [24 - 30) | 6 |
| [30 - 36) | 3 |
| [36 - 42) | 2 |
Solución
Primero, se forma la tabla con las marcas de clase:
| Clases | Marca de Clase | Frecuencia |
|---|---|---|
| 3 | 0 | |
| [6 - 12) | 9 | 22 |
| [12 - 18) | 15 | 15 |
| [18 - 24) | 21 | 12 |
| [24 - 30) | 27 | 6 |
| [30 - 36) | 33 | 3 |
| [36 - 42) | 39 | 2 |
| 45 | 0 |
El siguiente es el polígono de frecuencias absolutas:
Se observa que la primera clase es la más
sobresaliente, esto es, la marca de clase 9.
Esta distribución es asimétrica a la derecha,
evidenciando que la frecuencia de las marcas de clase va
disminuyendo.
La ojiva es el polígono de frecuencias acumuladas, que se asocia a los percentiles de la distribución.
Con ayuda de la tabla de frecuencias agrupadas siguiente, trace la ojiva y comente:
| Cantidad de salarios | Cantidad de artículos |
|---|---|
| [1-3) | 55 |
| [3-5) | 125 |
| [5-7) | 50 |
| [7-9) | 20 |
Solución
Primero, se colocan las fronteras superiores de clase y sus porcentajes acumulados:
| Fronteras superiores | Porcentaje acumulado |
|---|---|
| 1 | 0 |
| 3 | 22 |
| 5 | 72 |
| 7 | 92 |
| 9 | 100 |
El siguiente es el polígono de frecuencias acumuladas (ojiva):
Se utilizan las fronteras superiores y los porcentajes acumulados para construir esta gráfica.
Con ayuda de la gráfica, se puede medir el primer cuartil, Q₁, por interpolación entre los puntos \(P(3, 22)\) y \(Q(5, 72)\):
Esto indica que el 25% de los artículos tiene un valor de 3.12 salarios o menos, es decir, \(Q_1 = 3.12\).
Con ayuda de la tabla de frecuencias agrupadas siguiente, trace la ojiva y comente:
| Cantidad de horas | Cantidad de buses |
|---|---|
| [0-3) | 90 |
| [3-8) | 27 |
| [8-10] | 3 |
Solución
Primero se ponen las fronteras superiores con sus respectivas frecuencias acumuladas:
| Fronteras superiores | Porcentaje acumulado |
|---|---|
| 0 | 0 |
| 3 | 75 |
| 8 | 97.5 |
| 10 | 100 |
El siguiente es el polígono de frecuencias acumuladas (ojiva):
Aquí se usan los porcentajes acumulados, pero también se pueden calcular las frecuencias acumuladas.
Para determinar el cuarto decil (D₄), se usa interpolación entre los puntos \(P(0, 0)\) y \(Q(3, 75)\):
Esto indica que el 40% de los buses llega en 1.6 horas o menos, es decir, \(D_4 = 1.6\).
La ojiva es el polígono de frecuencias acumuladas, que se asocia a los percentiles de la distribución.
Con ayuda de la tabla de frecuencias agrupadas siguiente, trace la
ojiva y comente.
Tenga en cuenta que la variable representa los gastos en servicio de
gas, en miles de pesos.
| Clases | Porcentaje |
|---|---|
| 60 - 69 | 12.90% |
| 70 - 79 | 19.35% |
| 80 - 89 | 29.03% |
| 90 - 99 | 22.58% |
| 100 - 110 | 16.13% |
Solución
Primero, se colocan las fronteras superiores con los porcentajes acumulados:
| Fronteras Superiores | Porcentaje Acumulado |
|---|---|
| 60 | 0 |
| 70 | 12.9% |
| 80 | 32.25% |
| 90 | 61.28% |
| 100 | 83.86% |
| 110 | 100% |
El siguiente es el polígono de frecuencias acumuladas (ojiva):
Se observa que la ojiva tiene una tendencia aproximadamente recta, lo cual implica un crecimiento uniforme.
Para obtener la mediana (Q₂) se usa interpolación entre los puntos \(P(80, 32.25)\) y \(Q(90, 61.28)\):
Esto indica que el 50% de los usuarios tiene gastos de 86,110 o menos, es decir, \(Q_2 = 86.11\).
Con ayuda de la tabla de frecuencias agrupadas siguiente, trace la ojiva y comente:
| Salario Semanal | Número de trabajadores |
|---|---|
| [1-1.2) | 36 |
| [1.2-1.4) | 18 |
| [1.4-1.6) | 15 |
| [1.6-1.8) | 12 |
| [1.8-2.0) | 6 |
| [2.0-2.2) | 3 |
Solución
Primero, se colocan las fronteras superiores con los porcentajes acumulados:
| Fronteras Superiores | Porcentaje Acumulado |
|---|---|
| 1 | 0 |
| 1.2 | 40 |
| 1.4 | 60 |
| 1.6 | 76.7 |
| 1.8 | 90 |
| 2.0 | 96.7 |
| 2.2 | 100 |
El siguiente es el polígono de frecuencias acumuladas (ojiva):
Se observa que el crecimiento es decreciente, indicando que la distribución está sesgada positivamente.
Para determinar el percentil de un salario y = 1.65, se usa interpolación entre los puntos \(P(1.6, 76.7)\) y \(Q(1.8, 90)\):
Esto indica que un salario semanal de 1.65 corresponde aproximadamente al percentil 80.03.
| Tiempo de estudio | No. de estudiantes |
|---|---|
| Menos de 10 min. | 68 |
| Entre 10 y 20 min. | 75 |
| Entre 20 y 60 min. | 32 |
| Más de 60 min. | 11 |
| Total | 186 |
| Edad | No. de estudiantes |
|---|---|
| [10-13) | 15 |
| [13-15) | 47 |
| [15-17) | 81 |
| [17-20] | 43 |
| Total | 186 |
| Tallo | Hojas |
|---|---|
| 1 | 2 3 4 4 5 5 6 6 |
| 2 | 1 1 2 2 3 3 4 5 7 7 |
| 3 | 0 0 0 1 1 3 5 5 6 6 8 8 8 9 |
| 4 | 2 2 3 3 4 4 5 5 6 9 |
| 5 | 1 1 3 4 5 5 6 9 |
| Salario diario (miles de pesos) | Número de trabajadores |
|---|---|
| 40-54 | 5 |
| 55-69 | 22 |
| 70-84 | 38 |
| 85-99 | 20 |
| 100-114 | 13 |
| 115-130 | 2 |
| Tallo | Hojas |
|---|---|
| 5 | 2 3 4 4 5 |
| 6 | 1 1 2 2 3 3 4 |
| 7 | 0 0 0 1 1 3 5 5 6 6 8 |
| 8 | 2 2 3 3 |
| 9 | 1 7 |
| Tallo | Hojas |
|---|---|
| 50 | 0 0 |
| 62 | 0 0 2 3 3 |
| 75 | 0 0 0 5 6 6 |
| 81 | 2 2 3 |
| 95 | 0 |
| Cantidad de horas | Número de estudiantes |
|---|---|
| [0-1) | 3 |
| [1-2) | 4 |
| [2-3) | 7 |
| [3-4) | 9 |
| [4-5) | 5 |
| [5-6) | 4 |
| [6-7) | 3 |
| [7-8) | 2 |
| [8-10] | 1 |
`49.78, 38.30, 38.31, 57.95, 54.47, 86.65, 51.47, 63.45, 99.17,
78.39, 32.71, 83.63, 51.17, 77.32, 62.16, 35.94, 90.32, 65.25,
75.70, 87.89, 70.20, 38.14, 72.78, 98.22`
`114.2, 115.1, 118.4, 129.5, 220.5, 211.3, 223.1, 214.1, 236.9,
217.4, 259.1, 310.4, 333.3, 356.2, 367.0, 317.1, 387.1, 328.7,
401.7, 242.4, 343.7, 144.1, 145, 245.4, 346.5, 247.8, 149.4, 149.8,
250.4, 353.5, 453.6, 154.5, 255.9, 356.2, 458.6, 360.3, 261.4,
169.7, 373.6, 174.2, 476.2, 176.9, 379.1, 280.9, 183.7, 191.5, 494,
395.9, 172.8, 129.9`
Se entiende por probabilidad simple aquella que deriva de un experimento sencillo como lanzar un dado ó escoger una ficha al azar de un grupo de 10 fichas rotuladas.
Para entender la idea de evento simple y experimento sencillo se trabaja el enfoque de probabilidad clásica con experimentos de una sola clase, sin combinaciones.
Se consideran ejemplos de éstos: el lanzamiento de un dado corriente, la selección aleatoria de una ficha de una mochila que contiene fichas numeradas de 1 a 10.
Ejemplo: Considere que se lanza un dado corriente. Obtenga los siguientes eventos y sus probabilidades:
A: “Obtener un puntaje impar”.
B: “Obtener un puntaje múltiplo de 3”.
C: “Obtener un puntaje menor que 4”.
D: “Obtener un puntaje divisor de 20”.
E: “Obtener un puntaje de 5”.
Solución
El espacio muestral del experimento es \(S=\{1, 2, 3, 4, 5, 6\}\). El evento A es \(A=\{1, 3, 5\}\). La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, \(P(A)=\frac{\#A}{\#S}\), esto origina \(P(A)=\frac{3}{6}\), la probabilidad de A es \(\frac{1}{2}\). Se espera que el 50% de las veces caiga impar.
El espacio muestral del experimento es \(S=\{1, 2, 3, 4, 5, 6\}\). El evento B es \(B=\{3, 6\}\). La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, \(P(B)=\frac{\#B}{\#S}\), esto origina \(P(B)=\frac{2}{6}\), la probabilidad de B es \(\frac{1}{3}\). Se espera que la tercera parte de las veces caiga múltiplo de 3.
El espacio muestral del experimento es \(S=\{1, 2, 3, 4, 5, 6\}\). El evento C es \(C=\{1, 2, 3\}\). La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, \(P(C)=\frac{\#C}{\#S}\), esto origina \(P(C)=\frac{3}{6}\), la probabilidad de C es \(\frac{1}{2}\). Se espera que el 50% de las veces caiga un puntaje inferior a 4.
El espacio muestral del experimento es \(S=\{1, 2, 3, 4, 5, 6\}\). El evento D es \(D=\{1, 2, 4, 5\}\). La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, \(P(D)=\frac{\#D}{\#S}\), esto origina \(P(D)=\frac{4}{6}\), la probabilidad de D es \(\frac{2}{3}\). Se espera que las dos terceras partes de las veces caiga un puntaje divisor de 20.
El espacio muestral del experimento es \(S=\{1, 2, 3, 4, 5, 6\}\). El evento E es \(E=\{5\}\). La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, \(P(E)=\frac{\#E}{\#S}\), esto origina \(P(E)=\frac{1}{6}\), la probabilidad de E es \(\frac{1}{6}\). Se espera que la sexta parte de las veces caiga 5.
Los eventos A y C son equiprobables.
Ejemplo: Considere que se lanza un dado corriente. Obtenga los siguientes eventos y sus probabilidades:
A: “Obtener un puntaje impar y mayor que 2”.
B: “Obtener un puntaje múltiplo de 3 y menor que 5”.
C: “Obtener un puntaje menor que 4 o impar”.
D: “Obtener un puntaje divisor de 20 y de 25”.
E: “Obtener un puntaje mayor de 4 ó impar”.
Solución
La Conjunción “y” de dos proposiciones implica las dos condiciones al tiempo o simultáneamente. La disyunción “o” de dos proposiciones se usa para la unión de los dos eventos definidos por las mismas. De este modo, se tiene:
El espacio muestral del experimento es \(S=\{1, 2, 3, 4, 5, 6\}\). El evento A es \(A=\{3, 5\}\). La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, \(P(A)=\frac{\#A}{\#S}\), esto origina \(P(A)=\frac{2}{6}\), la probabilidad de A es \(\frac{1}{3}\). Se espera que el 33.33% de las veces caiga impar y mayor que 2.
El espacio muestral del experimento es \(S=\{1, 2, 3, 4, 5, 6\}\). El evento B es \(B=\{3\}\). La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, \(P(B)=\frac{\#B}{\#S}\), esto origina \(P(B)=\frac{1}{6}\), la probabilidad de B es \(\frac{1}{6}\). Se espera que la sexta parte de las veces caiga múltiplo de 3 y menor que 5.
El espacio muestral del experimento es \(S=\{1, 2, 3, 4, 5, 6\}\). El evento C es \(C=\{1, 2, 3, 5\}\). La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, \(P(C)=\frac{\#C}{\#S}\), esto origina \(P(C)=\frac{4}{6}\), la probabilidad de C es \(\frac{2}{3}\). Se espera que el 66.66% de las veces caiga un puntaje inferior a 4 ó impar.
El espacio muestral del experimento es \(S=\{1, 2, 3, 4, 5, 6\}\). El evento D es \(D=\{1, 5\}\). La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, \(P(D)=\frac{\#D}{\#S}\), esto origina \(P(D)=\frac{2}{6}\), la probabilidad de D es \(\frac{1}{3}\). Se espera que la tercera parte de las veces caiga un puntaje divisor de 20 y de 25.
El espacio muestral del experimento es \(S=\{1, 2, 3, 4, 5, 6\}\). El evento E es \(E=\{1, 3, 5, 6\}\). La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, \(P(E)=\frac{\#E}{\#S}\), esto origina \(P(E)=\frac{4}{6}\), la probabilidad de E es \(\frac{2}{3}\). Se espera que las dos terceras partes de las veces caiga puntaje mayor de 4 ó impar.
Los eventos A y D son equiprobables, también C y E.
Ejercicio 1: En el siguiente listado de eventos, forme grupos de eventos equiprobables y diga en forma organizada, la probabilidad por grupos.
Evento A: Obtener un número par no primo
Evento B: Obtener un número impar y múltiplo de 3
Evento C: Obtener un número mayor que 4
Evento D: Obtener un número menor o igual a 3
Evento E: Obtener un múltiplo de 3
Evento F: Obtener un número primo
Evento G: Obtener un número igual a 1
Evento H: Obtener un número diferente de 6
Evento I: Obtener un número entre 2 y 5 (inclusive)
Evento J: Obtener un número mayor o igual que 6
Evento K: Obtener un número igual a 4
Evento L: Obtener un número mayor que 2
Evento M: Obtener un número divisible por 2 o 3
Evento N: Obtener un número menor que 5
Evento O: Obtener un número mayor que 1 y menor que 6
Evento P: Obtener un número par mayor que 3
Evento Q: Obtener un número impar menor que 5
Evento R: Obtener un número que sea cuadrado perfecto
Evento S: Obtener un número mayor que 1 y divisible por 5
Evento T: Obtener un número menor o igual que 1
Ejemplo: Considere que se selecciona al azar una cánica de un grupo de 10, marcadas del 1 al 10. Obtenga los siguientes eventos y sus probabilidades:
A: “Obtener un puntaje impar”.
B: “Obtener un puntaje múltiplo de 3”.
C: “Obtener un puntaje menor que 4”.
D: “Obtener un puntaje divisor de 20”.
E: “Obtener un puntaje de 5”.
Solución
El espacio muestral del experimento es \(S=\{1, 2, 3, 4, 5, 6, 7, 8, 9, 10\}\). El evento A es \(A=\{1, 3, 5, 7, 9\}\). La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, \(P(A)=\frac{\#A}{\#S}\), esto origina \(P(A)=\frac{5}{10}\), la probabilidad de A es \(\frac{1}{2}\). Se espera que el 50% de las veces caiga impar.
El espacio muestral del experimento es \(S=\{1, 2, 3, 4, 5, 6, 7, 8, 9, 10\}\). El evento B es \(B=\{3, 6, 9\}\). La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, \(P(B)=\frac{\#B}{\#S}\), esto origina \(P(B)=\frac{3}{10}\), la probabilidad de B es \(\frac{3}{10}\). Se espera que 30 % de las veces caiga múltiplo de 3.
El espacio muestral del experimento es \(S=\{1, 2, 3, 4, 5, 6, 7, 8, 9, 10\}\). El evento C es \(C=\{1, 2, 3\}\). La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, \(P(C)=\frac{\#C}{\#S}\), esto origina \(P(C)=\frac{3}{10}\), la probabilidad de C es \(\frac{3}{10}\). Se espera que el 30% de las veces caiga un puntaje inferior a 4.
El espacio muestral del experimento es \(S=\{1, 2, 3, 4, 5, 6, 7, 8, 9, 10\}\). El evento D es \(D=\{1, 2, 4, 5, 10\}\). La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, \(P(D)=\frac{\#D}{\#S}\), esto origina \(P(D)=\frac{5}{10}\), la probabilidad de D es \(\frac{1}{2}\). Se espera que la mitad de las veces caiga un puntaje divisor de 20.
El espacio muestral del experimento es \(S=\{1, 2, 3, 4, 5, 6, 7, 8, 9, 10\}\). El evento E es \(E=\{5\}\). La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, \(P(E)=\frac{\#E}{\#S}\), esto origina \(P(E)=\frac{1}{10}\), la probabilidad de E es \(\frac{1}{10}\). Se espera que la decima parte de las veces caiga 5.
Los eventos B y C son equiprobables. Los eventos A y D son equiprobables.
Ejemplo: Considere que se selecciona aleatoriamente, de una bolsa que contiene 10 fichas marcadas del 3 al 12, una ficha. Obtenga los siguientes eventos y sus probabilidades:
A: “Obtener un puntaje impar y mayor que 2”.
B: “Obtener un puntaje múltiplo de 3 y menor que 5”.
C: “Obtener un puntaje menor que 4 o impar”.
D: “Obtener un puntaje divisor de 20 y de 25”.
E: “Obtener un puntaje mayor de 4 ó impar”.
Solución
La Conjunción “y” de dos proposiciones implica las dos condiciones al tiempo o simultáneamente. La disyunción “o” de dos proposiciones se usa para la unión de los dos eventos definidos por las mismas. De este modo, se tiene:
El espacio muestral del experimento es \(S=\{3, 4, 5, 6, 7, 8, 9, 10, 11, 12\}\). El evento A es \(A=\{3, 5, 7, 9, 11\}\). La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, \(P(A)=\frac{\#A}{\#S}\), esto origina \(P(A)=\frac{5}{10}\), la probabilidad de A es \(\frac{1}{2}\). Se espera que el 50% de las veces caiga impar y mayor que 2.
El espacio muestral del experimento es \(S=\{3, 4, 5, 6, 7, 8, 9, 10, 11, 12\}\). El evento B es \(B=\{3\}\). La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, \(P(B)=\frac{\#B}{\#S}\), esto origina \(P(B)=\frac{1}{10}\), la probabilidad de B es \(\frac{1}{10}\). Se espera que la decima parte de las veces caiga múltiplo de 3 y menor que 5.
El espacio muestral del experimento es \(S=\{3, 4, 5, 6, 7, 8, 9, 10, 11, 12\}\). El evento C es \(C=\{3, 5, 7, 9, 11\}\). La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, \(P(C)=\frac{\#C}{\#S}\), esto origina \(P(C)=\frac{5}{10}\), la probabilidad de C es \(\frac{5}{10}\). Se espera que el 50% de las veces caiga un puntaje inferior a 4 ó impar.
El espacio muestral del experimento es \(S=\{3, 4, 5, 6, 7, 8, 9, 10, 11, 12\}\). El evento D es \(D=\{5\}\). La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, \(P(D)=\frac{\#D}{\#S}\), esto origina \(P(D)=\frac{1}{10}\), la probabilidad de D es \(\frac{1}{10}\). Se espera que la decima parte de las veces caiga un puntaje divisor de 20 y de 25.
El espacio muestral del experimento es \(S=\{3, 4, 5, 6, 7, 8, 9, 10, 11, 12\}\). El evento E es \(E=\{3, 5, 6, 7, 8, 9, 10, 11, 12\}\). La probabilidad del evento es la fracción de sucesos elementales favorables, esto es, \(P(E)=\frac{\#E}{\#S}\), esto origina \(P(E)=\frac{9}{10}\), la probabilidad de E es \(\frac{9}{10}\). Se espera que en el 90 % de las veces caiga puntaje mayor de 4 ó impar.
Los eventos A y C son equiprobables, también B y D.
Ejercicio 2: En el siguiente listado de eventos, forme grupos de eventos equiprobables y diga en forma organizada, la probabilidad por grupos. Asuma que se trata de la selección de una ficha de un conjunto de 12, numeradas con los números del 6 al 17.
Evento A: Obtener un número par no primo
Evento B: Obtener un número impar y múltiplo de 3
Evento C: Obtener un número mayor que 9
Evento D: Obtener un número menor o igual a 9
Evento E: Obtener un múltiplo de 3
Evento F: Obtener un número primo
Evento G: Obtener un número igual a 10
Evento H: Obtener un número diferente de 11
Evento I: Obtener un número entre 8 y 12 (inclusive)
Evento J: Obtener un número mayor o igual que 11
Evento K: Obtener un número igual a 8
Evento L: Obtener un número mayor que 8
Evento M: Obtener un número divisible por 2 o 3
Evento N: Obtener un número menor que 11
Evento O: Obtener un número mayor que 10 y menor que 14
Evento P: Obtener un número par mayor que 9
Evento Q: Obtener un número impar menor que 12
Evento R: Obtener un número que sea cuadrado perfecto
Evento S: Obtener un número mayor o igual que 10 y divisible por 60
Evento T: Obtener un número menor o igual que 13
Al definir experimentos compuestos de varios subexperimentos los resultados se complejizan y se usa el principio fundamental del conteo ó de la multiplicación.
Se define el principio de la multiplicación como aquel conteo de la combinación de k experimentos simples, en los que el primero ocurre de \(n_1\) formas, el segundo de \(n_2\) formas, el tercero de \(n_3\) formas, y así sucesivamente hasta el k-ésimo que ocurre de \(n_k\) formas; entonces el experimento global compuesto de k subexperimentos puede ocurrir en \(n_1*n_2*n_3*...*n_k\) combinaciones.
Ejemplo: Considere el lanzamiento de dos dados corrientes. Encuentre las probabilidades de los siguientes eventos:
A:“Sacar una suma mayor que 8”.
B:“Sacar una diferencia de 3 entre el segundo resultado y el primero”
C:“Sacar una suma de menos de 6”.
D:“Sacar una diferencia entre el segundo y el primero entre 1 y 3, ambos inclusive”.
E:“Sacar una suma de 5, 6 ó 7”.
Solución
En principio, el experimento de lanzamiento de dos dados, se trata de un experimento compuesto que ocurre de \(6*6=36\) resultados
(1,1), (1,2), (1,3), (1, 4), (1,5), (1,6),
(2,1), (2,2), (2,3), (2, 4), (2,5), (2,6),
(3,1), (3,2), (3,3), (3, 4), (3,5), (3,6),
(4,1), (4,2), (4,3), (4, 4), (4,5), (4,6),
(5,1), (5,2), (5,3), (5, 4), (5,5), (5,6),
(6,1), (6,2), (6,3), (6, 4), (6,5), (6,6)
\(A=\{(3,6), (4,5), (4,6), (5,4), (5,5), (5,6), (6,3), (6,4), (6,5), (6,6)\}\)
\(P(A)=\frac{\#A}{\#S}\), es decir, \(P(A)=\frac{10}{36}\). Esta probabilidad da \(\frac{5}{18}\).
\(B=\{(1,4), (2,5), (3,6)\}\)
\(P(B)=\frac{\#B}{\#S}\), es decir, \(P(B)=\frac{3}{36}\). Esta probabilidad da \(\frac{1}{12}\).
\(C=\{(1,1), (1,2), (1,3), (1,4), (2,1), (2,2), (2,3), (3,1), (3,2), (4,1)\}\)
\(P(C)=\frac{\#C}{\#S}\), es decir, \(P(C)=\frac{10}{36}\). Esta probabilidad da \(\frac{5}{18}\).
\(D=\{(1,2), (1,3), (1,4), (2,3), (2,4), (2,5), (3,4), (3,5), (3,6), (4,5), (4,6), (5,6)\}\)
\(P(D)=\frac{\#D}{\#S}\), es decir, \(P(D)=\frac{12}{36}\). Esta probabilidad da \(\frac{1}{3}\).
\(E=\{(1,4),(1,5), (1,6), (2,3),(2,4),(2,5),(3,2),(3,3),(3,4),(4,1),(4,2),(4,3),(5,1),(5,2),(6,1)\}\)
\(P(E)=\frac{\#E}{\#S}\), es decir, \(P(E)=\frac{15}{36}\). Esta probabilidad da \(\frac{5}{12}\).
Ejemplo: Considere el lanzamiento de dos dados corrientes. Encuentre las probabilidades de los siguientes eventos:
A:“Sacar un producto mayor que 4 y menor que 9”.
B:“Sacar un cociente de 3 o mas entre el segundo resultado y el primero”
C:“Sacar un producto de menos de 6”.
D:“Sacar un cociente entre el segundo y el primero entre 1 y 3, ambos inclusive”.
E:“Sacar un producto de 5, 6 ó 8”.
Solución
En principio, el experimento de lanzamiento de dos dados, se trata de un experimento compuesto que ocurre de \(6*6=36\) resultados
(1,1), (1,2), (1,3), (1, 4), (1,5), (1,6),
(2,1), (2,2), (2,3), (2, 4), (2,5), (2,6),
(3,1), (3,2), (3,3), (3, 4), (3,5), (3,6),
(4,1), (4,2), (4,3), (4, 4), (4,5), (4,6),
(5,1), (5,2), (5,3), (5, 4), (5,5), (5,6),
(6,1), (6,2), (6,3), (6, 4), (6,5), (6,6)
\(A=\{(1,5), (1,6), (2,3), (2,4), (3,2), (4,2), (5,1), (6,1)\}\)
\(P(A)=\frac{\#A}{\#S}\), es decir, \(P(A)=\frac{8}{36}\). Esta probabilidad da \(\frac{2}{9}\).
\(B=\{(1,3),(1,4),(1,5),(1,6),(2,6)\}\)
\(P(B)=\frac{\#B}{\#S}\), es decir, \(P(B)=\frac{5}{36}\). Esta probabilidad da \(\frac{5}{36}\).
\(C=\{(1,1), (1,2), (1,3), (1,4),(1,5),(2,1), (2,2), (3,1),(4,1), (5,1)\}\)
\(P(C)=\frac{\#C}{\#S}\), es decir, \(P(C)=\frac{10}{36}\). Esta probabilidad da \(\frac{5}{18}\).
\(D=\{(1,1),(1,2), (1,3), (2,3), (2,4), (2,5),(2,6),(3,3),(3,4), (3,5), (3,6),(4,4),(4,5), (4,6), (5,5),(5,6), (6,6)\}\)
\(P(D)=\frac{\#D}{\#S}\), es decir, \(P(D)=\frac{17}{36}\). Esta probabilidad da \(\frac{17}{36}\).
\(E=\{(1,5), (1,6),(2,3), (2,4),(3,2),(4,2),(5,1),(6,1)\}\)
\(P(E)=\frac{\#E}{\#S}\), es decir, \(P(E)=\frac{8}{36}\). Esta probabilidad da \(\frac{2}{9}\).
Las probabilidades empíricas se definen desde la frecuencia histórica, tambien conocidas como probabilidades frecuentistas. Se hace estudio del enfoque frecuentista en el caso de que se analizan las realizaciones de fenómenos históricos en eventuales repeticiones.
Ejemplo: Para los siguientes eventos históricos se encontraron las siguientes proporciones suministradas con IA.
3 de 4 penaltis en competiciones FIFA terminan en gol. Probabilidad de marcar un penalti en competiciones FIFA. Históricamente, alrededor del 75% de los penales terminan en gol (FIFA World Cups y Eurocopas). Esto implica que de cada 1000 penales cobrados en estas competiciones 750 son goles. La probabilidad empírica de que un penal termine en gol es del 75%.
Probabilidad de que el equipo local gane un partido de liga. En ligas como la Premier League, el equipo local gana alrededor del 45% de las veces, empata un 25%, y pierde un 30%. De 900 partidos jugados de local, un equipo de esa liga, ¿cuántos gana, cuántos empata y cuántos pierde? En ese caso se espera que gane de los 900 partidos 405 veces, empate 225 veces y pierda 270 veces (405+225+270=900).
Probabilidad de que un equipo que lidera al medio tiempo gane el partido (NBA). En promedio, un equipo que va ganando al medio tiempo tiene un 67.5% de probabilidad de ganar el juego completo. Si un equipo jugó x partidos y de los x iba ganado 200 partidos al acabarse el medio tiempo, entonces, de esos 200 partidos se espera que ganara 135 y no ganara 65.
Probabilidad de encestar un tiro libre en la NBA. Promedio histórico de efectividad: entre 75% y 78%, dependiendo de la temporada. Esta implica que al tirar a la cesta la probabilidad de encestar queda entre 0.75 y 0.78. Algo así como 3 de cada 4 tiros terminan dentro de la cesta.
Probabilidad de anotar desde la yarda 1 (1st and Goal) Equipos de la NFL anotan un touchdown desde esa posición en aproximadamente el 70%–75% de las ocasiones. La probabilidad de anotar desde una yarda queda entre 0.70 y 0.75.
Probabilidad de un hit en cada turno al bate (MLB). El promedio de bateo está entre 0.240 y 0.270, es decir, 24%–27% de probabilidad de lograr un hit.
Probabilidad de que un equipo no deje que el otro equipo consiga al menos un hit en 9 entradas en MLB (no-hitters). Ha habido unos 320 no-hitters en más de 235000 juegos de MLB, lo que implica una probabilidad aproximada de 0.14% por juego. Esto indica que de cada 10000 juegos 14 terminan con no-hitters.
Probabilidad de que un sacador gane su servicio (ATP). En promedio, un jugador masculino gana su turno de saque el 75% de las veces. Los grandes sacadores (como Isner o Karlovic) superan el 85%. La diferencia de probabilidad de que Karlovic supere a un jugador masculino promedio es del 10%.
Probabilidad de que el favorito gane una carrera. En promedio, el caballo favorito gana solo en torno al 33% de las carreras. Una de cada 3 carreras serían ganadas por el caballo favorito.
Probabilidad de anotar en un penalty shot Los jugadores convierten aproximadamente el 33% de los tiros penales en la NHL (mucho menos efectivo que el fútbol). En este orden de ideas aproximadamente 1 de cada 3 penales en Hockey sobre hielo terminan en anotación o gol.
Ejercicio 1: Un hombre realiza 600 disparos al blanco, en las mismas condiciones, manteniendo la distancia y el artefacto y acierta 450 veces.
¿Cuál es la probabilidad de que en el próximo disparo, pegue en el blanco?
¿Cuántos disparos se espera que falle en 1500 disparos?
¿Cuántos disparos al blanco aproximadamente ha realizado, si el hombre ha acertado en 1800 ocasiones?
Ejercicio 2: Un hombre vacuna reses y en 1400 veces que pone la ampolla 1190 veces protege al animal de un virus.
¿Cuál es la probabilidad de que una vaca en la próxima vacuna, quede protegida?
¿Cuántas vacunas se espera que fallen en 7700 ampollas colocadas a las reses?
¿Cuántas ampollas aproximadamente ha colocado, si el líquido ha hecho buen efecto en 3400 ocasiones?
Ejercicio 3: En la población de adultos a nivel mundial, 3 de cada 10 adultos seleccionados al azar padece miopía.
¿Cuál es el porcentaje de adultos, a nivel mundial, que padece el defecto visual de miopía?
¿Si esta proporción se mantiene en una localidad de 4000 miembros, cuántas personas se espera que no padezcan de miopía?
¿Cuántos adultos al azar se necesitan evaluar en forma aleatoria para encontrar 600 con el defecto visual mencionado?
Ejercicio 4: En el siguiente listado de eventos, forme grupos de eventos equiprobables y diga en forma organizada, la cantidad de veces que se espera que ocurra cada evento en 1200 lanzamientos de un dado no trucado o corriente.
Evento A: Obtener un número par no primo
Evento B: Obtener un número impar y múltiplo de 3
Evento C: Obtener un número mayor que 4
Evento D: Obtener un número menor o igual a 3
Evento E: Obtener un múltiplo de 3
Evento F: Obtener un número primo
Evento G: Obtener un número igual a 1
Evento H: Obtener un número diferente de 6
Evento I: Obtener un número entre 2 y 5 (inclusive)
Evento J: Obtener un número mayor o igual que 6
Evento K: Obtener un número igual a 4
Evento L: Obtener un número mayor que 2
Evento M: Obtener un número divisible por 2 o 3
Evento N: Obtener un número menor que 5
Evento O: Obtener un número mayor que 1 y menor que 6
Evento P: Obtener un número par mayor que 3
Evento Q: Obtener un número impar menor que 5
Evento R: Obtener un número que sea cuadrado perfecto
Evento S: Obtener un número mayor que 1 y divisible por 5
Evento T: Obtener un número menor o igual que 1
Dos eventos son mutuamente excluyentes si no tienen resultados comunes, es decir, la intersección entre los dos eventos es vacía. También, se dice que los eventos son disyuntos cuando no tienen resultados comunes. En forma matemática, se tiene que A y B son mutuamente excluyentes o disyuntos si y solo si \(A\bigcap B=\phi\).
Otra definición de eventos es la independencia de eventos. Cuando un evento es aislado de otro no influye no afecta, esto obedece a que los dos eventos son independientes. La regla de independencia de eventos dice que A y B son eventos independientes si \(P(A\bigcap B)=P(A)*P(B)\).
Ejemplo: Considere que se lanza un dado corriente. Diga de los siguientes eventos los que son disyuntos o mutuamente excluyentes y los que son independientes.
A: “Obtener un puntaje impar”, B: “Obtener un puntaje múltiplo de 3”, C: “Obtener un puntaje menor que 4”, D: “Obtener un puntaje divisor de 20” y E: “Obtener un puntaje de 5”.
Solución
El evento A es \(A=\{1, 3, 5\}\), el evento B es \(B=\{3, 6\}\), el evento C es \(C=\{1, 2, 3\}\), el evento D es \(D=\{1, 2, 4, 5\}\) y el evento E es \(E=\{5\}\).
Eventos disyuntos o mutuamente excluyentes
B y D, B y E, C y E.
Eventos independientes
A y B pues \(P(A\bigcap B)=\frac{1}{6}\) y \(P(A)*P(B)=\frac{1}{6}\).
A y D pues \(P(A\bigcap D)=\frac{1}{3}\) y \(P(A)*P(D)=\frac{1}{3}\).
B y C pues \(P(B\bigcap C)=\frac{1}{6}\) y \(P(B)*P(C)=\frac{1}{6}\).
C y D pues \(P(C\bigcap D)=\frac{1}{3}\) y \(P(C)*P(D)=\frac{1}{3}\).
Ejemplo: Considere que se lanza un dado corriente. Diga de los siguientes eventos los que son disyuntos o mutuamente excluyentes y los que son independientes.
A: “Obtener un puntaje impar y mayor que 2”, B: “Obtener un puntaje múltiplo de 3 y menor que 5”, C: “Obtener un puntaje menor que 4 o impar”, D: “Obtener un puntaje divisor de 20 y de 25” y E: “Obtener un puntaje mayor de 4 ó impar”.
Solución
El evento A es \(A=\{3, 5\}\), el evento B es \(B=\{3\}\), el evento C es \(C=\{1, 2, 3, 5\}\), el evento D es \(D=\{1, 5\}\) y el evento E es \(E=\{1, 3, 5, 6\}\).
Eventos disyuntos o mutuamente excluyentes
B y D.
Eventos independientes
No existe par de eventos, que cumpla la independencia, entonces todos los pares son eventos dependientes. Esto implica que la ocurrencia primitiva de un evento afecta a la ocurrencia de otro alterando su probabilidad.
En el caso, del ejemplo de los deportes y la probabilidad empírica; los eventos en deportes aislados no se afectan unos a otros, en ese caso serían independientes. Pero, aquellos eventos dentro de un mismo deporte pueden o no tener afectación, para averigualro se necesita más información probabilística. Lo cierto es que la independencia es una propiedad que puede no presentarse en análisis de eventos dentro del mismo experimento, que guardan relación.
Ejercicio 1: En el siguiente listado de eventos, forme grupos de eventos equiprobables y diga en forma organizada, la probabilidad por grupos. A continuación diga cuales son mutuamente excluyentes e independientes.
Evento A: Obtener un número par no primo
Evento B: Obtener un número impar y múltiplo de 3
Evento C: Obtener un número mayor que 4
Evento D: Obtener un número menor o igual a 3
Evento E: Obtener un múltiplo de 3
Evento F: Obtener un número primo
Evento G: Obtener un número igual a 1
Evento H: Obtener un número diferente de 6
Evento I: Obtener un número entre 2 y 5 (inclusive)
Evento J: Obtener un número mayor o igual que 6
Evento K: Obtener un número igual a 4
Evento L: Obtener un número mayor que 2
Evento M: Obtener un número divisible por 2 o 3
Evento N: Obtener un número menor que 5
Evento O: Obtener un número mayor que 1 y menor que 6
Evento P: Obtener un número par mayor que 3
Evento Q: Obtener un número impar menor que 5
Evento R: Obtener un número que sea cuadrado perfecto
Evento S: Obtener un número mayor que 1 y divisible por 5
Evento T: Obtener un número menor o igual que 1
Ahora daré dos definiciones a cerca de los conceptos previos a la probabilidad total y regla de Bayes. La primera es la de eventos colectivamente exhaustivos y la segunda es la de Partición del Espacio.
En primer lugar, si tenemos n eventos, digamos, \(A_1, A_2,..., A_n\), se dice que los n eventos son colectivamente exhaustivos si cualquier resultado del experimento está en la unión de éstos eventos, es decir \(\bigcup_{i=1}^n A_i=S\), donde S es el espacio muestral.
La segunda definición, es la de partición, se dice que \(A_1, A_2,..., A_n\), forman una partición del espacio si estos eventos cumplen dos condiciones:
Los eventos son colectivamente exhaustivos.
Cualquier pareja de estos eventos son mutuamente excluyentes o disyuntos.
Ejemplo 1: Diga si al lanzar un dado corriente, los eventos A:“sacar un puntaje impar” y B:“sacar un puntaje par” son colectivamente exhaustivos, son disyuntos y forman una partición del espacio.
Solución
El evento A es \(A=\{1, 3, 5\}\) y el B es \(B=\{2, 4, 6\}\). La unión de estos eventos origina todos los resultados del espacio, por lo tanto, A y B son colectivamente exhaustivos.
Al ser complementarios A y B son disyuntos; y al ser disyuntos los eventos A y B forman una partición.
Ejemplo 2: Diga si los eventos A:“sacar en el lanzamiento de un dado un puntaje menor que 4”, B:“Sacar un múltiplo de 3” y C:“Sacar un divisor de 25”.
Solución
El evento A es \(A=\{1, 2, 3\}\), el B es \(B=\{3, 6\}\) y el C es \(C=\{1, 5\}\). La unión de estos eventos no origina todos los resultados del espacio porque falta el 4, por lo tanto, A, B y C no son colectivamente exhaustivos.
Tampoco son disyuntos dos a dos; y al no ser disyuntos ni colectivamente exhaustivos; los eventos A, B y C no forman una partición del espacio. (Al fallar una de estas condiciones deja de ser una partición del espacio el grupo de éstos eventos).
Ejemplo 3: Diga si los eventos A:“sacar en el lanzamiento de un dado un puntaje par menor que 5”, B:“Sacar un divisor de 6” y C:“Sacar un múltiplo de 5”.
Solución
El evento A es \(A=\{2, 4\}\), el B es \(B=\{1, 3, 6\}\) y el C es \(C=\{5\}\). La unión de estos eventos origina todos los resultados del espacio, que son los números enteros del 1 al 6, por lo tanto, A, B y C no son colectivamente exhaustivos.
Dos a dos los eventos son disyuntos; y al ser disyuntos y colectivamente exhaustivos; los eventos A, B y C forman una partición del espacio. (Al no fallar alguna de estas condiciones forman una partición del espacio el grupo de éstos eventos).
Ejercicio 1: Considere que se lanza un dado corriente. Diga de los siguientes eventos son colectivamente exhaustivos y forman una partición del espacio muestral.
A: “Obtener un puntaje impar y mayor que 2”, B: “Obtener un puntaje múltiplo de 3 y menor que 5”, C: “Obtener un puntaje menor que 4 o impar”, D: “Obtener un puntaje divisor de 20 y de 25” y E: “Obtener un puntaje mayor de 4 ó impar”.
Ejercicio 2: Considere que se lanza un dado corriente. Diga de los siguientes eventos son colectivamente exhaustivos y forman una partición del espacio muestral.
A: “Obtener un puntaje impar”, B: “Obtener un puntaje múltiplo de 3”, C: “Obtener un puntaje menor que 4”, D: “Obtener un puntaje divisor de 20” y E: “Obtener un puntaje de 5”.
Ejercicio 3: Considere que se lanza un dado corriente. Diga de los siguientes eventos son colectivamente exhaustivos y forman una partición del espacio muestral.
A: “Obtener un múltiplo de 3”, B:“Obtener un puntaje divisor de 20 menor que 5” y C: “Obtener un puntaje mayor de 4 e impar”.
Ejercicio 4: En el siguiente listado de eventos, forme grupos de eventos colectivamente exhaustivos y forme grupos que componen particiones del espacio.
Evento A: Obtener un número par no primo
Evento B: Obtener un número impar y múltiplo de 3
Evento C: Obtener un número mayor que 4
Evento D: Obtener un número menor o igual a 3
Evento E: Obtener un múltiplo de 3
Evento F: Obtener un número primo
Evento G: Obtener un número igual a 1
Evento H: Obtener un número diferente de 6
Evento I: Obtener un número entre 2 y 5 (inclusive)
Evento J: Obtener un número mayor o igual que 6
Evento K: Obtener un número igual a 4
Evento L: Obtener un número mayor que 2
Evento M: Obtener un número divisible por 2 o 3
Evento N: Obtener un número menor que 5
Evento O: Obtener un número mayor que 1 y menor que 6
Evento P: Obtener un número par mayor que 3
Evento Q: Obtener un número impar menor que 5
Evento R: Obtener un número que sea cuadrado perfecto
Evento S: Obtener un número mayor que 1 y divisible por 5
Evento T: Obtener un número menor o igual que 1
Definición: Los eventos \(A_1, A_2, ..., A_k\) conforman una partición del espacio muestral E, si se cumplen dos condiciones
\(A_i\bigcap A_j=\phi\) para \(i\neq j\). Esto es los eventos son disyuntos.
\(A_1\bigcup A_2\bigcup...\bigcup A_k=E\). Esto es, la unión de los eventos que forman la partición es igual al espacio.
La propiedad (1) indica que los eventos de la partición, cumplen que la probabilidad de la intersección de cualesquieras dos de ellos es igual a cero.
La propiedad (2) indica que la suma de las probabilidades de los eventos de la partición es igual a 1. Es decir, \(\sum\limits_{i=1}^k P(A_i)=1\). Esta tambien se puede dar en porcentajes, para los cuales, la suma es el 100%.
La probabilidad total de un evento B, bajo la partición dada del espacio, es
\(P(B)=\sum\limits_{i=1}^k P(A_i)\times P(B/A_i)\).
Este teorema es fundamental para calcular probabilidades donde se tiene información de la probabilidad de las partes de E, y de las probabilidades condicionales de B dada cada parte.
El siguiente ejemplo, es un procedimiento de probabilidad total
Ejemplo: Suponga que en un lago el 50% son mojarras, el 30% son cachamas y el 20% son corvinas. De las mojarras, el 15% son de talla pequeña; de las cachamas, el 10% son de talla pequeña; y de las corvinas, el 5% son de talla pequeña. Encuentre la probabilidad de que al sacar un pez del lago, éste sea de talla pequeña.
Sean A_1: “Que se saque una mojarra”
A_2:“Que se saque una cachama”
A_3: “Que se saque una corvina”
B: “Que se saque un pez de talla pequeña”.
\(P(A_1)=0.5\), \(P(A_2)=0.3\), \(P(A_3)=0.2\),
\(P(B/A_1)=0.15\), \(P(B/A_2)=0.10\),\(P(B/A_3)=0.05\).
\(P(B)=\sum\limits_{i=1}^k P(A_i)\times P(B/A_i)\).
\(P(B)=0.50(0.15)+0.30(0.10)+0.20(0.05)\)
\(P(B)=0.075+0.03+0.01\)
\(P(B)=0.115\)
La probabilidad de que el próximo pez que se saque sea de talla pequeña es 0.115. Esto es, el 11.5% de los peces de ese lago son de talla pequeña.
Ejemplo: Suponga que en un Colegio; el 40% son licenciados, el 35% son normalistas y el resto son tecnológos. De los licenciados, el 75% ha asistido a capacitaciones sobre los lineamientos de calidad en los últimos 4 meses; de los normalistas el 70% ha asistido a capacitaciones sobre los lineamientos de calidad en los últimos 4 meses; y de los tecnológos, el 65% ha asistido a tales capacitaciones, en los últimos 4 meses. Encuentre la probabilidad de que al elegir un docente del Colegio, éste halla asistido a capacitación sobre lineamientos de calidad en los últimos 4 meses.
Sean A_1: “Que se elija un licenciado”
A_2:“Que se elija un normalista”
A_3: “Que se elija un tecnologo”
B: “Que se elija un docente que haya asistido al menos a una capacitación de calidad, en los últimos 4 meses”.
\(P(A_1)=0.4\), \(P(A_2)=0.35\), \(P(A_3)=0.25\),
\(P(B/A_1)=0.75\), \(P(B/A_2)=0.70\),\(P(B/A_3)=0.65\).
\(P(B)=\sum\limits_{i=1}^k P(A_i)\times P(B/A_i)\).
\(P(B)=0.40(0.75)+0.35(0.70)+0.25(0.65)\)
\(P(B)=0.30+0.245+0.1625\)
\(P(B)=0.7075\)
La probabilidad de que se escoja aleatoriamente un docente que haya asistido al menos a una capacitación durante los últimos cuatro meses es 0.7075. Esto es, el 70.75% de los docentes de dicho colegio ha asistido a capacitaciones sobre lineamientos de calidad en los últimos cuatro meses.
Al estudiar las reglas de probabilidad se estudian las operaciones básicas de tres o menos eventos. Antes de entrar en materia, se enuncian las reglas claves para obtener las probabilidades y el lenguaje coloquial usado en cada caso.
Los términos \(\bigcap\) implica la operación de intersección, que son los elementos comunes o repetidos en dos conjuntos.
La diferencia - indica la operación de conjuntos que define el conjunto sobrante después de quitar los elementos repetidos a un conjunto. Digamos \(A-B\) es quitar a A los elementos de B.
La diferencia simétrica entre dos conjuntos denotada \(A\triangle B\) denota el evento de ocurrencia de sólo A ó solo B.
La no ocurrencia del evento A, se conoce como evento complemento de A, denotado \(\overline{A}\) y su probabilidad es tal que se cumple que \(P(A)+P(\overline{A})=1\). En forma empírica, los sucesos o eventos complementarios se asocian a porcentajes que suman 100% y homologan la probabilidad del espacio muestral.
El complemento se representa con una negación de la condición que define al conjunto por comprensión.
La diferencia de A y B, denotada por \(A-B=A\bigcap \overline{B}\) denota el evento de que A ocurra y B no ocurra. Su probabilidad es \(P(A-B)=P(A)-P(A\bigcap B)\). En general, \(P(A-B)\neq P(B-A)\).
A menudo, se expresa como el evento que ocurra A y que B no ocurra. Tambien se dice que ocurra A pero que B no ocurra.
La diferencia simétrica de dos eventos A y B, denotada \(A\triangle B\) es el evento de que ocurra sólo uno de los dos eventos. Esto coincide para dos eventos con la siguiente formulación \(P(A\triangle B)=P(A\bigcup B)-P(A\bigcap B)\), que tambien es \(P(A\triangle B)=P(A-B)+P(B-A)\).
Cuando se aplica esta propiedad la pregunta se traduce en que ocurra uno sólo de los dos eventos. Por otra parte, esta propiedad de que ocurra un sólo evento es extensible pero como diferencia exclusiva, es decir, no como diferencia simétrica sino en el proceso de que ocurra uno sólo de los eventos involucrados.
La union de dos eventos cualesquieras A y B, pertenencientes a la familia de eventos especificada, se denota con \(A\bigcup B\) y su probabilidad es \(P(A\bigcup B)=P(A)+P(B)-P(A\bigcap B)\).
Esta regla se puede extender como suma para eventos disyuntos y para eventos colectivamente exhaustivos. La unión maneja que ocurra esto o que ocurra aquello, que ocurra al menos uno de los dos eventos, tambien se dice que ocurra alguno de los dos eventos.
La regla de Morgan de la union se traduce en la propiedad \(\overline{A}\bigcap\overline{B}=\overline{A\bigcup B}\), que implica que no ocurra A y tampoco ocurra B, se traduce en el complemento de la union.
Esta regla implica que \(P(\overline{A}\bigcap\overline{B})=1- P(A\bigcup B)\).
La regla de Morgan de la interseccion se traduce en la propiedad \(\overline{A}\bigcup\overline{B}=\overline{A\bigcap B}\), que implica que no ocurra A ó que no ocurra B, se traduce en el complemento de la interseccion.
Esta regla implica que \(P(\overline{A}\bigcup\overline{B})=1- P(A\bigcap B)\).
Ejercicio: Suponga que se lanza un dado corriente. Considere los eventos A:“Sacar un puntaje mayor que 3” y B:“Sacar un puntaje impar mayor o igual que 3”.
Encuentre e Interprete cada punto.
Por extensión A, B y \(A\bigcap B\).
Las probabilidades de A, B y \(A\bigcap B\).
La probabilidad de \(A-B=A\bigcap \overline{B}\), dada por \(P(A-B)=P(A)-P(A\bigcap B)\).
La probabilidad de \(B-A=B\bigcap \overline{A}\), dada por \(P(B-A)=P(B)-P(A\bigcap B)\).
La probabilidad de \(A\bigcup B\), dada por \(P(A\bigcup B)=P(A)+ P(B)-P(A\bigcap B)\).
La probabilidad de \(A\triangle B\), dada por \(P(A\triangle B)=P(A\bigcup B)-P(A\bigcap B)\).
La probabilidad de \(\overline{A}\bigcap \overline{B}=\overline{A\bigcup B}\).
La probabilidad de \(\overline{A}\bigcup \overline{B}=\overline{A\bigcap B}\).
Dados tres eventos A, B y C se define la probabilidad de que ocurra A pero que no ocurra B y no ocurra C como regla de diferencia específica de orden uno
\(P(A\bigcap\overline{B}\bigcap\overline{C})=P(A)-P(A\bigcap B)-P(A\bigcap C)+P(A\bigcap B\bigcap C)\)
Dados tres eventos A, B y C se define la probabilidad de que ocurra A y ocurra B pero no ocurra C como regla de diferencia específica de orden dos
\(P(A\bigcap B\bigcap\overline{C})=P(A\bigcap B)-P(A\bigcap B\bigcap C)\)
Dados tres eventos A, B y C se define la probabilidad de que ocurra sólo uno de tres eventos como regla de diferencia general de orden uno
\(P(A\triangle_1 B\triangle_1 C)=P(A)+P(B)+P(C)-2P(A\bigcap B)-2P(A\bigcap C)-2P(B\bigcap C)+3P(A\bigcap B\bigcap C)\)
Dados tres eventos A, B y C se define la probabilidad de que ocurran sólo dos de tres eventos como regla de diferencia general de orden dos
\(P(A\triangle_2 B\triangle_2 C)=P(A\bigcap B)+P(A\bigcap C)+P(B\bigcap C)-3P(A\bigcap B\bigcap C)\)
Dados tres eventos A, B y C se define la probabilidad de que ocurra alguno de tres eventos como regla de union
\(P(A\bigcup B\bigcup C)=P(A)+P(B)+P(C)-P(A\bigcap B)-P(A\bigcap C)-P(B\bigcap C)+P(A\bigcap B\bigcap C)\)
Dados tres eventos A, B y C se define la ley de Morgan de la union como \(\overline{A\bigcup B\bigcup C}=\overline{A}\bigcap\overline{B}\bigcap\overline{C}\). Esto es el complemento de la unión es la intersección de los complementos.
Por lo tanto \(P(\overline{A}\bigcap\overline{B}\bigcap\overline{C})=1-P(A\bigcup B\bigcup C)\)
Dados tres eventos A, B y C se define la ley de Morgan de la interseccion como \(\overline{A\bigcap B\bigcap C}=\overline{A}\bigcup\overline{B}\bigcup\overline{C}\). Esto es el complemento de la interseccion es la unión de los complementos.
Por lo tanto \(P(\overline{A}\bigcup\overline{B}\bigcup\overline{C})=1-P(A\bigcap B\bigcap C)\)
Ejemplo: La probabilidad de que Alfonso pierda Matemáticas es 0.4, la probabilidad de que pierda Lenguaje es 0.35 y la probabilidad de que pierda Sociales es 0.3. La probabilidad de que pierda Matemáticas y Lenguaje es 0.21, la probabilidad de que pierda Matemáticas y Sociales es 0.18, y la probabilidad de que pierda Lenguaje y Sociales es 0.19. La probabilidad de que pierda las 3 asignaturas al tiempo es 0.09. Encuentre las siguientes probabilidades:
A:“Que Alfonso no pierda Matemáticas”
B:“Que Alfonso pierda Lenguaje pero no Matemáticas”
C:“Que Alfonso pierda sólo Lenguaje ó sólo Sociales”
D:“Que Alfonso pierda Lenguaje ó Sociales”
E:“Que Alfonso no pierda Lenguaje y no pierda Sociales”
F:“Que Alfonso Gane Matemáticas ó Gane Lenguaje”
G:“Que Alfonso pierda sólo Lenguaje”
H:“Que Alfonso pierda Lenguaje y Sociales, pero no Matemáticas”
I:“Que Alfonso pierda sólo una materia”
J:“Que Alfonso pierda sólo dos Materias.”
K:“Que Alfonso pierda alguna de las tres materias”
L:“Que Alfonso no pierda Matemáticas, no pierda Lenguaje y no pierda Sociales”
M:“Que Alfonso no pierda alguna de las tres materias”
Solución
Sean los eventos \(M_1\) que Alfonso pierda Matemáticas, \(L_1\) que Alfonso pierda Lenguaje y \(S_1\) que Alfonso pierda Sociales.
Tenemos \(P(M_1)=0.4\), \(P(L_1)=0.35\), \(P(S_1)=0.3\), \(P(M_1\bigcap L_1)=0.21\), \(P(M_1\bigcap S_1)=0.18\), \(P(L_1\bigcap S_1)=0.19\) y \(P(M_1\bigcap L_1\bigcap S_1)=0.09\).
A:“Que Alfonso no pierda Matemáticas” \(P(A)=1-P(M_1)\), esto es, \(P(A)=1-0.4\), es decir, \(P(A)=0.6\).
B:“Que Alfonso pierda Lenguaje pero no Matemáticas” \(P(B)=P(L_1\bigcap \overline{M_1})\). Luego, \(P(B)=P(L_1)-P(L_1\bigcap M_1)\), esto es, \(P(B)=0.35-0.21\), es decir, \(P(B)=0.14\).
C:“Que Alfonso pierda sólo Lenguaje ó sólo Sociales” \(P(C)=P(L_1\triangle S_1)\). Luego, \(P(C)=P(L_1)+P(S_1)-2P(L_1\bigcap S_1)\), esto es, \(P(C)=0.35+0.3-2*0.19\), es decir, \(P(C)=0.27\).
D:“Que Alfonso pierda Lenguaje ó Sociales” \(P(D)=P(L_1\bigcup S_1)\). Luego, \(P(D)=P(L_1)+P(S_1)-P(L_1\bigcap S_1)\), esto es, \(P(D)=0.35+0.3-0.19\), es decir, \(P(D)=0.46\).
E:“Que Alfonso no pierda Lenguaje y no pierda Sociales” \(P(E)=P(\overline{L_1}\bigcap\overline{S_1})\). Luego, \(P(E)=1-P(L_1\bigcup S_1)\), esto es, \(P(E)=1-0.46\), es decir, \(P(E)=0.54\).
F:“Que Alfonso Gane Matemáticas ó Gane Lenguaje” \(P(F)=P(\overline{L_1}\bigcup\overline{S_1})\). Luego, \(P(F)=1-P(L_1\bigcap S_1)\), esto es, \(P(F)=1-0.19\), es decir, \(P(F)=0.81\).
G:“Que Alfonso pierda sólo Lenguaje” \(P(L_1\bigcap\overline{M_1}\bigcap\overline{S_1})=P(L_1)-P(L_1\bigcap M_1)-P(L_1\bigcap S_1)+P(L_1\bigcap S_1\bigcap M_1)\). Por lo tanto, \(P(G)=0.35-0.21-0.19+0.09\), es decir, \(P(G)=0.04\)
H:“Que Alfonso pierda Lenguaje y Sociales, pero no Matemáticas” \(P(L_1\bigcap S_1\bigcap\overline{M_1})=P(L_1\bigcap S_1)-P(L_1\bigcap S_1\bigcap M_1)\). Por lo tanto, \(P(H)=0.19-0.09\), es decir, \(P(H)=0.10\)
I:“Que Alfonso pierda sólo una materia” \(P(L_1\triangle_1 M_1\triangle_1 S_1)=P(L_1)+P(M_1)+P(S_1)-2P(L_1\bigcap M_1)-2P(L_1\bigcap S_1)-2P(M_1\bigcap S_1)+3P(L_1\bigcap M_1\bigcap S_1)\). Por lo tanto, \(P(I)=0.35+0.4+0.3-2(0.21)-2(0.19)-2(0.18)+3(0.09)\). Esto es \(P(I)=0.16\).
J:“Que Alfonso pierda sólo dos Materias.” \(P(L_1\triangle_2 M_1\triangle_2 S_1)=P(L_1\bigcap M_1)+P(L_1\bigcap S_1)+P(M_1\bigcap S_1)-3P(L_1\bigcap M_1\bigcap S_1)\). Por lo tanto, \(P(J)=0.21+0.19+0.18-3(0.09)\). Esto es \(P(J)=0.31\).
K:“Que Alfonso pierda alguna de las tres materias” \(P(L_1\bigcup M_1\bigcup S_1)=P(L_1)+P(M_1)+P(S_1)-P(L_1\bigcap M_1)-P(L_1\bigcap S_1)-P(M_1\bigcap S_1)+P(L_1\bigcap M_1\bigcap S_1)\). Por lo tanto, \(P(K)=0.35+0.4+0.3-0.21-0.19-0.18+0.09\). Esto es \(P(K)=0.56\).
L:“Que Alfonso no pierda Matemáticas, no pierda Lenguaje y no pierda Sociales” \(P(\overline{M_1}\bigcap\overline{L_1}\bigcap\overline{S_1})=1-P(M_1\bigcup L_1\bigcup S_1)\). Por lo tanto, \(P(L)=1-0.56\), esto es \(P(L)=0.44\).
M:“Que Alfonso no pierda alguna de las tres materias” \(P(\overline{M_1}\bigcup\overline{L_1}\bigcup\overline{S_1})=1-P(M_1\bigcap L_1\bigcap S_1)\). Por lo tanto, \(P(M)=1-0.09\), esto es \(P(M)=0.91\).
Ejercicio 1: La probabilidad de que Alfonso pierda Matemáticas es 0.36, la probabilidad de que pierda Lenguaje es 0.31 y la probabilidad de que pierda Sociales es 0.27. La probabilidad de que pierda Matemáticas y Lenguaje es 0.18, la probabilidad de que pierda Matemáticas y Sociales es 0.16, y la probabilidad de que pierda Lenguaje y Sociales es 0.15. La probabilidad de que pierda las 3 asignaturas al tiempo es 0.07. Encuentre las siguientes probabilidades:
A:“Que Alfonso no pierda Matemáticas”
B:“Que Alfonso pierda Lenguaje pero no Matemáticas”
C:“Que Alfonso pierda sólo Lenguaje ó sólo Sociales”
D:“Que Alfonso pierda Lenguaje ó Sociales”
E:“Que Alfonso no pierda Lenguaje y no pierda Sociales”
F:“Que Alfonso Gane Matemáticas ó Gane Lenguaje”
G:“Que Alfonso pierda sólo Lenguaje”
H:“Que Alfonso pierda Lenguaje y Sociales, pero no Matemáticas”
I:“Que Alfonso pierda sólo una materia”
J:“Que Alfonso pierda sólo dos Materias.”
K:“Que Alfonso pierda alguna de las tres materias”
L:“Que Alfonso no pierda Matemáticas, no pierda Lenguaje y no pierda Sociales”
M:“Que Alfonso no pierda alguna de las tres materias”
Ejercicio 2: La probabilidad de que Alfonso pierda Matemáticas es 0.45, la probabilidad de que pierda Lenguaje es 0.38 y la probabilidad de que pierda Sociales es 0.35. La probabilidad de que pierda Matemáticas y Lenguaje es 0.25, la probabilidad de que pierda Matemáticas y Sociales es 0.19, y la probabilidad de que pierda Lenguaje y Sociales es 0.18. La probabilidad de que pierda las 3 asignaturas al tiempo es 0.11. Encuentre las siguientes probabilidades:
A:“Que Alfonso no pierda Matemáticas”
B:“Que Alfonso pierda Lenguaje pero no Matemáticas”
C:“Que Alfonso pierda sólo Lenguaje ó sólo Sociales”
D:“Que Alfonso pierda Lenguaje ó Sociales”
E:“Que Alfonso no pierda Lenguaje y no pierda Sociales”
F:“Que Alfonso Gane Matemáticas ó Gane Lenguaje”
G:“Que Alfonso pierda sólo Lenguaje”
H:“Que Alfonso pierda Lenguaje y Sociales, pero no Matemáticas”
I:“Que Alfonso pierda sólo una materia”
J:“Que Alfonso pierda sólo dos Materias.”
K:“Que Alfonso pierda alguna de las tres materias”
L:“Que Alfonso no pierda Matemáticas, no pierda Lenguaje y no pierda Sociales”
M:“Que Alfonso no pierda alguna de las tres materias”
Ejercicio 3: La probabilidad de que Alfonso pierda Matemáticas es 0.49, la probabilidad de que pierda Lenguaje es 0.39 y la probabilidad de que pierda Sociales es 0.37. La probabilidad de que pierda Matemáticas y Lenguaje es 0.26, la probabilidad de que pierda Matemáticas y Sociales es 0.22, y la probabilidad de que pierda Lenguaje y Sociales es 0.21. La probabilidad de que pierda las 3 asignaturas al tiempo es 0.13. Encuentre las siguientes probabilidades:
A:“Que Alfonso no pierda Matemáticas”
B:“Que Alfonso pierda Lenguaje pero no Matemáticas”
C:“Que Alfonso pierda sólo Lenguaje ó sólo Sociales”
D:“Que Alfonso pierda Lenguaje ó Sociales”
E:“Que Alfonso no pierda Lenguaje y no pierda Sociales”
F:“Que Alfonso Gane Matemáticas ó Gane Lenguaje”
G:“Que Alfonso pierda sólo Lenguaje”
H:“Que Alfonso pierda Lenguaje y Sociales, pero no Matemáticas”
I:“Que Alfonso pierda sólo una materia”
J:“Que Alfonso pierda sólo dos Materias.”
K:“Que Alfonso pierda alguna de las tres materias”
L:“Que Alfonso no pierda Matemáticas, no pierda Lenguaje y no pierda Sociales”
M:“Que Alfonso no pierda alguna de las tres materias”
El conteo combinatorio se refiere a combinaciones y permutaciones. Las selecciones de n objetos de una población de N elementos puede hacerse de 4 formas: sin reemplazo sin orden, con reemplazo sin orden, sin reemplazo con orden y con reemplazo con orden.
El formato sin orden, el orden no interesa y no es relevante, se llaman \(\textbf{combinaciones}\) y el formato con orden, el orden si interesa y es relevante para la selección, se llaman \(\textbf{permutaciones}\).
Se define la combinación sin reemplazo como \({N\choose n}=\frac{N!}{n!(N-n)!}\).
Se define la combinación con reemplazo como \({N\choose n}_r={N+n-1\choose n}\).
Se define la permutación sin reemplazo como \(NPn=\frac{N!}{(N-n)!}\).
Se define la permutación con reemplazo como \(NP_rn=N^n\).
El conteo combinatorio es quizás el más difícil de las técnicas de conteo descritas debido al empleo de fórmulas que requieren el cálculo factorial. Se distinguen dos formas básicas de conteo combinatorio, que son el uso de combinaciones y el uso de permutaciones. Una combinación es un arreglo de elementos en el que no interesa el orden. La combinación se utiliza para calcular el número de formas en que puede resultar elegir n elementos de un total N. La fórmula de la combinación sin reemplazo ha sido descrita anteriormente, al igual que la fórmula de la combinación con reemplazo y se aplica cuando la escogencia no admite el orden pero si el reemplazamiento.
Ejemplo: Suponga que se quiere formar un comité de 3 biólogos, 4 químicos y 5 físicos. El número total de biólogos es 10, el número total de químicos es 8 y el número total de físicos es 12. Obtenga el número de formas posibles en que puede hacerse esto.
Solución En la primera fase se aplica conteo por combinaciones.
Para escoger los 3 biólogos, se puede hacer esta operación de 10C3= 120 formas.
Para escoger los 4 químicos, se puede hacer esta operación de 8C4= 70 formas.
Para escoger los 5 físicos, se puede hacer esta operación de 12C5= 792 formas.
En la fase final se aplica el teorema fundamental del conteo.
Por lo tanto, el comité se puede elegir de 120 × 70 × 792 = 6652800 formas diferentes.
Ejemplo: Se tienen 5 números positivos y 4 números negativos. A continuación se eligen al azar 3 de estos números y se multiplican.
Determine de cuántas maneras posibles se puede obtener un resultado negativo.
Solución Para obtener un resultado negativo con la multiplicación de tres números hay sólo 2 opciones: La primera, que los 3 números sean negativos. La segunda, que uno sólo de los 3 números sea negativo.
Por lo tanto, se tienen \(4C3+4C1×5C2= 44\) formas distintas.
Ejemplo: Se seleccionan, sin reemplazo, 15 bolas de una urna; que contiene 18 amarillas, 15 rojas y 14 azules. Encuentre el número de posibilidades que existen para sacar 6 amarillas, 5 azules y 4 rojas. Las bolas de un mismo color son indistinguibles.
En ese orden específico
En cualquier orden
Repita los cálculos si la selección es con reemplazo.
Solución
\(18C6×15C4×14C5= 50730399720\) formas diferentes.
En este caso, se pueden arreglar en cualquier orden, y como son indistinguibles, serán \(\frac{15!}{6!5!4!} = 630630\) formas.
Luego, se tienen \(50730399720 × 630630 = 3, 19921 × 10^{16}\) formas diferentes.
(c)- Se aplica la combinación con reemplazo y se multiplican los resultados:
\(23C6×18C4×18C5=2.64664 × 10^{12}\) formas diferentes.
En este caso, se pueden arreglar en cualquier orden, y como son indistinguibles, serán \(\frac{15!}{6!5!4!} = 630630\) formas.
Luego, se tienen $2.64664x10^{12} × 630630 = 1.66905 × 10^{18} formas diferentes.
PROBLEMAS. TÉCNICAS DE CONTEO
Una mujer tiene 6 pares de calzados, 8 faldas y 5 blusas. Suponiendo que puede utilizar cualquier combinación de estos, De cuántas formas diferentes puede vestirse?
En un tour por Cartagena ofrecen 3 destinos, y en cada destino se puede elegir 1 de 3 modalidades diferentes. Obtenga el número de formas en que una familia puede realizar su tour durante 4 días.
Una familia de 10 miembros está formada por sus 2 padres y los 5 hijos: 3 varones y 2 hembras. Los miembros se sientan en una mesa redonda y cada silla ofrece un plato diferente, a excepción de los platos mayores que son 2.
Obtenga el número de formas en que se pueden sentar si los padres deben disfrutar sólo de los platos mayores.
Se tienen 5 números impares y 6 números pares diferentes. Obtenga el número de formas diferentes que existen para obtener un producto impar si se eligen 3 sin reemplazo y sin orden.
Suponga que se quiere formar un comité de 2 biólogos, 3 químicos y 4 físicos. El número total de biólogos es 8, el número total de químicos es 6 y el número total de físicos es 12. Obtenga el número de formas posibles en que puede hacerse esto.
Se seleccionan, sin reemplazo, 4 bolas de una urna; que contiene 7 amarillas, 6 rojas y 5 azules. Encuentre el número de posibilidades que existen para sacar 1 amarilla, 2 azules y una roja. Las bolas de un mismo color son indistinguibles.
En ese orden específico
En cualquier orden
Repita los cálculos si la selección es con reemplazo.
Se tienen 6 números positivos y 8 números negativos. A continuación se eligen al azar 3 de estos números y se multiplican. Determine de cuántas maneras posibles se puede obtener un resultado negativo.
Se seleccionan, sin reemplazo, 12 bolas de una urna; que contiene 12 amarillas, 14 rojas y 10 azules. Encuentre el número de posibilidades que existen para sacar 3 amarillas, 7 azules y 2 rojas. Las bolas de un mismo color son indistinguibles.
En ese orden específico
En cualquier orden
Repita los cálculos si la selección es con reemplazo.
EJERCICIOS RESUELTOS
De los 5 caños se eligen 4 sin reemplazo y sin orden, esto es, \({5\choose 4}=\frac{5!}{4!*1!}\), serían 5 tiempos distintos.
En este caso, supongamos que el va preguntando de dos en dos, no al azar, sino en orden consecutivo, serían 12 días.
Pero, si pregunta al azar debe elegir dos diferentes cada día sin volver a elegirlos, de modo que tardaría 12 días en elegirlos también.
Sería escoger el antiguo de 1 forma multiplicado por escoger los 4 restantes de los 13 soldados restantes, esto es \({1\choose1}{13\choose4}=715\).
La primera apuesta hay que escoger de 10: el primero, el segundo y el tercero, que son permutaciones sin reemplazo de 3 de los 10, esto es \(\frac{10!}{(10-3)!}= 10\times9\times8\), es decir, 720 formas de hacerlo.
En el segundo caso, se van a elegir 4 finalistas de los 10, esto es, una combinación sin reemplazo, esto es \({10\choose4}= 210\). Se puede observar que la segunda apuesta es más sencilla, esto es, por tener menos posibilidades es más fácil de acertar y ganar. En general, la permutación selección con orden de elementos es más numerosa que la combinación en la cual no interesa el orden en que son seleccionados sino sólo los elementos. Es por eso, que la segunda apuesta es más sencilla que la primera.
En este caso, se tienen 3 clases de libros: Matemáticas, F'{i}sica y Química. Pero, se ordenan por tipo y entre los tipos, por ejemplo, en ese orden MFQ serían \(4!\times6!\times2!=34560\); ahora bien, se ordenan los tipos, esto es la terna MFQ da origen a 6 permutaciones: MFQ, MQF, FMQ, FQM, QMF, QFM.
Por lo que, serian \(34560\times 6=207360\) formas de hacerlo.
Informacion para las preguntas 1-4
En una institucion educativa de primaria se cuenta con la siguiente distribucion de salones: transicion A, 34; transicion B, 38; Primero A, 42; Primero B,41; Segundo A, 40; Segundo B, 39; Tercero A, 36; Tercero B, 35; Cuarto A, 35; Cuarto B, 34; Quinto A, 34 y Quinto B, 33.
Solución
72C8X83C8X79C8X71C8X69C8X67C8
\({72+83+79+71+69+67\choose 8,8,8,8,8,8}\)
34C10X38C10X42C10X…X34C10X33C10
\({72+83+79+71+69+67\choose 5,5,5,5,5,5}\)
Informacion para las preguntas 5-8
En una institucion educativa de bachillerato se cuenta con la siguiente distribuci'on de salones: Sexto A, 31; Sexto B, 35; Sexto C, 40; Sexto D, 42; Septimo A, 41; Septimo B, 38; Octavo A, 35; Octavo B, 34; Noveno A, 34; Noveno B, 34; Decimo A, 33; Decimo B, 32; Undecimo A, 36 y Undecimo B, 37.
Explique como son las combinaciones de cada grupo, en cada punto.
Si se desea formar 6 grupos al elegir 8 estudiantes de cada grado; exprese la cantidad de formas diferentes que resultan.
¿De cuantas maneras diferentes se pueden formar 6 grupos de 8 en la institucion de bachillerato?
Si se desea formar 14 grupos al elegir 10 estudiantes de cada grupo; exprese la cantidad de formas diferentes que resultan.
¿De cuantas maneras diferentes se pueden formar 9 grupos de 5 en la institucion de bachillerato?
Las medidas estadísticas de tendencia central son, basicamente: la media aritmética, la mediana y la moda.
La media aritmética simple, de los valores \(x_1, x_2,..., x_n\), es la suma de los valores entre el total de valores; es decir, con su notación, puede escribirse \(\overline{x}=\frac{\sum\limits_{i=1}^n x_i}{n}\).
La mediana de ese mismo conjunto de datos, se obtiene primero ordenando los valores de menor a mayor, y luego se obtienen los valores \(y_{(1)}, y_{(2)},..., y_{(n)}\). La mediana de los valores \(x_1, x_2,..., x_n\), es \(\tilde{x}=y_{(\frac{n+1}{2})}\) si n es impar y \(\tilde{x}=\frac{y_{(\frac{n}{2})}+y_{(\frac{n}{2}+1)}}{2}\) si n es par.
La moda del conjunto de datos es el valor \(\widehat{x}\) que más se repite.
Ejemplo #1 En una familia se registró el consumo eléctrico en un total de 7 meses, en la siguiente tabla. f es la fecha, C es el consumo en Kw.h y Tf es la tarifa de pesos por Kw.h. Obtenga el valor de la media aritmética y de la mediana de los consumos en Kw.h, y de los valores del recibo en cada mes, y compute sus promedios.
f=c(0324,0424,0524,0624,0724,0824,0924)
C=c(235,307,277,311,314,315,302)
Tf=1072.78
Solución
f=c(0324,0424,0524,0624,0724,0824,0924)
C=c(235,307,277,311,314,315,302)
Tf=1072.78
cbind(f,C, C*Tf)
## f C
## [1,] 324 235 252103.3
## [2,] 424 307 329343.5
## [3,] 524 277 297160.1
## [4,] 624 311 333634.6
## [5,] 724 314 336852.9
## [6,] 824 315 337925.7
## [7,] 924 302 323979.6
mean(C)
## [1] 294.4286
mean(C)*Tf
## [1] 315857.1
quantile(C,0.5)
## 50%
## 307
quantile(C,0.5)*Tf
## 50%
## 329343.5
“mean” es el comando para la media aritmética y “quantile” es el comando para la medida de posición relativa o localización, se especifica el 50% o 0.5 para la mediana.
Si ordenamos los valores se tiene 235, 277, 302, 307, 311, 314, 315. El valor central es el cuarto dato, ya que \(n=7\) y \(\frac{7+1}{2}=4\). Por lo tanto, la mediana es 307.
El 50% de los meses el consumo es de 307 kw.h o menos.
f=c(0324,0424,0524,0624,0724,0824,0924)
C=c(235,307,277,311,314,315,302)
Tf=1072.78
V=C*Tf
barplot(C~f, xlab="Mes de registro", ylab="Energía Electrica Kw.h", main="Comparación de consumos mensuales")
barplot(V~f, xlab="Mes de registro", ylab="Valor en pesos según tarifa", main="Comparación de valores mensuales")
Las gráficas sugieren que la moda se puede tomar como el promedio de los 4 valores similares, esto es, \(\widehat{x}=\frac{307+311+314+315}{4}\), esto es, \(\widehat{x}\approx 312\) en Kw.h y \(\widehat{V}=334707\) en pesos colombianos.
Ejemplo #2 Un profesor realiza un cuestionario de 10 preguntas a 100 estudiantes y encuentra los porcentajes de respuestas correctas. Los resultados se muestran a continuación.
x=c(25,32,36, 15, 45, 46, 48, 56, 47, 60)
media=mean(x)
mediana=quantile(x,0.5)
moda=mean(c(45,46,47,48))
c(media,mediana, moda)
## 50%
## 41.0 45.5 46.5
La moda, particularmente ocurre con la tendencia de similitudes, por lo que se puede medir el coeficiente de asimetría de Pearson.
El diagnóstico de centralización se realiza de la siguiente manera:
-Si las medidas de tendencia central anteriores son iguales la distribución de datos estudiada es simétrica.
-Si la media aritmetica es mayor que la mediana o la media aritmética es mayor que la moda la distribución es asimétrica a la derecha o sesgada positivamente.
-Si la media aritmetica es menor que la mediana o la media aritmética es menor que la moda la distribución es asimétrica a la izquierda o sesgada negativamente.
Ejemplo: Realice un diagnóstico de la distribución de consumo y especifique la forma de la distribución.
Solución
En el caso anterior, la cantidad de Kw.h consumidos tiene una media aritmética de 294.43, tiene una mediana de 307 y una moda de 312.
Con esto se tiene \(\overline{x}<\tilde{x}<\widehat{x}\). Esto indica que la media aritmetica es menor que la mediana o la media aritmética es menor que la moda la distribución es asimétrica a la izquierda o sesgada negativamente.
Ejemplo #2 Un profesor realiza un cuestionario de 10 preguntas a 100 estudiantes y encuentra los porcentajes de respuestas correctas. Los resultados se muestran a continuación.
x=c(25,32,36, 15, 45, 46, 48, 56, 47, 60)
media=mean(x)
mediana=quantile(x,0.5)
moda=mean(c(45,46,47,48))
varianza=var(x)
Asimetria=(media-moda)/sqrt(varianza)
varrel=sqrt(varianza)/media*100
c(media,mediana, moda,Asimetria,varrel)
## 50%
## 41.0000000 45.5000000 46.5000000 -0.3944254 34.0105702
La media es menor que la mediana y la mediana es menor que la moda; por lo tanto la asimetria es a la izquierda, es decir, distribución sesgada negativamente.
Ejercicio 1: Consiga el último recibo de aire de su casa y repita los ejercicios anteriores. Tenga en cuenta que su tarifa cambia y los consumos tambien, pero el procedimiento es el mismo.
El coeficiente de asimetría de Pearson, se define como
\(A_p=\frac{\overline{x}-\widehat{x}}{s_x}\), donde \(s_x\) es la desviación estándar, que se obtiene como la raíz cuadrada de la varianza. La varianza y la desviación estándar son medidas de dispersión. Para interpretar \(A_p\) se toma como referencia la distribución de holgura, del siguiente modo
-Si \(|A_p|<\frac{1}{2}\) la asimetría es baja.
-Si \(\frac{1}{2}\leq |A_p|<\frac{\sqrt{2}}{2}\) la asimetría es moderada.
-Si \(|A_p|\geq\frac{\sqrt{2}}{2}\) la asimetría es alta.
-El signo del sesgo puede ser positivo o negativo.
La varianza muestral se define \(S_x^2=\frac{\sum\limits_{i=1}^n x_i^2-n\overline{x}^2}{n-1}\).
Para tener una idea del comportamiento de la varianza, se tiene en cuenta que si los datos son muy parecidos la variación es baja. Existe un coeficiente de variación relativa para comparar distribuciones de variables de magnitudes diferentes, este se define como \(CV_x=|\frac{s_x}{\overline{x}}|*100\%\). Este se interpreta así
-Si \(CV_x<0.5\) la distribución tiene baja variabilidad.
-Si \(0.5\leq CV_x<\frac{\sqrt{2}}{2}\) la distribución tiene variabilidad moderada.
-Si \(CV_x\geq \frac{\sqrt{2}}{2}\) la distribución tiene alta variabilidad.
Ejemplo #1 En una familia se registró el consumo eléctrico en un total de 7 meses, en la siguiente tabla. f es la fecha, C es el consumo en Kw.h y Tf es la tarifa de pesos por Kw.h. Obtenga el valor de los coeficientes de Pearson y de la variabilidad relativa. Interprete sus resultados.
f=c(0324,0424,0524,0624,0724,0824,0924)
C=c(235,307,277,311,314,315,302)
Tf=1072.78
Solución
A continuación elevamos al cuadrado los valores y los sumamos, obtenemos la media y la varianza
f=c(0324,0424,0524,0624,0724,0824,0924)
C=c(235,307,277,311,314,315,302)
Tf=1072.78
n=7
Cd=C^2
C2=sum(Cd)
Cm=mean(C)
S_x2=(C2-n*Cm^2)/(n-1)
S_x2
## [1] 855.2857
## la varianza tambien puede calcularse como var(C).
S_x=sqrt(S_x2)
Ap=(Cm-312)/S_x
Ap
## [1] -0.6008298
## Una asimetría negativa y en valor absoluto entre 0.5 y 0.707, es moderada
CV_x=S_x/Cm*100
CV_x
## [1] 9.932891
## Un coeficiente de variación relativa de 9\% indica baja variabilidad.
Ejemplo #2 Un profesor realiza un cuestionario de 10 preguntas a 100 estudiantes y encuentra los porcentajes de respuestas correctas. Los resultados se muestran a continuación.
x=c(25,32,36, 15, 45, 46, 48, 56, 47, 60)
media=mean(x)
mediana=quantile(x,0.5)
moda=mean(c(45,46,47,48))
varianza=var(x)
Asimetria=(media-moda)/sqrt(varianza)
CVx=sqrt(varianza)/media*100
c(media,mediana, moda,Asimetria,CVx)
## 50%
## 41.0000000 45.5000000 46.5000000 -0.3944254 34.0105702
La asimetría absoluta es menor que 0.5 y la variación relativa es menor que el 50%, por lo que la distribución es de baja asimetría y de baja variabilidad.
Ejercicio 2: Consiga el último recibo de aire de su casa y repita los ejercicios anteriores. Tenga en cuenta que su tarifa cambia y los consumos tambien, pero el procedimiento es el mismo.
El resumen de 5 números consiste en hallar: valor minimo, los cuartiles (inferior (25%), mediana (50%) y superior (75%)) y el valor máximo. Con esto se construye el gráfico de caja y bigotes (boxplot).
Ejemplo #1 En una familia se registró el consumo eléctrico en un total de 7 meses, en la siguiente tabla. f es la fecha, C es el consumo en Kw.h y Tf es la tarifa de pesos por Kw.h. Obtenga el resumen de 5 números y trace el diagrama de caja y bigotes. Interprete sus resultados.
f=c(0324,0424,0524,0624,0724,0824,0924)
C=c(235,307,277,311,314,315,302)
Tf=1072.78
Solución
A continuación hacemos el resumen de 5 números. (ver [1]).
f=c(0324,0424,0524,0624,0724,0824,0924)
C=c(235,307,277,311,314,315,302)
Tf=1072.78
n=7
min(C)
## [1] 235
max(C)
## [1] 315
quantile(C, c(0.25,0.5,0.75))
## 25% 50% 75%
## 289.5 307.0 312.5
boxplot(C, main="Gráfico de Caja y Bigotes")
En este caso se observa que el bigote superior es más pequeño que el inferior y la porción superior de la caja es más pequeña que la porción inferior; de este modo, la distribución es sesgada negativamente o asimétrica a la izquierda.
Ejemplo #2 Un profesor realiza un cuestionario de 10 preguntas a 100 estudiantes y encuentra los porcentajes de respuestas correctas. Los resultados se muestran a continuación.
x=c(25,32,36, 15, 45, 46, 48, 56, 47, 60)
xmin=min(x)
q1=quantile(x,0.25)
q2=quantile(x,0.5)
q3=quantile(x,0.75)
xmax=max(x)
c(xmin,q1,q2,q3,xmax)
## 25% 50% 75%
## 15.00 33.00 45.50 47.75 60.00
boxplot(x,main="Caja y Bigotes")
Se observa que el bigote inferior es mayor que el superior, por lo que la distribución es asimétrica a la izquierda. También el área del lado inferior de la caja es mayor que el área del lado superior.
Ejercicio 3: Consiga el último recibo de aire de su casa y repita los ejercicios anteriores. Tenga en cuenta que su tarifa cambia y los consumos tambien, pero el procedimiento es el mismo.
Para variables cuantitativas discretas como el número de hijos en una familia, el número de fallas, la cantidad de días de incapacidad o el número de defectos en un artefacto; se mantienen las definiciones de las medidas de centralización, la variabilidad, asimetría y cuartiles.
Ejemplo: Un profesor analiza las ausencias de un grupo de 25 estudiantes durante 3 meses. Los datos son los siguientes
\(x=c(2,1,2,1,0,3,3,4,4,5,2,1,1,1,3,2,1,1,0,0,1,1,2,1,6)\).
Organice los datos en una tabla de frecuencias no agrupadas y trace un gráfico de barras.
Determine la media, mediana y moda.
Realice el diagnóstico de centralización.
Halle la varianza, la desviación estándar y el coeficiente de variación.
Realice el diagnóstico de variabilidad.
Halle la asimetría de Pearson.
Interprete la asimetría de la distribución.
Halle el resumen de 5 números.
Haga el gráfico de caja y bigotes e interprete.
Solución
x=c(2,1,2,1,0,3,3,4,4,5,2,1,1,1,3,2,1,1,0,0,1,1,2,1,6)
table(x)
## x
## 0 1 2 3 4 5 6
## 3 10 5 3 2 1 1
barplot(table(x))
x=c(2,1,2,1,0,3,3,4,4,5,2,1,1,1,3,2,1,1,0,0,1,1,2,1,6)
mean(x)
## [1] 1.92
median(x)
## [1] 1
moda=1;moda
## [1] 1
La media es mayor que la mediana y que la moda. Por lo tanto, la distribución es asimétrica a la derecha osesgada positivamente.
Las medidas de dispersión
x=c(2,1,2,1,0,3,3,4,4,5,2,1,1,1,3,2,1,1,0,0,1,1,2,1,6)
var(x)
## [1] 2.41
sqrt(var(x))
## [1] 1.552417
sqrt(var(x))/mean(x)*100
## [1] 80.85508
El coeficiente de variación es de 80.85%, mayor que 70.7%, y por lo tanto, la distribución es de alta variabilidad.
La asimetría de Pearson
x=c(2,1,2,1,0,3,3,4,4,5,2,1,1,1,3,2,1,1,0,0,1,1,2,1,6)
media=mean(x)
moda=1
sx=sqrt(var(x)) #desviación estándar
Ap=(media-moda)/sx
Ap
## [1] 0.5926241
Como la asimetría de Pearson está entre 0.50 y 0.707 se tiene que la asimetría de la distribución de ausencias es moderada.
El resumen de 5 números
x=c(2,1,2,1,0,3,3,4,4,5,2,1,1,1,3,2,1,1,0,0,1,1,2,1,6)
xmin=min(x)
q1=quantile(x,0.25)
q2=median(x)
q3=quantile(x,0.75)
xmax=max(x)
c(xmin,q1,q2,q3,xmax)
## 25% 75%
## 0 1 1 3 6
x=c(2,1,2,1,0,3,3,4,4,5,2,1,1,1,3,2,1,1,0,0,1,1,2,1,6)
boxplot(x)
Se evidencia en el gráfico de caja y bigotes, la asimetría a la derecha o sesgo positivo.
Ejercicio: Un profesor analiza las ausencias de un grupo de 25 estudiantes durante 3 meses. Los datos son los siguientes
\(x=c(2,2,2,1,0,3,3,4,4,5,2,3,1,1,3,2,1,1,0,0,1,1,2,1,6)\).
Organice los datos en una tabla de frecuencias no agrupadas y trace un gráfico de barras.
Determine la media, mediana y moda.
Realice el diagnóstico de centralización.
Halle la varianza, la desviación estándar y el coeficiente de variación.
Realice el diagnóstico de variabilidad.
Halle la asimetría de Pearson.
Interprete la asimetría de la distribución.
Halle el resumen de 5 números.
Haga el gráfico de caja y bigotes e interprete.
Una distribución estadística es la estructura de comportamiento de una variable.
A continuación, se esboza la gráfica de una densidad gamma con parámetro de forma \(\alpha=4\) y parámetro de escala \(\beta=\frac{1}{125}\).
x=seq(from=0,to=2000,by=0.1)
y=x^3*2.7182^(-x/125)/(125^4*6)
plot(x,y,xlab="Gastos en electricidad en miles de pesos", ylab="Proporción de Familias", main="Distribución Asimétrica a la derecha")
En esta gráfica, se observa el sesgo positivo de la distribución de gastos.
A continuación, se grafica la densidad normal con media 50 y desviación estándar de 7, de las calificaciones por materia, en un Colegio.
x=seq(from=0,to=100,by=0.01)
y=1/(2*3.14159*49)*2.7182^(-(x-50)^2/98)
plot(x,y,xlab="Calificaciones Definitivas en un Curso", ylab="Proporción de Estudiantes", main="Distribución Simétrica")
En esta gráfica se visualiza un comportamiento normal, propio de la campana de Gauss, para la calificación definitiva de un grupo. El hecho de que la calificación definitiva se compone del promedio de varias notas, hace que exista un comportamiento gaussiano. Un ejemplo de esto son las pruebas estandarizadas nacionales e internacionales, como la prueba I.C.F.E.S y la prueba PISA.
Ejemplo 1: Se selecciona una muestra de 16 estudiantes y se les pregunta la edad. Los datos se muestran a continuación.
x=c(14,15,16,17)
f=c(5,3,4,4)
mu=sum(x*f)/sum(f)
varx=(sum(x^2*f)/sum(f)-mu^2)*sum(f)/(sum(f)-1)
desv=(varx)^0.5
c(mu,varx,desv)
## [1] 15.437500 1.462500 1.209339
En orden, se visualizan la edad promedio, la varianza y la desviación típica estándar.
Existen cinco grandes clases de medidas estadísticas:
Son aquellas que se utilizan para medir el centro de una
distribución.
La principal medida de centralización es la media
aritmética, que por sus buenas propiedades llega a ser la
medida más recomendada para medir el centro de cualquier distribución de
datos.
Sin embargo, para distribuciones asimétricas se puede proponer el uso de la mediana como principal medida de tendencia central, ya que en esos casos puede representar mejor el centro de la distribución de datos considerada.
Para datos sueltos y una muestra conformada por los elementos
\(x_1, x_2, \ldots, x_n\), se define la
media muestral como:
\[ \overline{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} \]
Esto es, la suma de los datos dividida entre el total de observaciones.
El total de los valores de la variable es igual al número de datos multiplicado por la media: \[ \sum_{i=1}^{n} x_i = n\overline{x} \]
La suma de las desviaciones respecto a la media es cero: \[ \sum_{i=1}^{n} (x_i - \overline{x}) = 0 \]
La media es una medida de grupo y no representa necesariamente a los valores individuales: \[ x_i \neq \overline{x} \]
El valor esperado de la media aritmética bajo muestreo aleatorio es igual a la media poblacional: \[ E(\overline{X}) = \mu_x \]
Para muestras aleatorias grandes (\(n > 50\)) provenientes de poblaciones con asimetría no extrema, la media se aproxima a una distribución normal: \[ \overline{X} \sim N\left(\mu_x, \frac{\sigma}{\sqrt{v}}\right) \]
donde: - \(\mu_x\) es la media
poblacional
- \(\sigma\) es la desviación estándar
poblacional
- \(v = n\) con reemplazo
- \(v = \frac{n(N-1)}{N-n}\) sin
reemplazo en población finita
La media es sensible a valores extremos.
La media de una constante es la misma constante.
Si \(y = aX + b\), entonces: \[ \overline{y} = a\overline{X} + b \]
A partir de los siguientes datos, muestre que las desviaciones respecto a la media suman cero:
\[ X = \{2, 3, 4, 4, 5, 6, 6, 8, 9, 13\} \]
Usando la fórmula del promedio se obtiene: \[ \overline{x} = 6 \]
| No. | \(x\) | \(d = x - \overline{x}\) |
|---|---|---|
| 1 | 2 | -4 |
| 2 | 3 | -3 |
| 3 | 4 | -2 |
| 4 | 4 | -2 |
| 5 | 5 | -1 |
| 6 | 6 | 0 |
| 7 | 6 | 0 |
| 8 | 8 | 2 |
| 9 | 9 | 3 |
| 10 | 13 | 7 |
La suma de las desviaciones es:
\[ -4 - 3 - 2 - 2 - 1 + 0 + 0 + 2 + 3 + 7 = 0 \]
Se selecciona al azar una muestra sin reemplazo de 60 familias de una
población de 415.
La variable \(x\) representa la
cantidad de hermanos por familia y el promedio es \(\overline{x} = 4.4\).
Determine:
Dado: \[ y = 5x + 3 \]
Aplicando la propiedad de linealidad:
\[ \overline{y} = 5\overline{x} + 3 = 5(4.4) + 3 = 25 \]
\[ \widehat{Y} = 415 \times 25 = 10\,375 \]
Se define la mediana muestral como aquel valor para el cual al menos el 50 % de los valores de la distribución de datos son menores o iguales que este.
Si se tiene una muestra de datos \(x_1,
x_2, \ldots, x_n\), y estos se ordenan de menor a mayor
como
\(o_1, o_2, \ldots, o_n\), entonces la
mediana viene dada por:
\[ \tilde{x} = o_{(n+1)/2} \quad \text{si } n \text{ es impar} \]
\[ \tilde{x} = \frac{o_{n/2} + o_{(n/2)+1}}{2} \quad \text{si } n \text{ es par} \]
Por lo tanto, antes de realizar los cálculos, los datos deben ordenarse de menor a mayor, de tal forma que el dato \(o_i\) represente el valor en la posición \(i\) de la ordenación.
Para distribuciones desconocidas: \[ \sum_{i=1}^{n} x_i \neq n\tilde{x} \]
Las desviaciones respecto a la mediana no suman cero: \[ \sum_{i=1}^{n} (x_i - \tilde{x}) \neq 0 \]
La mediana representa adecuadamente el centro de distribuciones asimétricas: \[ x_i \neq \tilde{x} \]
El valor esperado de la mediana no es igual a la mediana poblacional: \[ E(\tilde{X}) \neq \tilde{\mu}_x \]
Para muestras grandes (\(n > 50\)) provenientes de poblaciones normales: \[ \tilde{X} \sim N\left(\mu_x, \frac{2.17\sigma_x}{\sqrt{v}}\right) \]
donde: - \(\mu_x\) es la media
poblacional
- \(\sigma_x\) es la desviación
estándar poblacional
- \(v = n\) con reemplazo
- \(v = \frac{n(N-1)}{N-n}\) sin
reemplazo
La moda es el valor que más se repite en una distribución y se simboliza como \(\widehat{x}\).
Una propiedad importante de la moda es que es la única medida de tendencia central aplicable a datos categóricos.
El precio (en millones de pesos) de una muestra aleatoria de 5 apartamentos en el barrio La Victoria de Barranquilla es:
110, 130, 150, 175, 120
Determine la media, la mediana y la moda.
Media:
\[ \overline{x} = \frac{110 + 130 + 150 + 175 + 120}{5} = 137 \]
El precio promedio estimado es de 137 millones de pesos.
Mediana:
Ordenando los datos:
110, 120, 130, 150, 175
Como \(n = 5\) es impar:
\[ \tilde{x} = o_{(n+1)/2} = o_3 = 130 \]
Esto indica que al menos el 50 % de los apartamentos tiene un precio de 130 millones de pesos o menos.
Moda:
No existe moda, ya que todos los valores tienen la misma frecuencia.
Si el dato \(x_1\) se repite \(f_1\) veces, \(x_2\) se repite \(f_2\) veces, y así sucesivamente, la media ponderada se define como:
\[ \overline{x} = \frac{\sum_{i=1}^{c} x_i f_i}{\sum_{i=1}^{c} f_i} \]
En una empresa de electrodomésticos se registran los precios de 20 computadores con la siguiente distribución:
| Precio (millones $) | 1.4 | 1.6 | 2.0 | 2.5 | 3.2 |
|---|---|---|---|---|---|
| Número de computadores | 3 | 5 | 7 | 3 | 2 |
Media:
\[ \overline{x} = \frac{1.4(3) + 1.6(5) + 2.0(7) + 2.5(3) + 3.2(2)}{20} = \frac{40.1}{20} = 2.005 \]
El precio promedio es 2 millones cinco mil pesos.
Mediana:
Los valores 10 y 11 corresponden al precio de 2.0, por lo tanto:
\[ \tilde{x} = \frac{2 + 2}{2} = 2 \]
Moda:
\[ \widehat{x} = 2 \]
ya que este valor se repite 7 veces.
Como la media, la mediana y la moda son prácticamente iguales, se concluye que la distribución es simétrica.
Para una población finita de tamaño \(N\):
\[ \mu_x = \frac{X_1 + X_2 + \cdots + X_N}{N} \]
Si la población es infinita, la media poblacional se estima mediante muestreo repetitivo como un promedio muestral a largo plazo.
Entre las principales medidas de variabilidad se encuentran: el rango, la varianza, la desviación estándar y el coeficiente de variación.
El rango se define como la diferencia entre el valor máximo y el valor mínimo de un conjunto de datos, o como la diferencia absoluta entre dos valores.
Matemáticamente:
\[ R = X_{\text{max}} - X_{\text{min}} \]
El rango se utiliza principalmente para construir tablas de frecuencias agrupadas. En muchos casos, el rango entre dos valores puede dividirse entre algún número para promediar y estimar el comportamiento de una variable en un período más corto.
El rango es no negativo: \[ R \geq 0 \]
El rango no permite identificar los valores extremos de la distribución, solo su diferencia absoluta.
Si el valor mínimo es cero, el rango es igual al valor máximo.
El rango es mayor o igual que la desviación estándar: \[ R \geq S \]
La varianza muestral para datos sueltos se define como:
\[ S^2 = \frac{\sum_{i=1}^{n} x_i^2 - \frac{1}{n}\left(\sum_{i=1}^{n} x_i\right)^2}{n-1} \]
Para datos agrupados en una tabla de frecuencias, la varianza se calcula como:
\[ S^2 = \frac{\sum_{i=1}^{c} f_i x_i^2 - \frac{1}{n}\left(\sum_{i=1}^{c} f_i x_i\right)^2}{n-1} \]
La varianza se expresa en unidades al cuadrado, lo cual dificulta su interpretación directa. Por esta razón, se utiliza la desviación estándar, que es la raíz cuadrada de la varianza.
La varianza es no negativa: \[ S^2 \geq 0 \]
La varianza de una constante es cero: \[ V(C) = 0 \]
La varianza de una variable sumada con una constante no cambia: \[ V(X + C) = V(X) \]
La varianza de una variable multiplicada por una constante es: \[ V(CX) = C^2 V(X) \]
La desviación estándar es una medida de dispersión que indica la separación promedio de los valores respecto al centro de la distribución, caracterizado por la media muestral.
Se define como:
\[ S = \sqrt{S^2} \]
La desviación estándar es no negativa: \[ S \geq 0 \]
La desviación estándar de una constante es cero: \[ D(C) = 0 \]
La desviación estándar de una variable sumada con una constante no cambia: \[ D(X + C) = D(X) \]
La desviación estándar de una variable multiplicada por una constante es: \[ D(CX) = |C| D(X) \]
El coeficiente de variación (CV) es una medida de variabilidad relativa que permite comparar la dispersión de diferentes conjuntos de datos, independientemente de las unidades de medida.
Se define como:
\[ CV = \left| \frac{S}{\overline{x}} \right| \times 100\%, \quad \overline{x} \neq 0 \]
Criterios de interpretación:
Alta variabilidad:
\[
CV \geq 100\%
\]
Variabilidad moderada:
\[
50\% \leq CV < 100\%
\]
Baja dispersión:
\[
CV < 50\%
\]
El coeficiente de variación es no negativo: \[ CV \geq 0 \]
El coeficiente de variación de una constante es cero: \[ CV(C) = 0 \]
El coeficiente de variación no cambia ante transformaciones de escala: \[ CV(CX) = CV(X), \quad C \geq 0 \]
Considere los precios (en millones de pesos) de los apartamentos en el barrio La Victoria:
110, 130, 150, 175, 120
Rango:
\[ R = 175 - 110 = 65 \]
Varianza muestral:
\[ S^2 = \frac{(110 - 137)^2 + (130 - 137)^2 + \cdots + (120 - 137)^2}{5 - 1} = 670 \]
Desviación estándar:
\[ S = \sqrt{670} = 25.88 \]
Coeficiente de variación:
\[ CV = \frac{25.88}{137} \times 100\% = 18.89\% \]
La distribución presenta baja dispersión.
Considere la siguiente tabla de frecuencias correspondiente a los precios de venta de 20 computadores:
| Precio (millones) | Frecuencia | \(f(x - \overline{x})^2\) |
|---|---|---|
| 1.4 | 3 | 1.098075 |
| 1.6 | 5 | 0.820125 |
| 2.0 | 7 | 0.000175 |
| 2.5 | 3 | 0.735075 |
| 3.2 | 2 | 2.856050 |
| Total | 20 | 5.5095 |
Rango:
\[ R = 3.2 - 1.4 = 1.8 \]
Varianza muestral:
\[ S^2 = \frac{5.5095}{19} = 0.28997 \]
Desviación estándar:
\[ S = \sqrt{0.28997} = 0.53849 \]
Coeficiente de variación:
\[ CV = \frac{0.53849}{2.005} \times 100\% = 26.86\% \]
La distribución presenta baja dispersión.
A continuación se presentan los gastos en servicios públicos,
expresados en miles de pesos, correspondientes a 10 viviendas.
Determine las principales medidas de tendencia central y de
dispersión.
| Observación | Gasto (miles de pesos) | \((x_i - \overline{x})^2\) |
|---|---|---|
| 1 | 175 | 53.29 |
| 2 | 153 | 858.49 |
| 3 | 188 | 32.49 |
| 4 | 176 | 39.69 |
| 5 | 124 | 3398.89 |
| 6 | 135 | 2237.29 |
| 7 | 250 | 4583.29 |
| 8 | 210 | 767.29 |
| 9 | 220 | 1421.29 |
| 10 | 192 | 94.09 |
| Suma | 1823 | 13486.10 |
\[ \overline{x} = \frac{175 + 153 + \cdots + 192}{10} = 182.3 \]
Es decir, el gasto promedio en servicios públicos se estima en 182 300 pesos.
Al ordenar los datos de menor a mayor se obtiene:
124, 135, 153, 175, 176, 188, 192, 210, 220, 250
Como el tamaño de la muestra es par, la mediana es:
\[ \tilde{x} = \frac{O_{(n/2)} + O_{(n/2+1)}}{2} = \frac{176 + 188}{2} = 182 \]
Esto indica que el 50 % de las viviendas no supera los 182 000 pesos en gastos por servicios públicos.
En esta muestra no existe moda, ya que todos los valores aparecen una sola vez.
\[ R = 250 - 124 = 126 \]
\[ S^2 = \frac{(175 - 182.3)^2 + (153 - 182.3)^2 + \cdots + (192 - 182.3)^2}{10 - 1} \]
\[ S^2 = \frac{13486.1}{9} = 1498.46 \]
\[ S = \sqrt{1498.46} = 38.71 \]
\[ CV = \left|\frac{S}{\overline{x}}\right| \times 100\% = \frac{38.71}{182.3} \times 100\% = 21.23\% \]
La distribución presenta baja dispersión, lo que indica que los gastos en servicios públicos de las viviendas son relativamente homogéneos.
Los percentiles de una distribución se definen como el valor de la variable que deja al menos un \(p\%\) de los datos por debajo de él y un \((100-p)\%\) por encima.
Los percentiles más utilizados son los deciles, que acumulan hasta el 10 %, 20 %, 30 %, 40 %, 50 %, 60 %, 70 %, 80 % y 90 % de los datos, respectivamente. Se nombran desde el primer hasta el noveno decil.
Otros percentiles ampliamente usados son los cuartiles, los cuales dividen la distribución en cuatro partes iguales, cada una con el 25 % de los datos. En este contexto se definen:
Para calcular un percentil \(L_p\), los datos de la muestra deben ordenarse de menor a mayor.
Las fórmulas empleadas para el cálculo de percentiles en
Excel mediante PERCENTIL.INC (o
PERCENTIL) son las mismas que utiliza el lenguaje de
programación R a través del comando
quantile().
Calcule:
de los siguientes datos, que representan los precios de la gasolina corriente en Colombia desde enero de 2014 hasta abril de 2015:
8480, 8565, 8586, 8569, 8722, 8722, 8722, 8727, 8748, 8495, 8402, 8264, 7963, 7963
Se utiliza la función quantile() del lenguaje
R.
Definiendo el vector de datos como:
\[ x = (8480, 8565, 8586, \ldots, 7963, 7963) \]
Para el percentil 65:
\[ L_{65} = \text{quantile}(x, 0.65) = 8647.2 \]
En al menos el 65 % de los meses, el valor de la gasolina en Colombia fue menor o igual a $8647.2.
Para el percentil 40:
\[ L_{40} = \text{quantile}(x, 0.40) = 8509 \]
En al menos el 40 % de los meses, el valor de la gasolina en Colombia fue menor o igual a $8509.
Con los datos del ejemplo anterior, determine e interprete los cuartiles.
Se utiliza nuevamente la función quantile() del lenguaje
R.
Primer cuartil:
\[ L_{25} = \text{quantile}(x, 0.25) = 8421.5 \]
En al menos el 25 % de los meses, el valor de la gasolina fue menor o igual a $8421.5.
Segundo cuartil (mediana):
\[ L_{50} = \text{quantile}(x, 0.50) = 8567 \]
En al menos el 50 % de los meses, el valor de la gasolina fue menor o igual a $8567.
Tercer cuartil:
\[ L_{75} = \text{quantile}(x, 0.75) = 8722 \]
En al menos el 75 % de los meses, el valor de la gasolina fue menor o igual a $8722.
Existen múltiples definiciones alternativas para el cálculo de
percentiles que pueden generar resultados diferentes.
Una alternativa consiste en construir la distribución de frecuencias
relativas acumuladas y aplicar interpolación lineal entre los puntos más
cercanos, lo cual proporciona una buena aproximación a las medidas de
posición relativa.
Las medidas de forma describen la apariencia de una distribución. Las principales son:
La medida más utilizada para cuantificar la asimetría es el coeficiente de asimetría de Fisher, representado por \(A\), y definido como:
\[ A = \frac{E(X - \mu)^3}{\sigma^3} \]
donde \(\mu\) es la media y \(\sigma\) es la desviación estándar.
El coeficiente de curtosis de Fisher, representado por \(K\), se define como:
\[ K = \frac{E(X - \mu)^4}{\sigma^4} \]
donde \(\mu\) es la media y \(\sigma\) la desviación estándar.
Muchos programas estadísticos utilizan la curtosis ajustada \(K - 3\) y la comparan con cero.
Hallar las medidas de asimetría de Fisher y curtosis con los valores de la gasolina corriente:
7963, 7963, 8264, 8402, 8480, 8495, 8565, 8569, 8586, 8722, 8722, 8722, 8727, 8748
Para la asimetría y la curtosis se puede aplicar el siguiente procedimiento.
La fórmula de la asimetría de Fisher es:
\[ A = \frac{\sum_{i=1}^n x_i^3 - n\overline{x}^3 - 3s^2(n-1)\overline{x}}{n s^3} \]
Se tienen los siguientes valores:
\[ \sum_{i=1}^n x_i = 118928 \]
\[ \sum_{i=1}^n x_i^2 = 1\,011\,195\,730 \]
\[ \sum_{i=1}^n x_i^3 = 8.60533 \times 10^{12} \]
\[ \sum_{i=1}^n x_i^4 = 7.3294 \times 10^{16} \]
La media muestral es:
\[ \overline{x} = \frac{118928}{14} = 8494.86 \]
La varianza muestral:
\[ S^2 = \frac{1\,011\,195\,730 - \frac{(118928)^2}{14}}{13} = 70719.978 \]
La desviación estándar:
\[ S = \sqrt{70719.978} = 265.93 \]
La desviación estándar corregida:
\[ \widehat{S} = \sqrt{\frac{13}{14} \times 70719.978} = 256.26 \]
Sustituyendo en la fórmula de asimetría:
\[ A = \frac{8.60533 \times 10^{12} - 14(8494.86)^3 - 3(70719.978)(13)(8494.86)}{14(256.26)^3} \]
\[ A = -1.05 < 0 \]
Por lo tanto, la distribución es asimétrica negativa, es decir, sesgada hacia la izquierda.
La curtosis de Fisher se define como:
\[ K = \frac{\sum_{i=1}^n x_i^4 - 4\overline{x}\sum_{i=1}^n x_i^3 + 6\overline{x}^2\sum_{i=1}^n x_i^2 - 3n\overline{x}^4}{n s^4} \]
Sustituyendo los valores:
\[ K = \frac{7.3294 \times 10^{16} - 4(8494.86)(8.60533 \times 10^{12})}{14(256.26)^4} \]
\[ + \frac{6(8494.86)^2(1\,011\,195\,730) - 3(14)(8494.86)^4}{14(256.26)^4} \]
\[ K = 2.95 \]
Como \(K < 3\), la distribución es platicúrtica.
Considere la siguiente tabla de datos agrupados:
| Clases | Frecuencia \(f\) | Frecuencia acumulada \(F\) | Marca de clase \(X\) | \(X \times f\) |
|---|---|---|---|---|
| 20 – 60 | 38 | 38 | 40 | 1520 |
| 60 – 100 | 24 | 62 | 80 | 1920 |
| 100 – 140 | 17 | 79 | 120 | 2040 |
| 140 – 180 | 12 | 91 | 160 | 1920 |
| 180 – 220 | 6 | 97 | 200 | 1200 |
| 220 – 260 | 3 | 100 | 240 | 720 |
| Total | 100 | 9320 |
\[ \overline{x} = \frac{\sum x_i f_i}{\sum f_i} = \frac{9320}{100} = 93.2 \]
\[ \widehat{x} = L_i + \frac{f_i - f_{i-1}}{(f_i - f_{i-1}) + (f_i - f_{i+1})} \times W \]
\[ \widehat{x} = 20 + \frac{38 - 0}{(38 - 0) + (38 - 24)} \times 40 = 49.23 \]
Donde:
\[ \tilde{x} = L_j + \frac{\frac{n}{2} - F_{j-1}}{f_j} \times W \]
\[ \tilde{x} = 60 + \frac{50 - 38}{24} \times 40 = 80 \]
Donde:
\[ L_p = L_k + \frac{np - F_{k-1}}{f_k} \times W \]
Donde:
Un análisis que suele hacerse a los datos es determinar si existe la presencia de valores atípicos o defectuosos en la muestra. Para ello, el gráfico habitual es el gráfico de caja y bigotes.
Con los datos encontrados por el profesor de Física al liquidar la suma de 7 calificaciones del tercer periodo académico, construya un gráfico de cajas y bigotes.
| Calificación total | Número de estudiantes |
|---|---|
| 11 | 1 |
| 13 | 2 |
| 14.5 | 1 |
| 15.5 | 1 |
| 17 | 2 |
| 18.8 | 1 |
| 19 | 1 |
| 21 | 6 |
| 21.8 | 1 |
| 23 | 1 |
| 23.8 | 1 |
| 24 | 1 |
| 28 | 4 |
| 29.8 | 1 |
| 35 | 1 |
En primera medida, se determinan los cuartiles:
\[ Q_1 = \text{quantile}(x, 0.25) = 17 \]
\[ Q_2 = x_{(13)} = 21 \]
\[ Q_3 = \text{quantile}(x, 0.75) = 24 \]
El rango intercuartílico es:
\[ RI = Q_3 - Q_1 = 24 - 17 = 7 \]
Los límites de los bigotes son:
\[ b.i = Q_1 - 1.5RI = 17 - 1.5(7) = 6.5 \]
\[ b.d = Q_3 + 1.5RI = 24 + 1.5(7) = 34.5 \]
Se detecta un valor atípico, el cual indica un estudiante con mayor rendimiento que el resto durante el período académico en la asignatura de Física.
La gráfica se presenta colocando la caja intercuartílica y los extremos, donde los bigotes regresan siempre hacia el centro.
La distribución es aproximadamente normal, ya que los bigotes son de tamaños similares y la distancia entre la mediana y el primer cuartil es ligeramente mayor que la distancia entre el tercer cuartil y la mediana.
Considere el experimento de lanzar un dado y dos monedas.
- Si la moneda sale sello, se asignan 100 puntos; si
sale cara, se asignan 20 puntos.
- Si el dado es menor que 5, se asignan 200 puntos; si sale 5 o 6, se
asignan 500 puntos.
Determine la distribución teórica del puntaje total, calcule la media, moda, mediana, primer y tercer cuartil, y construya un gráfico de cajas y bigotes para interpretar la asimetría de la distribución.
A partir del experimento se obtiene la siguiente tabla:
| Observación | Dado | Moneda 1 | Moneda 2 | Puntaje | Frecuencia |
|---|---|---|---|---|---|
| 1 | {1,2,3,4} | sello | sello | 400 | 4 |
| 2 | {1,2,3,4} | sello | cara | 320 | 4 |
| 3 | {1,2,3,4} | cara | sello | 320 | 4 |
| 4 | {1,2,3,4} | cara | cara | 240 | 4 |
| 5 | {5,6} | sello | sello | 700 | 2 |
| 6 | {5,6} | sello | cara | 620 | 2 |
| 7 | {5,6} | cara | sello | 620 | 2 |
| 8 | {5,6} | cara | cara | 540 | 2 |
La distribución final del puntaje es:
| Puntaje \(x\) | Frecuencia \(f\) | \(x f\) | Frecuencia acumulada \(F\) |
|---|---|---|---|
| 240 | 4 | 960 | 4 |
| 320 | 8 | 2560 | 12 |
| 400 | 4 | 1600 | 16 |
| 540 | 2 | 1080 | 18 |
| 620 | 4 | 2480 | 22 |
| 700 | 2 | 1400 | 24 |
| Total | 24 | 9080 |
La media es:
\[ \overline{x} = \frac{\sum x f}{\sum f} = \frac{9080}{24} = 378.33 \]
La moda es:
\[ Mo = 320 \]
La mediana es:
\[ Me = \frac{o_{(12)} + o_{(13)}}{2} = \frac{320 + 400}{2} = 360 \]
Los cuartiles son:
\[ Q_1 = 320 \]
\[ Q_2 = 360 \]
\[ Q_3 = 560 \]
El rango intercuartílico:
\[ RI = 560 - 320 = 240 \]
Límites de los bigotes:
\[ b.i = 320 - 1.5(240) = -40 \]
\[ b.d = 560 + 1.5(240) = 920 \]
No se detectan valores atípicos.
La distribución es asimétrica a la derecha, ya que existe mayor concentración de datos hacia la izquierda y una cola extendida hacia la derecha.
A menudo se pretende establecer la relación entre un par de variables. En ese caso, es de interés medir el grado de asociación entre dos variables. Para ello se utiliza la correlación, que es una medida del grado de asociación lineal entre ellas.
Por lo tanto, dos variables que tienen relaciones no lineales exhibirán una correlación baja; mientras que variables asociadas linealmente tendrán una alta correlación.
No obstante, si la correlación es fuerte, la tendencia puede ser una línea creciente o una línea recta decreciente.
Antes de definir la correlación se define la covarianza, del siguiente modo:
\[ S_{xy} = \frac{\sum_{i=1}^{n} x_i y_i - n \overline{x}\,\overline{y}}{n-1} \]
Las propiedades de la covarianza son:
La correlación muestral se define como:
\[ r = \frac{S_{xy}}{S_x S_y} \]
y cumple las siguientes propiedades:
Se estudian las calificaciones de Estadística y Física de 10 estudiantes de décimo grado:
Se pide realizar un análisis de las correlaciones por pares y analizar una gráfica de dispersión entre los promedios.
| Nro | X₁ | X₂ | X₃ | Y₁ | Y₂ | Y₃ |
|---|---|---|---|---|---|---|
| 1 | 2.0 | 2.5 | 2.3 | 2.3 | 3.0 | 2.7 |
| 2 | 4.2 | 3.0 | 3.6 | 3.4 | 3.8 | 3.6 |
| 3 | 3.5 | 3.9 | 3.7 | 4.0 | 4.5 | 4.3 |
| 4 | 2.0 | 2.0 | 2.0 | 2.1 | 3.1 | 2.6 |
| 5 | 3.5 | 3.3 | 3.4 | 2.5 | 3.3 | 2.9 |
| 6 | 4.1 | 3.8 | 4.0 | 3.5 | 3.7 | 3.6 |
| 7 | 3.0 | 3.0 | 3.0 | 3.0 | 3.0 | 3.0 |
| 8 | 3.5 | 3.3 | 3.4 | 3.3 | 3.4 | 3.4 |
| 9 | 4.1 | 3.5 | 3.8 | 4.0 | 3.4 | 3.7 |
| 10 | 3.2 | 3.0 | 3.1 | 2.0 | 2.2 | 2.1 |
| 1.000 | 0.798 | 0.961 | 0.727 | 0.453 | 0.622 |
| 0.798 | 1.000 | 0.933 | 0.770 | 0.570 | 0.716 |
| 0.961 | 0.933 | 1.000 | 0.784 | 0.530 | 0.697 |
| 0.727 | 0.770 | 0.784 | 1.000 | 0.790 | 0.954 |
| 0.453 | 0.570 | 0.530 | 0.790 | 1.000 | 0.936 |
| 0.622 | 0.716 | 0.697 | 0.954 | 0.936 | 1.000 |
Se observa que todas las correlaciones son positivas, lo que indica que al aumentar la calificación promedio en Estadística también tiende a aumentar la calificación promedio en Física.
Esto se evidencia claramente en la gráfica de dispersión, donde se aprecia una correlación moderada positiva.
Los resultados aparecen en la tabla:
| Cantidad de personas | Cantidad de familias |
|---|---|
| 4 | 2 |
| 5 | 9 |
| 6 | 11 |
| 7 | 14 |
| 8 | 8 |
| 9 | 6 |
| x | f |
|---|---|
| 0-2 | 41 |
| 3-5 | 93 |
| 6-8 | 26 |
| 9-11 | 15 |
| 12-14 | 11 |
| Tallo | Hojas |
|---|---|
| 1 | 2 3 4 4 5 5 6 6 |
| 2 | 1 1 2 2 3 3 4 5 7 7 |
| 3 | 0 0 0 1 1 3 5 5 6 6 8 8 8 9 |
| 4 | 2 2 3 3 4 4 5 5 6 9 |
| 5 | 1 1 3 4 5 5 6 9 |
| Salario Mensual | Número de trabajadores |
|---|---|
| 750-1000 | 15 |
| 1000-1250 | 36 |
| 1250-1500 | 69 |
| 1500-1750 | 54 |
| 1750-2000 | 20 |
| 2000-2250 | 6 |
| Tallo | Hojas |
|---|---|
| 5 | 2 3 4 4 5 |
| 6 | 1 1 2 2 3 3 4 |
| 7 | 0 0 0 1 1 3 5 5 6 6 8 |
| 8 | 2 2 3 3 |
| 9 | 1 7 |
| Tallo | Hojas |
|---|---|
| 50 | 0 0 |
| 62 | 0 0 2 3 3 |
| 75 | 0 0 0 5 6 6 |
| 81 | 2 2 3 |
| 95 | 0 |
| Cantidad de horas | Número de estudiantes |
|---|---|
| 0-1 | 3 |
| 1-2 | 4 |
| 2-3 | 7 |
| 3-4 | 9 |
| 4-5 | 5 |
| 5-6 | 4 |
| 6-7 | 3 |
| 7-8 | 2 |
| 8-10 | 1 |
| x | f | x*f | f(x-mean)^2 |
|---|---|---|---|
| 300.5 | 10 | 3005 | 400000 |
| 500.5 | 4 | 2002 | 0 |
| 700.5 | 3 | 2101.5 | 120000 |
| 900.5 | 2 | 1801 | 320000 |
| 1100.5 | 1 | 1100.5 | 360000 |
| Totales | 20 | 10010 | 1200000 |
| media | 500.5 |
| Cantidad de Materias (x) | Número de estudiantes (f) |
|---|---|
| 0 | 8 |
| 1 | 9 |
| 2 | 24 |
| 3 | 38 |
| 4 | 26 |
| 5 | 29 |
| 6 | 11 |
| 7 | 8 |
| 8 | 7 |
| 9 | 5 |
| 10 | 8 |
| 11 | 2 |
| 12 | 6 |
| 13 | 1 |
| 14 | 4 |
Determine la distribución teórica del puntaje total,
y luego encuentre:
- Media, moda y mediana
- Primer y tercer cuartil
- Gráfica de cajas y bigotes e interprete la asimetría
Determine la distribución teórica, luego
calcule:
- Media, moda y mediana
- Primer y tercer cuartil
- Gráfica de cajas y bigotes e interprete la asimetría
Determine la distribución teórica, luego
calcule:
- Media, moda y mediana
- Primer y tercer cuartil
- Gráfica de cajas y bigotes e interprete la asimetría
Determine la distribución teórica, luego
calcule:
- Media, moda y mediana
- Primer y tercer cuartil
- Gráfica de cajas y bigotes e interprete la asimetría
Determine la distribución teórica, luego
calcule:
- Media, moda y mediana
- Primer y tercer cuartil
- Gráfica de cajas y bigotes e interprete la asimetría
Determine la distribución teórica, luego
calcule:
- Media, moda y mediana
- Primer y tercer cuartil
- Gráfica de cajas y bigotes e interprete la asimetría
Las fuentes de información son los medios por los cuales se recogen datos o hechos.
-primarias: la encuesta, la entrevista, el experimento y el estudio de caso.
-secundarias: la radio, la televisión, el internet, la revisión de literatura y el estado del arte.
Las variables estadísticas pueden ser de dos tipos:
-Cualitativas: códigos numéricos, códigos alfanuméricos y códigos alfabéticos.
-Cuantitativas: las cantidades.
Ejemplo 2: Escribe una definición de cada fuente de información y variable estadística.
-La encuesta: las encuestas estadísticas acostumbran a recolectar información cualitativa o cuantitativa sobre los elementos de una población.
Las encuestas se utilizan para obtener información sobre actividades, opiniones, comportamientos y otros aspectos.
f=c(6,5, 4,3,2)
x=c("Natacion", "Futbol", "Voleibol", "Tenis", "Baloncesto")
xf=c("Natacion", "Natacion", "Natacion","Natacion", "Natacion", "Natacion","Futbol","Futbol","Futbol","Futbol","Futbol", "Voleibol","Voleibol","Voleibol","Voleibol","Tenis","Tenis", "Tenis", "Baloncesto","Baloncesto")
xe=table(xf)
xe
## xf
## Baloncesto Futbol Natacion Tenis Voleibol
## 2 5 6 3 4
barplot(xe, xlab="Deporte favorito", ylab="Número de Estudiantes", main="Diagrama de barras", col=c("red", "orange", "yellow", "green", "blue"))
-Entrevista: la Entrevista es un método de recopilación de datos que implica la interacción directa entre un entrevistador y un encuestado. Durante la entrevista se hacen preguntas para recopilar información detallada sobre opiniones, experiencias y comportamientos del entrevistado.
Ejemplo 3: Se recogió la edad de 36 estudiantes que pertenecen a la escuela deportiva de la Universidad. La variable x es la edad y f es la cantidad de estudiantes, p el porcentaje absoluto y P el porcentaje acumulado.
x=c(21,22,23,24,25)
f=c(2,6,17,10,1)
p=f/sum(f)*100
P=c(p[1],p[1]+p[2],p[1]+p[2]+p[3],p[1]+p[2]+p[3]+p[4],100)
cbind(x,f,p,P )
## x f p P
## [1,] 21 2 5.555556 5.555556
## [2,] 22 6 16.666667 22.222222
## [3,] 23 17 47.222222 69.444444
## [4,] 24 10 27.777778 97.222222
## [5,] 25 1 2.777778 100.000000
-El Experimento: es un método de recopilación de datos, que implica una manipulación controlada de variables independientes para observar sus efectos en una o más variables respuestas.
La ojiva es una gráfica de linea poligonal acumulada.
Partimos de la tabla de frecuencias agrupadas
x=c("De 2 a menos de 2.5", "De 2.5 a menos de 3.0", "De 3.0 a menos de 3.5", "De 3.5 a menos de 4.0", "De 4.0 a 4.5")
f=c(4,10,6,3,2)
cbind(x,f)
## x f
## [1,] "De 2 a menos de 2.5" "4"
## [2,] "De 2.5 a menos de 3.0" "10"
## [3,] "De 3.0 a menos de 3.5" "6"
## [4,] "De 3.5 a menos de 4.0" "3"
## [5,] "De 4.0 a 4.5" "2"
xs=c(2,2.5,3,3.5,4,4.5)
P=c(0,16,56,80,92,100)
plot(xs,P,type="l",xlab="fronteras superiores", ylab="Porcentajes acumulados", main="Ojiva de porcentajes")
Para obtener la mediana, el septimo decil, el tercer decil y el 85-ésimo punto percentil; existen 3 maneras: el método gráfico, el método de interpolación y el método de medidas agrupadas.
En el método gráfico, se da un vistazo a la Ojiva y se busca el valor que corresponde al porcentaje acumulado señalado.
La mediana es \(Q_2=2.9\), el septimo decil es \(D_7=3.3\), el tercer decil es \(D_3=2.7\) y el 85-ésimo punto percentil es \(P_{85}=3.75\).
Para calcular el percentil mediante la tabla de frecuencias absolutas agrupadas, se utiliza la formulación
\(X_p=L_p + \frac{n\times p\%-F}{f_p}\times w\)
X_p es el p-ésimo punto percentil
L_p es el límite inferior de la clase que contiene a X_p.
p es el tanto por ciento que acumula el percentil
F es la frecuencia acumulada anterior a la clase donde se ubica el percentil
f_p es la frecuencia absoluta de la clase percentil
w es la amplitud de la clase percentil
Aplicando la fórmula, se tiene \(Me=L_{50}+\frac{n/2-F}{f_{50}}\times w\)
En este caso \(n=25\) y la mitad de n es 12.5.
El valor de \(L_{50}=2.5\) y \(F=4\) y \(w=0.5\).
\(Me=2.5+\frac{12.5-4}{10}\times 0.5\)
\(Me=2.5+0.425\), esto es, \(Me=2.925\).
El 50% de los estudiantes tiene una calificación de 2.925 o menos.
\(X_p=L_p + \frac{n\times p\%-F}{f_p}\times w\)
Aplicando la fórmula, se tiene \(D_7=L_{70}+\frac{n\times 70\%-F}{f_{70}}\times w\)
En este caso \(n=25\) y el 70% de n es 17.5.
El valor de \(L_{70}=3.0\) y \(F=14\) y \(w=0.5\).
\(D_7=3.0+\frac{17.5-14}{6}\times 0.5\)
\(D_7=3.0+0.2916\), esto es, \(D_7=3.2916\).
El 70% de los estudiantes tiene una calificación de 3.2916 o menos.
\(X_p=L_p + \frac{n\times p\%-F}{f_p}\times w\)
Aplicando la fórmula, se tiene \(D_3=L_{30}+\frac{n\times 30\%-F}{f_{30}}\times w\)
En este caso \(n=25\) y el 30% de n es 7.5.
El valor de \(L_{30}=2.5\) y \(F=4\) y \(w=0.5\).
\(D_3=2.5+\frac{7.5-4}{10}\times 0.5\)
\(D_3=2.5+0.175\), esto es, \(D_3=2.675\).
El 30% de los estudiantes tiene una calificación de 2.675 o menos.
\(X_p=L_p + \frac{n\times p\%-F}{f_p}\times w\)
Aplicando la fórmula, se tiene \(P_{85}=L_{85}+\frac{n\times 85\%-F}{f_{85}}\times w\)
En este caso \(n=25\) y el 85% de n es 21.25.
El valor de \(L_{85}=3.5\) y \(F=20\) y \(w=0.5\).
\(P_{85}=3.5+\frac{21.25-20}{3}\times 0.5\)
\(P_{85}=3.5+0.21\), esto es, \(P_{85}=3.71\).
El 85% de los estudiantes tiene una calificación de 3.71 o menos.
Indicador: Interpreta datos y realiza predicciones simples basadas en la información proporcionada.
Ejemplos prácticos:
Observar un gráfico de temperaturas semanales y predecir cuál podría ser la temperatura del próximo lunes.
Analizar la cantidad de estudiantes que asisten cada día a clase y predecir cuál será el día con mayor asistencia la próxima semana.
Usar los resultados de un examen anterior para predecir cuántos estudiantes podrían aprobar el siguiente.
Predecir el sabor de helado más vendido el próximo mes con base en los datos del mes anterior.
Leer una tabla con datos de ventas y predecir si estas aumentarán, disminuirán o se mantendrán estables.
Indicador: Resuelve problemas usando datos estadísticos para predecir posibles resultados.
Ejemplos prácticos:
Usar los datos de participación en clase para predecir quién podría ganar un concurso escolar.
Resolver un problema donde se predice cuántas botellas de agua se venderán en una jornada deportiva según los datos de ventas anteriores.
Predecir cuántos días al mes llueve usando el número de días lluviosos de los últimos tres meses.
Usar los resultados de una encuesta para predecir qué actividad prefieren los estudiantes para la salida pedagógica.
Calcular cuántos libros se podrían leer en un trimestre si cada semana se leen dos, basándose en registros anteriores.
Indicador: Justifica sus predicciones con base en datos concretos y razonamientos lógicos.
Ejemplos prácticos:
Explicar por qué se predice que aumentará el uso de bicicleta en el barrio usando una encuesta local.
Justificar por qué el estudiante piensa que el equipo A ganará el torneo según sus estadísticas de goles.
Presentar razones lógicas para predecir un aumento de ventas de jugos durante la semana de calor.
Justificar una predicción sobre la preferencia musical de un grupo, usando datos de una encuesta.
Comparar predicciones personales con datos y explicar si fueron acertadas o no, justificando las diferencias.
Indicador: Compara predicciones con resultados reales utilizando diversas fuentes.
Ejemplos prácticos:
Revisar una predicción de temperaturas y comparar con los valores reales reportados por el clima.
Comparar los resultados de un partido con lo que se había predicho en base a estadísticas previas.
Evaluar si la cantidad de estudiantes que se predijo que asistirían a una actividad coincide con la asistencia real.
Usar datos oficiales de consumo de agua para comparar con predicciones hechas por los estudiantes.
Contrastar la cantidad de frutas vendidas en la tienda escolar con la predicción basada en semanas anteriores.
Indicador: Formula predicciones a partir de conjuntos de datos investigados y resuelve problemas.
Ejemplos prácticos:
Recolectar datos sobre cuántas horas estudian los compañeros y predecir quién podría tener mejor rendimiento.
Investigar cuántas veces se utiliza el transporte público y predecir su uso en un evento escolar.
Obtener datos de ventas de la tienda escolar y predecir cuál será el producto más vendido en diciembre.
Indagar sobre la cantidad de residuos generados en una semana y predecir cuántos se generarán en un mes.
Recolectar datos de tiempo en actividades recreativas y predecir qué actividad es la más popular.
Indicador: Discute si las predicciones obtenidas son razonables y lógicas dentro de un contexto dado.
Ejemplos prácticos:
Analizar si predecir 30 días de lluvia en un mes es lógico para el clima local.
Debatir si una predicción de ventas escolares es realista en épocas de vacaciones.
Evaluar si una predicción sobre el uso de celulares es razonable en el contexto de una salida al campo.
Cuestionar la lógica de una predicción sobre el aumento de consumo de agua durante un mes frío.
Reflexionar si es razonable predecir un aumento de lectura en vacaciones según hábitos anteriores.
Indicador: Representa gráficamente las predicciones y compara fuentes.
Ejemplos prácticos:
Dibujar un gráfico de barras que muestre predicciones sobre los sabores de jugo más vendidos.
Comparar un gráfico de líneas con predicciones climáticas frente a los datos reales.
Crear un pictograma para representar predicciones sobre medios de transporte más usados por los compañeros.
Hacer una gráfica circular con predicciones sobre preferencias de actividades lúdicas.
Representar datos de encuestas con histogramas y discutir visualmente si la predicción es coherente.
Indicador: Evalúa la precisión de las fuentes y analiza posibles errores.
Ejemplos prácticos:
Evaluar si una predicción fue inexacta porque se usó una muestra demasiado pequeña.
Analizar por qué la predicción del día más caluroso de la semana no se cumplió.
Detectar errores en una predicción sobre asistencia escolar basada en datos antiguos.
Evaluar si los datos estaban mal organizados y eso afectó la predicción.
Discutir si una predicción fue influenciada por opiniones personales más que por datos.
Indicador: Justifica la predicción en fenómenos aleatorios como eventos de probabilidad.
Ejemplos prácticos:
Lanzar una moneda 20 veces y predecir cuántas veces caerá cara o sello.
Justificar por qué se espera que al lanzar un dado, cada número tiene la misma probabilidad de salir.
Analizar si sacar una ficha roja de una bolsa con más fichas azules es más o menos probable.
Predecir qué color saldrá más veces al girar una ruleta dividida en partes desiguales.
Justificar una predicción sobre cuántas veces se acertará en un juego de adivinanzas al azar.
Indicador: Formula conclusiones sobre los resultados de las predicciones basadas en datos.
Ejemplos prácticos:
Redactar una conclusión final explicando si las predicciones sobre ventas escolares fueron correctas y por qué.
Concluir si los datos utilizados fueron suficientes para justificar la predicción del clima semanal.
Escribir una reflexión sobre las predicciones hechas al inicio del mes y los resultados reales obtenidos.
Explicar cómo la organización de datos ayudó (o no) a hacer una predicción correcta.
Realizar una presentación en grupo mostrando los datos recolectados, las predicciones hechas, los resultados reales y las conclusiones.
Indicador: Identifica y selecciona datos relevantes de fuentes diversas (prensa, revistas, entrevistas) para el análisis.
Ejemplos prácticos:
Leer una noticia económica y extraer los datos más importantes sobre inflación para una presentación en clase.
Revisar una entrevista en una revista juvenil y seleccionar los datos estadísticos utilizados para respaldar opiniones.
Analizar un gráfico en una noticia sobre el consumo de azúcar y elegir la información que ayuda a responder si está aumentando o disminuyendo.
Comparar los resultados de dos encuestas sobre hábitos de lectura de adolescentes y decidir cuál tiene datos más relevantes.
Ver una noticia televisiva sobre desempleo juvenil y anotar los datos clave para explicar una tendencia.
Indicador: Resuelve problemas formulados a partir de conjuntos de datos obtenidos de diferentes fuentes.
Ejemplos prácticos:
Usar los resultados de una encuesta escolar para identificar el alimento más consumido en los recreos.
Resolver un problema sobre ahorro familiar usando estadísticas de una revista económica.
Interpretar datos de un experimento sobre consumo de agua por persona y calcular el promedio diario.
A partir de una encuesta hecha en clase, determinar qué género musical es el más escuchado y en qué grado.
Usar los datos de una campaña de vacunación para identificar qué grupo etario tuvo mayor cobertura.
Indicador: Justifica la relevancia de los datos seleccionados de fuentes externas y cómo afectan la resolución de un problema.
Ejemplos prácticos:
Justificar por qué un artículo sobre cambio climático con datos precisos es más útil que una opinión sin cifras para un debate.
Analizar si los datos presentados en una infografía sobre el uso de redes sociales por adolescentes son representativos.
Explicar por qué una fuente con fecha reciente es más confiable para hablar sobre desempleo que una de hace 10 años.
Determinar si los resultados de una entrevista pueden aplicarse para generalizar sobre una población.
Evaluar dos artículos con datos distintos sobre violencia escolar y decidir cuál tiene información más útil para intervenir.
Indicador: Presenta los datos seleccionados en gráficos o tablas adecuadas para una correcta interpretación.
Ejemplos prácticos:
Diseñar una tabla que resuma los resultados de una encuesta sobre uso del celular en el colegio.
Crear un gráfico de barras para comparar los datos de consumo de frutas en estudiantes de varios grados.
Representar con un diagrama de pastel las preferencias de transporte hacia la escuela según una encuesta local.
Organizar los datos de tres noticias en una tabla comparativa sobre acceso a internet en diferentes regiones.
Realizar un histograma con los puntajes obtenidos en un examen para analizar el rendimiento por curso.
Indicador: Realiza cálculos de medidas de tendencia central (media, mediana, moda) a partir de datos obtenidos de diversas fuentes.
Ejemplos prácticos:
Calcular la media de horas de sueño de un grupo de estudiantes a partir de una encuesta.
Determinar la mediana del número de libros leídos por estudiantes de octavo grado en un trimestre.
Identificar la moda en la cantidad de minutos diarios que dedican al celular según un registro de cinco días.
Comparar la media de precios de productos básicos en tres supermercados según datos de una revista económica.
Calcular media y mediana de los resultados de un experimento sobre velocidad de conexión a internet.
Indicador: Compara y argumenta sobre los datos obtenidos de distintas fuentes y su relevancia en el contexto del problema planteado.
Ejemplos prácticos:
Comparar los datos de desempleo juvenil entre dos periódicos y argumentar cuál fuente es más confiable.
Analizar cómo varía la cantidad de accidentes de tránsito según la fuente (tránsito municipal vs. ONG de seguridad vial).
Justificar por qué la información del DANE puede ser más representativa que la de una encuesta escolar.
Contrastar datos sobre consumo de azúcar en Colombia provenientes de una revista de salud y una entidad gubernamental.
Comparar cifras de calentamiento global entre una fuente científica y una de redes sociales y discutir su validez.
Indicador: Organiza y presenta de manera clara y precisa los resultados obtenidos de experimentos, encuestas o entrevistas.
Ejemplos prácticos:
Organizar los resultados de una encuesta sobre hábitos alimenticios en una tabla y un gráfico de barras.
Presentar visualmente los resultados de una entrevista sobre tiempo libre en adolescentes en un diagrama circular.
Crear un informe visual de un experimento sobre el uso de apps educativas en clase.
Exponer gráficamente los resultados de una encuesta sobre tipos de música preferida, separados por género.
Mostrar en un gráfico de líneas cómo ha cambiado el interés en las carreras universitarias durante los últimos cinco años según datos del MEN.
Indicador: Resuelve problemas complejos utilizando información de diversas fuentes y diferentes tipos de representación de datos.
Ejemplos prácticos:
Usar datos del DANE, noticias locales y encuestas escolares para proponer soluciones a la deserción escolar.
Resolver un problema sobre escasez de agua comparando cifras de consumo, clima y campañas de ahorro.
Proponer una solución al problema del sedentarismo juvenil usando datos de actividad física de la OMS, colegios y encuestas locales.
Analizar el acceso a internet en zonas rurales utilizando datos del gobierno, entrevistas a estudiantes y cifras de proveedores.
Diseñar una propuesta para mejorar la alimentación escolar basándose en datos nutricionales, presupuestos y preferencias estudiantiles.
Indicador: Justifica las conclusiones a partir de la interpretación y comparación de los datos de diferentes fuentes.
Ejemplos prácticos:
Explicar por qué se concluye que hay más uso de redes sociales que de libros con base en tres encuestas distintas.
Justificar la decisión de priorizar una campaña de salud en adolescentes usando datos locales y nacionales.
Argumentar con datos por qué es importante aumentar la educación financiera en jóvenes.
Explicar con evidencia por qué un tipo de transporte es más eficiente en una zona de la ciudad.
Redactar una conclusión sobre los efectos del cambio climático en la región basándose en fuentes científicas y medios de comunicación.
Indicador: Presenta un informe final con los resultados de su análisis de datos obtenidos de diversas fuentes.
Ejemplos prácticos:
Elaborar un informe que resuma los resultados de una investigación sobre hábitos digitales en adolescentes.
Presentar oralmente y por escrito los resultados de una encuesta sobre alimentación saludable.
Crear un póster con gráficos y conclusiones sobre el uso de la bicicleta como medio de transporte.
Hacer una presentación en grupo sobre los resultados de una investigación sobre el tiempo de estudio en casa.
Compartir un informe final sobre el impacto del reciclaje escolar utilizando datos internos y externos.
Indicador: Identifica y calcula la media, mediana y moda en conjuntos de datos extraídos de diferentes fuentes (prensa, televisión, etc.).
Ejemplos prácticos:
Calcular la media de edades de un grupo de personas que aparecen en un artículo de prensa.
Determinar la mediana del número de horas que estudiantes de diferentes colegios dedican a estudiar según una encuesta televisiva.
Identificar la moda en las calificaciones de un grupo de estudiantes según un reporte escolar.
Analizar un conjunto de datos sobre temperaturas diarias y calcular sus medidas de tendencia central para un informe meteorológico.
Interpretar la media y moda de precios de productos alimenticios publicados en diferentes periódicos para comparar costos.
Indicador: Formula preguntas clave basadas en los datos presentados en diferentes fuentes y justifica las respuestas.
Ejemplos prácticos:
Leer un artículo sobre consumo de agua y preguntar: ¿Cuál es el promedio diario de consumo en hogares urbanos?
Analizar una noticia sobre hábitos alimenticios y preguntar: ¿Qué grupo de edad consume más frutas? Justifica con los datos.
Examinar resultados de una encuesta sobre uso de tecnología y preguntar: ¿Qué porcentaje usa dispositivos móviles para estudiar?
Interpretar datos de una encuesta sobre transporte y preguntar: ¿Cuál es el medio más utilizado? ¿Por qué?
Formular preguntas sobre estadísticas de deserción escolar y justificar las respuestas basadas en los datos.
Indicador: Interpreta tablas y gráficos de diferentes fuentes, identificando posibles sesgos o limitaciones en la presentación.
Ejemplos prácticos:
Analizar un gráfico de barras sobre consumo de energía y discutir si la escala puede distorsionar la interpretación.
Evaluar una tabla de resultados electorales y detectar posibles omisiones o datos poco claros.
Interpretar un gráfico circular de una revista y cuestionar si los porcentajes suman correctamente.
Revisar una entrevista que presenta datos de salud y señalar si falta información importante para entender el contexto.
Criticar un reporte con datos incompletos o desactualizados sobre contaminación ambiental.
Indicador: Elabora gráficos estadísticos a partir de datos provenientes de encuestas, artículos o entrevistas.
Ejemplos prácticos:
Crear un gráfico de barras con los resultados de una encuesta sobre deportes preferidos en la escuela.
Elaborar un gráfico de líneas que muestre la variación de temperatura mensual según datos meteorológicos.
Diseñar un gráfico circular para representar la distribución de gasto mensual en una familia, basado en una entrevista.
Construir un histograma con datos de puntajes en un examen escolar para analizar la frecuencia de calificaciones.
Representar en un gráfico de barras los resultados de una encuesta sobre hábitos de lectura en estudiantes.
Indicador: Compara y evalúa la precisión de la representación gráfica de datos en diferentes medios.
Ejemplos prácticos:
Comparar cómo dos periódicos diferentes presentan un mismo conjunto de datos sobre desempleo y discutir cuál es más claro y preciso.
Evaluar un informe televisivo donde los datos se presentan con gráficos poco claros y sugerir mejoras.
Analizar si los gráficos en una noticia digital sobre contaminación utilizan escalas adecuadas para representar la realidad.
Criticar la presentación de estadísticas en un reportaje y proponer alternativas más efectivas para comunicar la información.
Comparar tablas de diferentes medios sobre resultados deportivos y discutir posibles manipulaciones visuales.
Indicador: Analiza y compara la representación de los mismos datos en diferentes medios, identificando posibles sesgos.
Ejemplos prácticos:
Revisar una noticia sobre cifras de violencia y comparar los datos en dos periódicos; discutir diferencias y razones.
Analizar la cobertura de una noticia económica en televisión y prensa escrita, detectando posibles omisiones o énfasis diferentes.
Comparar los datos de una encuesta sobre consumo de alcohol publicada en revista y sitio web.
Evaluar cómo distintos medios presentan estadísticas de accidentes de tránsito y argumentar sobre la confiabilidad.
Contrastar gráficos sobre indicadores de salud en diferentes fuentes y discutir qué sesgos pueden tener.
Indicador: Evalúa la calidad y confiabilidad de los datos obtenidos de diferentes fuentes, haciendo comparaciones y discutiendo su relevancia.
Ejemplos prácticos:
Evaluar la confiabilidad de datos obtenidos de un experimento escolar versus datos de una institución científica.
Comparar entrevistas con expertos y encuestas a población general para validar información sobre hábitos saludables.
Analizar si los datos de un reporte gubernamental son más confiables que los de una publicación de redes sociales.
Discutir la importancia de la metodología usada para recolectar datos en un estudio sobre hábitos de estudio.
Valorar la precisión de datos meteorológicos de diferentes fuentes y explicar las diferencias.
Indicador: Resuelve problemas estadísticos a partir de los datos presentados en artículos o reportes periodísticos.
Ejemplos prácticos:
Resolver un problema sobre promedios de consumo energético a partir de datos de un informe gubernamental.
Analizar datos de un artículo sobre contaminación y calcular promedios o porcentajes para proponer soluciones.
Usar estadísticas de un reporte sobre salud para identificar factores de riesgo y sugerir medidas preventivas.
Resolver problemas de probabilidad basados en datos de un estudio sobre accidentes de tránsito.
Aplicar medidas de tendencia central para comparar resultados de dos encuestas sobre hábitos de alimentación.
Indicador: Justifica la relevancia de los datos en la toma de decisiones basadas en estadísticas y analiza sus implicaciones.
Ejemplos prácticos:
Justificar la importancia de datos estadísticos en la decisión de implementar campañas de vacunación.
Analizar cómo las estadísticas de un informe pueden ayudar a mejorar políticas educativas.
Explicar la relevancia de datos sobre consumo de agua para tomar decisiones sobre ahorro energético.
Argumentar la importancia de datos confiables para decisiones en el área ambiental.
Discutir cómo la falta de datos precisos puede afectar decisiones en salud pública.
Indicador: Reflexiona sobre los principios éticos y la responsabilidad al interpretar datos de diversas fuentes.
Ejemplos prácticos:
Debatir sobre la responsabilidad de los medios al presentar datos estadísticos y evitar manipulaciones.
Reflexionar sobre la ética en la presentación de datos en investigaciones escolares.
Discutir las consecuencias de interpretar erróneamente estadísticas en decisiones públicas.
Analizar casos donde la mala interpretación de datos causó problemas sociales o económicos.
Redactar una reflexión personal sobre la importancia de ser crítico y cuidadoso con los datos estadísticos.
\(\textbf{Referencias}\)
[1] Llinás, Humberto. Estadística y Distribuciones de Probabilidad. Ediciones Uninorte. 2006.