Crear eventos a partir de un espacio muestral
Se crea un espacio muestral de alumno llamando una función que se encuentra en la dirección de github.com
Se carga ejecuntado la función
Se describen los datos con summary()
Se crean algunos eventos relativos al espacio muestral
Al hacer diseños experimentales, estudios observacioinales y estudios retrospectivos. el resultado final es un conjunto de datos que, por supuesto, está sujeto a la incertidumbre.
Aunque sólo uno de ellos tiene la palabra experimento en su descripción, el proceso de generar los datos o el proceso de observarlos forma parte de un experimento. (Walpole, Myers, and Myers 2012).
El espacio muestral se define con una literal matemática \(S\) e implica el conjunto de todos los resultados posibles de un experimento estadístico se le llama el espacio muestral y se representa con el símbolo S. (Mendenhall, Beaver, and Beaver 2010).
A cada resultado en el espacio muestral se le llama elemento o miembro del espacio muestral, o simplemente punto muestral. Si el espacio muestral tiene un número finito de elementos, podemos listar los miembros separados por comas y encerrarlos entre llaves.
La imagen siguiente identifica que el resultado de un experimento es el espacio muestral a partir de ahí se puede construir eventos que se utilizan para calcular probabilidades.
Por consiguiente, el espacio muestral \(S\), es el conjunto de los resultados o eventos.
Cuando se lanza una moneda al aire, se puede describir como:
\[ S = \text{{'aguila', 'sello'}} \]
Por ejemplo si se construye todo el espacio muestral de tirar un solo dado y conocer los posibles resultados de los puntos que se ven cara arriba del dado, sería que un dado puede caer 1, 2, 3, 4, 5 o 6 entonces. Los valores del 1 al 6 son los puntos muestrales de \(S\).
\[ S = {1, 2, 3, 4, 5, 6} \]
Los espacios muestrales con un número grande o infinito de puntos muestrales se describen mejor mediante un enunciado o método de la regla.
Por ejemplo, si el conjunto de resultados posibles de un experimento fuera el conjunto de ciudades en el mundo con una población de más de un millón de habitantes, nuestro espacio muestral se escribiría como:
\[ S = \text{x | x ciudades con población de mas de un millón de habitantes} \]
Se lee: \(S\) es el conjunto de todas las x’s, tales que x es una ciudad con una población de más de un millón de habitantes.
Ahora bien, el concepto de eventos tiene que ver con un conjunto de
puntos muestrales.
Evento es un subjconjunto de todo el espacio muestral.
De tal forma que en el caso del experimento de tirar un dado, el espacio muestral puede tener a la vez tres eventos en los que le interese al investigador:
E2, los números impares, es decir los nones o que no son pares.
Entonces, se pueden identificar ciertos eventos del espacio muestral.
E1. Los alumnos con promedio mayor a 85.
E2. Los alumnos del género femenino.
E3. Los alumnos de la carrera de sistemas o de otra carrera:
E4: Los alumnos con peso igual o superior a 89 kgs.
Los eventos E1, E2, E3, E4 y cualquier otro evento siendo subconjuntos de todo el espacio muestral contienen puntos muestrales o elementos, que sirven para concluir con algunas ideas, además estos eventos pueden conbinarse unos con otros de tal forma que pueden conformar otros eventos o conjuntos o enriquecer aún más las ideas concluyentes.
Antes de ver algunos ejemplos se recomienda entender la función which() que se utiliza para determinar posiciones de un vector bajo una expresión de comparación. Luego esas posiciones sirven para acceder a los elementos de un vector.
Se presenta un ejercicio para probar la función which().
La función which() devuelve la posición o índice (index) de un elemento dentro de un vector, ejemplo, se tienen 12 números:
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 30 | 40 | 50 | 60 | 20 | 10 | 40 | 20 | 50 | 40 | 60 | 50 |
Sólo las posiciones 1, 5, 6 y 8 tienen valores por debajo de 40 que equivalen a 30, 20, 10 y 20 respectivamente.
Con la función which() se encuentran las posiciones de ese vector y luego haciendo uso de [posiciones] se encuentran los valores que están por debajo de 40.
numeros <- c(30, 40, 50, 60, 20, 10, 40, 20, 50, 40, 60, 50)
numeros
## [1] 30 40 50 60 20 10 40 20 50 40 60 50
n <- length(numeros)
posiciones <- which(numeros < 40)
paste("Las posiciones o índices (index)")
## [1] "Las posiciones o índices (index)"
posiciones
## [1] 1 5 6 8
numeros[posiciones]
## [1] 30 20 10 20
Se construye espacios muestrales y alguno eventos respectivos de experimentos de lanzar un dado y de contar alumnos inscritos en una institución de educación superior.
El espacio muestral de tirar un dado y sus seis posbles valores que pueda caer.
S <- c(1, 2, 3, 4, 5, 6)
S
## [1] 1 2 3 4 5 6
Regresando al caso del dado. Con esa misma función which() se construyen los eventos para el caso de un solo dado.
El operador %in% evalúa si los valores de S están en el vector c(2,4,5). Con la función paste() se muestra el mensaje.
pares <- S[which(S %in% c(2, 4, 6))]
pares
## [1] 2 4 6
paste("Los números pares ")
## [1] "Los números pares "
paste(pares)
## [1] "2" "4" "6"
paste("Existen ", length(pares), " puntos muestrales del total de ", length(S) , " Que tiene S")
## [1] "Existen 3 puntos muestrales del total de 6 Que tiene S"
El operador %in% evalúa si los valores de S están en el vector c(1, 3, 5). Con la función paste() se muestra el mensaje.
nones <- S[which(S %in% c(1, 3, 5))]
paste("Los n´meros impares")
## [1] "Los n´meros impares"
paste(nones)
## [1] "1" "3" "5"
paste("Existen ", length(nones), " puntos muestrales del total de ", length(5), " que tiene S")
## [1] "Existen 3 puntos muestrales del total de 1 que tiene S"
El operador < evalúa si los valores de S están por debajo de cuatro.
menor.cuatro <- S[which(S < 4)]
menor.cuatro
## [1] 1 2 3
paste(menor.cuatro)
## [1] "1" "2" "3"
paste("Existen ", length(menor.cuatro), " puntos muestrales del total de ", length(5) , " que tiene S")
## [1] "Existen 3 puntos muestrales del total de 1 que tiene S"
paste("Existen ", length(menor.cuatro), " puntos muestrales del total de ", length(S), " que tiene S")
## [1] "Existen 3 puntos muestrales del total de 6 que tiene S"
Crear espacio muestral alumnos
\[ S = alumnos = \text{{x | x son estudiantes inscritos en una institucion educativa de nivel superior}} \]
Se carga la función que se encuentra en github.com
source("https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/funciones/funcion%20crea%20alumnos.r")
Se crea un conjunto de datos en un data.frame llamado alumnos
alumnos <- genAlumnos(10000, 2022)
Factorizar significa categorizar variables que son de tipo character o textos y se puede utilizar para identificar frecuencias con datos character y/o tipo factor con la función summary().
Utilizar la función as.factor() para factorizar o categorizar en estadística y en el ámbito de ciencia de los datos significa limpiar datos, transformar datos y preparar datos para realiar análisis posteriores.
alumnos$matricula <- as.factor(alumnos$matricula)
alumnos$carrera <- as.factor(alumnos$carrera)
alumnos$genero <- as.factor(alumnos$genero)
head(alumnos, 10)
## matricula carrera genero promedio edad peso altura
## 1 1 CIVIL F 89.12 22 64.06 164.06
## 2 2 BIOQUIMICA M 81.94 20 80.09 180.09
## 3 3 INDUSTRIAL F 82.89 20 57.78 157.78
## 4 4 SISTEMAS M 81.00 20 76.73 176.73
## 5 5 CIVIL M 84.85 21 79.50 179.50
## 6 6 ELECTRONICA F 75.95 18 55.24 155.24
## 7 7 TIC F 82.33 20 58.22 158.22
## 8 8 SISTEMAS M 86.96 21 77.65 177.65
## 9 9 MECANICA F 88.60 22 61.16 161.16
## 10 10 INFORMATICA F 86.84 21 59.96 159.96
tail(alumnos, 10)
## matricula carrera genero promedio edad peso altura
## 9991 9991 MECATRONICA M 80.73 19 82.04 182.04
## 9992 9992 SISTEMAS M 85.91 21 79.07 179.07
## 9993 9993 ELECTRICA M 90.20 22 82.24 182.24
## 9994 9994 ELECTRICA M 87.20 21 85.16 185.16
## 9995 9995 BIOQUIMICA M 86.34 21 80.41 180.41
## 9996 9996 ELECTRICA M 85.97 21 78.69 178.69
## 9997 9997 TIC F 91.70 23 63.88 163.88
## 9998 9998 TIC M 81.51 20 82.62 182.62
## 9999 9999 INDUSTRIAL F 85.61 21 59.27 159.27
## 10000 10000 INDUSTRIAL M 85.77 21 80.56 180.56
str() muestra la estructura de los datos.
str(alumnos)
## 'data.frame': 10000 obs. of 7 variables:
## $ matricula: Factor w/ 10000 levels "1","2","3","4",..: 1 2 3 4 5 6 7 8 9 10 ...
## $ carrera : Factor w/ 13 levels "ADMINISTRACION",..: 4 3 7 12 4 6 13 12 9 8 ...
## $ genero : Factor w/ 2 levels "F","M": 1 2 1 2 2 1 1 2 1 1 ...
## $ promedio : num 89.1 81.9 82.9 81 84.8 ...
## $ edad : num 22 20 20 20 21 18 20 21 22 21 ...
## $ peso : num 64.1 80.1 57.8 76.7 79.5 ...
## $ altura : num 164 180 158 177 180 ...
La función summary() identifica los principales estadísticos descriptivos de los datos.
summary(alumnos)
## matricula carrera genero promedio edad
## 1 : 1 MECATRONICA: 818 F:4981 Min. :73.38 Min. :17.00
## 2 : 1 MECANICA : 805 M:5019 1st Qu.:83.65 1st Qu.:20.00
## 3 : 1 SISTEMAS : 793 Median :85.97 Median :21.00
## 4 : 1 QUIMICA : 790 Mean :85.97 Mean :20.99
## 5 : 1 BIOQUIMICA : 783 3rd Qu.:88.30 3rd Qu.:22.00
## 6 : 1 ELECTRONICA: 782 Max. :99.46 Max. :25.00
## (Other):9994 (Other) :5229
## peso altura
## Min. :51.80 Min. :151.8
## 1st Qu.:60.01 1st Qu.:160.0
## Median :72.03 Median :172.0
## Mean :70.03 Mean :170.0
## 3rd Qu.:80.09 3rd Qu.:180.1
## Max. :92.28 Max. :192.3
##
Se crean los eventos de alumnos
Con la función subset() se filtran o seleccionan registros con una condición dada.
Con la función nrow() se determinan la cantidad de registros de sistemas. nrow() actúa sobre un data.frame y lenght() sobre un vector.
sistemas <- subset(alumnos, carrera == 'SISTEMAS')
nrow(sistemas)
## [1] 793
summary(sistemas)
## matricula carrera genero promedio edad
## 4 : 1 SISTEMAS :793 F:390 Min. :73.96 Min. :18.00
## 8 : 1 ADMINISTRACION: 0 M:403 1st Qu.:83.69 1st Qu.:20.00
## 31 : 1 ARQUITECTURA : 0 Median :85.98 Median :21.00
## 33 : 1 BIOQUIMICA : 0 Mean :85.93 Mean :20.98
## 94 : 1 CIVIL : 0 3rd Qu.:88.38 3rd Qu.:22.00
## 113 : 1 ELECTRICA : 0 Max. :95.63 Max. :24.00
## (Other):787 (Other) : 0
## peso altura
## Min. :52.16 Min. :152.2
## 1st Qu.:60.04 1st Qu.:160.0
## Median :73.66 Median :173.7
## Mean :70.17 Mean :170.2
## 3rd Qu.:80.15 3rd Qu.:180.2
## Max. :89.54 Max. :189.5
##
femeninos <- subset(alumnos, genero == 'F')
summary(femeninos)
## matricula carrera genero promedio edad
## 1 : 1 MECATRONICA: 411 F:4981 Min. :73.61 Min. :17.00
## 3 : 1 MECANICA : 406 M: 0 1st Qu.:83.66 1st Qu.:20.00
## 6 : 1 INFORMATICA: 401 Median :85.96 Median :21.00
## 7 : 1 BIOQUIMICA : 399 Mean :85.97 Mean :20.99
## 9 : 1 CIVIL : 394 3rd Qu.:88.32 3rd Qu.:22.00
## 10 : 1 ELECTRONICA: 390 Max. :99.46 Max. :25.00
## (Other):4975 (Other) :2580
## peso altura
## Min. :51.80 Min. :151.8
## 1st Qu.:58.46 1st Qu.:158.5
## Median :60.00 Median :160.0
## Mean :59.97 Mean :160.0
## 3rd Qu.:61.47 3rd Qu.:161.5
## Max. :67.69 Max. :167.7
##
masculinos <- subset(alumnos, genero == 'M')
summary(masculinos)
## matricula carrera genero promedio edad
## 2 : 1 MECATRONICA: 407 F: 0 Min. :73.38 Min. :17.00
## 4 : 1 QUIMICA : 405 M:5019 1st Qu.:83.63 1st Qu.:20.00
## 5 : 1 SISTEMAS : 403 Median :85.98 Median :21.00
## 8 : 1 TIC : 400 Mean :85.97 Mean :20.99
## 11 : 1 MECANICA : 399 3rd Qu.:88.30 3rd Qu.:22.00
## 12 : 1 ELECTRICA : 397 Max. :97.22 Max. :24.00
## (Other):5013 (Other) :2608
## peso altura
## Min. :68.48 Min. :168.5
## 1st Qu.:77.88 1st Qu.:177.9
## Median :80.07 Median :180.1
## Mean :80.01 Mean :180.0
## 3rd Qu.:82.19 3rd Qu.:182.2
## Max. :92.28 Max. :192.3
##
Se simulan dos experimentos: el primero es tirar un dado y se identifica su espacio muestral y el segundo es los estudiantes que son espacio muestral de alumnos inscritos.
Se construyeron espacios muestrales de dados siendo 6 los puntos muestrales del dado y 5000 de alumnos
A partir de los espacios muestrales se construyeron eventos
El espacio muestral del dado su estructura es un vector y el espacio muestral de alumnos la estructura es un data.frame.
Modificar con una valor de 10000 alumnos nn del espacio muestral y semilla de 2022 conteste lo siguiente:
¿Cuántos alumnos son del género Femenino y en qué porcentaje %?. Salieron F:4981 y representa 49.81%.
¿Cuántos alumnos son del género Masculino y en qué porcentaje %? 5019 y representa el 50.19%
¿Cuántos alumnos tiene promedio mayor que 92 y en qué porcentaje %?
¿Cuántos alumnos son de la carrera de SISTEMAS y en qué porcentaje?, Son SISTEMAS :793 y represena el 7.93%
¿Hay más alumnos de SISTEMAS o de CIVIL? Hay mas de sistemas 793 con respecto a los de civil que son 728.
¿Cuántos alumnos están por encima del 180 cms? 2559 alumnos miden mas de 18 cms. y representan el 25.59%
Se genera una población de 12 números y luego con la condición which() se determina la posición de los datos que se requiere analizar y utilizando la nomenclatura de los vectores se puede extraer el dato de dicho vector.Dando como resultado que en el vector números en la posición 1, 5, 6, 8 los datos son menores a 40 con 30, 20, 10, 20 respectivamente. Un espacio muestral se puede generar utilizando el mismo tipo de condiciones por ejemplo pares y nones. Se crea un vector que representa las caras de un dado y se evalúan los eventos pares e impares y se determina que hay 3 puntos muestrales por cada condición. También se pueden evaluar otra clase de condiciones como avaluar respecto a un valor, si es menor o mayor y cuantos hay menores o mayores tanto en valor como en posición del vector. Se cargan datos desde el link de github y se genera un data.frame clasificando los datos de la siguiente manera: {matrícula, carrera, genero}, luego se muestran los primeros 10 datos iniciales y luego los últimos 10. Se muestra la estructura de los datos en dónde podemos identificar que hay 10000 datos registrados y con summary() se hace una descripción general de los datos. Sigue identificar los datos por carrera así que se elige sistemas y hacemos un conteo de los datos dando como resultado que hay 793 alumnos en sistemas. Ahora hacemos lo mismo con el evento femenino y masculino dando como resultado lo siguiente.