1 Objetivo

Crear eventos a partir de un espacio muestral de alumnos.

2 Descripción

  • Se crea un espacio muestral de alumno llamando una función que se encuentra en la dirección de github.com

  • Se carga ejecutando la función

  • Se describen los datos con summary()

  • Se crean algunos eventos relativos al espacio muestral

3 Fundamento teórico

Al hacer diseños experimentales, estudios observacionales y estudios retrospectivos, el resultado final es un conjunto de datos que, por supuesto, está sujeto a la incertidumbre.

Aunque sólo uno de ellos tiene la palabra experimento en su descripción, el proceso de generar los datos o el proceso de observarlos forma parte de un experimento. [@walpole2012].

El espacio muestral se define con una literal matemática \(S\) e implica el conjunto de todos los resultados posibles de un experimento estadístico se le llama El espacio muestral y se representa con el símbolo S. [@mendenhall2010].

A cada resultado en un espacio muestral se le llama elemento o miembro del espacio muestral, o simplemente punto muestral. Si el espacio muestral tiene un número finito de elementos, podemos listar los miembros separados por comas y encerrarlos entre llaves.

Por consiguiente, el espacio muestral \(S\), es el conjunto de los resultados posibles o eventos.

Cuando se lanza una moneda al aire, se puede escribir como:

\[ S = \text{{'aguila', 'sello'}} \]

Por ejemplo si se construye todo el espacio muestral de tirar un solo dado y conocer las posibles resultados de los puntos que se ven cara arriba del dado, sería que un dado puede caer 1, 2, 3, 4, 5 o 6 entonces. Los valores del 1 al 6 son los puntos muestrales de \(S\).

\[ S = {1, 2, 3, 4, 5, 6} \]

Los espacios muestrales con un número grande o infinito de puntos muestrales se describen mejor mediante un enunciado o método de la regla.

Por ejemplo, si el conjunto de resultados posibles de un experimento fuera el conjunto de ciudades en el mundo con una población de más de un millón de habitantes, nuestro espacio muestral se escribiría como:

\[ S = \text{x | x ciudades con pobación de mas de un millón de habitantes} \]

Se lee: \(S\) es el conjunto de todas las x’s, tales que x es una ciudad con una población de más de un millón de habitantes.

Ahora bien, el concepto de eventos tiene que ver con un conjunto de puntos muestrales. Evento es un subconjunto de todo el espacio muestral.

De tal forma que en el caso del experimento de tirar un dado, el espacio muestral

Puede tener tal vez tres eventos en los que le interese al investigador:

E2, los números impares, es decir los nones o que no son pares.

Entonces, se pueden identificar ciertos eventos del espacio muestral.

E1: Los alumnos con promedio mayor a 85

E2: Los alumnos del género femenino

E3: Los alumnos de la carrera de sistemas o de otra carrera;

E4: Los alumnos con peso igual o superior a 80 kgs ;

Los eventos E1, E2, E3, E4 y cualquier otro evento siendo subconjuntos de todo el espacio muestral contienen puntos muestrales o elementos, que sirven para concluir con algunas ideas, además, estos eventos pueden combinarse unos con otros de tal forma que pueden conformar otros eventos o conjuntos y enriquecer aún más las ideas concluyentes.

4 Desarrollo

4.1 Función which()

La función which() nos permite determinar el índice o la posición de un elemento que se encuentre dentro de un vector o un arreglo de datos, esto a partir de una expresión de comparación. Una vez conociendo las posiciones, podemos hacer el llamado a los elementos que necesitemos.

Se presenta un ejercicio para probar la función which().

La función which() devuelve la posición o índice (index) de un elemento dentro de un vector, ejemplo, se tienen 12 números:

1 2 3 4 5 6 7 8 9 10 11 12
13 20 60 10 5 9 24 19 25 42 3 15

Las posiciones 1, 4, 5, 6, 8, 11 y 12 tienen valores por debajo de 20, los cuales equivalen a 13, 10, 5, 9, 19, 3 y 15 respectivamente.

Con la función which() se encuentran las posiciones de ese vector y luego haciendo uso de [posiciones] se encuentran los valores que están por debajo de 20.

Conjunto.Numeros <- c(13,20,60,10,5,9,24,19,25,42,3,15)
Conjunto.Numeros
##  [1] 13 20 60 10  5  9 24 19 25 42  3 15
#Longitu del conjunto de numeros
Cant.Elementos.Numeros <- length(Conjunto.Numeros)

4.2 Posiciones y Valores con which()

Ahora, con el uso de la función which() obtenemos las posiciones de los números que necesitamos, y por ende conoceremos dichos valores que concuerden o cumplan con la condición que nosotros establezcamos.

Posiciones <- which(Conjunto.Numeros < 20)#Indicamos que nos de las posiciones de los numeros menores a 20
paste("Las posiciones o índices de los elementos son:")
## [1] "Las posiciones o índices de los elementos son:"
Posiciones
## [1]  1  4  5  6  8 11 12
Conjunto.Numeros[Posiciones]#Con esto nos muestra tanto el indice de los numeros como su valor
## [1] 13 10  5  9 19  3 15

4.3 Espacios muestrales

Se construye espacios muestrales y alguno eventos respectivos de experimentos de lanzar un dado y de contar alumnos inscritos en una institución de educación superior.

4.3.1 Dados

El espacio muestral de tirar un dado y sus seis posibles valores que pueda caer.

S <- c(1,2,3,4,5,6)
S
## [1] 1 2 3 4 5 6

4.3.1.1 Evento Pares

Regresando al caso del dado. Con esa misma función which() se construyen los eventos para el caso de un solo dado.

El operador %in% evalúa si los valores de S están en el vector (en este caso) c(2,4,5). Con la función paste() se muestra el mensaje.

Numeros.Pares <- S[which(S %in% c(2,4,6))]#Aqui se hace la peticion para saber si existen ciertos valores dentro de un conjunto de datos (en este caso saber si hay numeros pares)
Numeros.Pares
## [1] 2 4 6
paste("Los números pares son:")
## [1] "Los números pares son:"
paste(Numeros.Pares)
## [1] "2" "4" "6"
paste("Existen ",length(Numeros.Pares), "puntos muestrales del total de ",length(S)," que tiene *S*")
## [1] "Existen  3 puntos muestrales del total de  6  que tiene *S*"

4.3.1.2 Evento Nones

El operador %in% evalúa si los valores de S están en el vector c(1,3,5). Con la función paste() se muestra el mensaje.

Numeros.Nones <- S[which(S %in% c(1,3,5))]
paste("Los números impares son:")
## [1] "Los números impares son:"
paste(Numeros.Nones)
## [1] "1" "3" "5"
paste("Existen ",length(Numeros.Nones)," puntos muestrales del total de ",length(S)," que tiene *S*")
## [1] "Existen  3  puntos muestrales del total de  6  que tiene *S*"

4.3.1.3 Evento Menores a 4

El operador < evalúa si los valores de S están por debajo de cuatro.

Menor.Cuatro <- S[which(S < 4)]
Menor.Cuatro
## [1] 1 2 3
paste(Menor.Cuatro)
## [1] "1" "2" "3"
paste("Existen ", length(Menor.Cuatro), " puntos muestrales del total de ", length(S) , " que tiene S")
## [1] "Existen  3  puntos muestrales del total de  6  que tiene S"

4.3.2 Alumnos

En este caso crearemos un espacio muestral de una cantidad de alumnos:

\[ S = alumnos = \text{{x | x son estudiantes inscritos en una institución educativa de nivel superior}} \]

4.3.2.1 Cargar la función

Utilizaremos una función que se encuentra en una dirección web:

source("https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/funciones/funcion%20crea%20alumnos.r")

4.3.2.2 Crear data.frame alumnos

Ahora creamos un conjunto de datos (o un data.frame) al cual le daremos el nombre de Alumnos (para este caso diremos que hay 10,000 alumnos)

#La función que nos permite generar el data.frame requiere de dos argumentos: el primero se refiere a la cantidad de alumnos que registraremos, y el segundo sera una semilla para asegurarse que los datos generados sean siempre los mismos
Alumnos <- genAlumnos(10000,202202)
4.3.2.2.1 Factorizar Alumnos

Factorizar significa categorizar variables que son de tipo character o textos y se puede utilizar para identificar frecuencias con datos character y/o tipo factor con la función summary().

Utilizar la función as.factor() para factorizar o categorizar en estadística y en el ámbito de ciencia de los datos significa limpiar datos, transformar datos y preparar datos para realizar análisis posteriores.

Alumnos$matricula <- as.factor(Alumnos$matricula)
Alumnos$carrera <- as.factor(Alumnos$carrera)
Alumnos$genero <- as.factor(Alumnos$genero)

4.3.2.3 Mostrar diez registros iniciales

head(Alumnos,10)
##    matricula        carrera genero promedio edad  peso altura
## 1          1    INFORMATICA      F    82.87   20 61.70 161.70
## 2          2     INDUSTRIAL      F    80.93   20 62.35 162.35
## 3          3       MECANICA      M    87.68   21 84.59 184.59
## 4          4    INFORMATICA      M    80.76   19 80.33 180.33
## 5          5            TIC      F    87.90   22 57.51 157.51
## 6          6            TIC      F    92.63   23 59.36 159.36
## 7          7 ADMINISTRACION      F    81.05   20 58.45 158.45
## 8          8      ELECTRICA      F    87.26   21 62.12 162.12
## 9          9    ELECTRONICA      M    78.61   19 78.80 178.80
## 10        10          CIVIL      M    87.92   22 82.69 182.69

4.3.2.4 Mostrar diez registros finales

tail(Alumnos,10)
##       matricula        carrera genero promedio edad  peso altura
## 9991       9991    MECATRONICA      M    84.54   21 79.58 179.58
## 9992       9992            TIC      M    87.31   21 81.88 181.88
## 9993       9993    MECATRONICA      F    85.78   21 60.73 160.73
## 9994       9994        QUIMICA      F    85.17   21 62.26 162.26
## 9995       9995 ADMINISTRACION      M    83.01   20 80.93 180.93
## 9996       9996      ELECTRICA      F    86.69   21 58.68 158.68
## 9997       9997       SISTEMAS      M    86.78   21 81.27 181.27
## 9998       9998            TIC      F    87.43   21 64.35 164.35
## 9999       9999    INFORMATICA      M    89.62   22 74.78 174.78
## 10000     10000   ARQUITECTURA      M    86.16   21 78.29 178.29

4.3.2.5 Estructura de los Datos

Utilizamos la función str() que nos creara una estructura más formal de los datos que tenemos en Alumnos

str(Alumnos)
## 'data.frame':    10000 obs. of  7 variables:
##  $ matricula: Factor w/ 10000 levels "1","2","3","4",..: 1 2 3 4 5 6 7 8 9 10 ...
##  $ carrera  : Factor w/ 13 levels "ADMINISTRACION",..: 8 7 9 8 13 13 1 5 6 4 ...
##  $ genero   : Factor w/ 2 levels "F","M": 1 1 2 2 1 1 1 1 2 2 ...
##  $ promedio : num  82.9 80.9 87.7 80.8 87.9 ...
##  $ edad     : num  20 20 21 19 22 23 20 21 19 22 ...
##  $ peso     : num  61.7 62.4 84.6 80.3 57.5 ...
##  $ altura   : num  162 162 185 180 158 ...

4.3.2.6 Describir los Datos

Utilizamos la función summary() para identificar los estadisticos principales del conjunto de datos Alumnos:

summary(Alumnos)
##    matricula              carrera     genero      promedio           edad      
##  1      :   1   MECANICA      : 809   F:4979   Min.   : 73.43   Min.   :17.00  
##  2      :   1   ADMINISTRACION: 799   M:5021   1st Qu.: 83.65   1st Qu.:20.00  
##  3      :   1   ARQUITECTURA  : 798            Median : 85.99   Median :21.00  
##  4      :   1   INFORMATICA   : 793            Mean   : 85.98   Mean   :20.99  
##  5      :   1   MECATRONICA   : 792            3rd Qu.: 88.33   3rd Qu.:22.00  
##  6      :   1   CIVIL         : 789            Max.   :100.25   Max.   :25.00  
##  (Other):9994   (Other)       :5220                                            
##       peso           altura     
##  Min.   :52.82   Min.   :152.8  
##  1st Qu.:59.90   1st Qu.:159.9  
##  Median :71.48   Median :171.5  
##  Mean   :70.01   Mean   :170.0  
##  3rd Qu.:80.04   3rd Qu.:180.0  
##  Max.   :90.95   Max.   :190.9  
## 

4.3.3 Eventos de alumnos

Se crean los eventos de alumnos

4.3.3.1 Alumnos de una carrera ‘SISTEMAS’

Con la función subset() se filtran o seleccionan registros con una condición dada.

Con la función nrow() se determinan la cantidad de registros de Sistemas. nrow() actúa sobre un data.frame y lenght() sobre un vector.

Sistemas <- subset(Alumnos, carrera == 'SISTEMAS')
nrow(Sistemas)
## [1] 756
summary(Sistemas)
##    matricula             carrera    genero     promedio          edad      
##  33     :  1   SISTEMAS      :756   F:363   Min.   :74.34   Min.   :18.00  
##  36     :  1   ADMINISTRACION:  0   M:393   1st Qu.:83.58   1st Qu.:20.00  
##  52     :  1   ARQUITECTURA  :  0           Median :85.95   Median :21.00  
##  76     :  1   BIOQUIMICA    :  0           Mean   :85.85   Mean   :20.97  
##  87     :  1   CIVIL         :  0           3rd Qu.:88.01   3rd Qu.:22.00  
##  113    :  1   ELECTRICA     :  0           Max.   :95.62   Max.   :24.00  
##  (Other):750   (Other)       :  0                                          
##       peso           altura     
##  Min.   :53.84   Min.   :153.8  
##  1st Qu.:59.88   1st Qu.:159.9  
##  Median :73.89   Median :173.9  
##  Mean   :70.16   Mean   :170.2  
##  3rd Qu.:79.85   3rd Qu.:179.8  
##  Max.   :88.52   Max.   :188.5  
## 

4.3.3.2 Evento femeninos

Femeninos <- subset(Alumnos, genero == 'F')
summary(Femeninos)
##    matricula              carrera     genero      promedio          edad      
##  1      :   1   MECANICA      : 413   F:4979   Min.   :73.43   Min.   :17.00  
##  2      :   1   INDUSTRIAL    : 411   M:   0   1st Qu.:83.65   1st Qu.:20.00  
##  5      :   1   ADMINISTRACION: 408            Median :85.97   Median :21.00  
##  6      :   1   INFORMATICA   : 406            Mean   :85.98   Mean   :20.99  
##  7      :   1   TIC           : 401            3rd Qu.:88.37   3rd Qu.:22.00  
##  8      :   1   ARQUITECTURA  : 393            Max.   :97.99   Max.   :24.00  
##  (Other):4973   (Other)       :2547                                           
##       peso           altura     
##  Min.   :52.82   Min.   :152.8  
##  1st Qu.:58.46   1st Qu.:158.5  
##  Median :59.89   Median :159.9  
##  Mean   :59.93   Mean   :159.9  
##  3rd Qu.:61.43   3rd Qu.:161.4  
##  Max.   :68.40   Max.   :168.4  
## 

4.3.3.3 Evento masculinos

Masculinos <- subset(Alumnos, genero == 'M')
summary(Masculinos)
##    matricula            carrera     genero      promedio           edad      
##  3      :   1   ARQUITECTURA: 405   F:   0   Min.   : 74.62   Min.   :18.00  
##  4      :   1   MECATRONICA : 405   M:5021   1st Qu.: 83.66   1st Qu.:20.00  
##  9      :   1   CIVIL       : 401            Median : 86.02   Median :21.00  
##  10     :   1   ELECTRICA   : 397            Mean   : 85.97   Mean   :20.99  
##  15     :   1   MECANICA    : 396            3rd Qu.: 88.29   3rd Qu.:22.00  
##  16     :   1   SISTEMAS    : 393            Max.   :100.25   Max.   :25.00  
##  (Other):5015   (Other)     :2624                                            
##       peso           altura     
##  Min.   :68.53   Min.   :168.5  
##  1st Qu.:77.86   1st Qu.:177.9  
##  Median :80.02   Median :180.0  
##  Mean   :80.01   Mean   :180.0  
##  3rd Qu.:82.14   3rd Qu.:182.1  
##  Max.   :90.95   Max.   :190.9  
## 

5 Interpretación

Se simulan dos experimentos: el primero es tirar un dado y se identifica su espacio muestral y el segundo es los estudiantes que son espacio muestral de alumnos inscritos.

Se construyeron espacios muestrales de dados siendo 6 los puntos muestrales del dado y 10,000 de alumnos

A partir de los espacios muestrales se construyeron eventos

El espacio muestral del dado su estructura es un vector y el espacio muestral de alumnos la estructura es un data.frame.

Modificar con una valor de 10000 alumnos \(n\) del espacio muestral y semilla de 2022 conteste lo siguiente:

  • ¿Cuántos alumnos son del género Femenino y en qué porcentaje %? Hay 4979 alumnas inscritas en el Instituto, y representan el 49.8% del total de alumnos inscritos.

  • ¿Cuántos alumnos son del género Masculino y en qué porcentaje %? Hay 5021 alumnos inscritos, y estos cabernicolas representan el 50.2% del total de alumnos que tiene el ITD.

  • ¿Cuántos alumnos tiene promedio mayor que 92 y en qué porcentaje %? No estoy seguro pero segun mis cuentas hay aproximadamente 477 alumnos con un promedio mayor a 92, y representarian el 4.77% del total de alumnos, aproximadamente.

library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
frecuencia <- fdt(x=Alumnos$promedio,breaks='Sturges' )
frecuencia
##       Class limits    f   rf rf(%)    cf  cf(%)
##  [72.6957,74.5995)    3 0.00  0.03     3   0.03
##  [74.5995,76.5033)   30 0.00  0.30    33   0.33
##  [76.5033,78.4071)  119 0.01  1.19   152   1.52
##  [78.4071,80.3108)  350 0.04  3.50   502   5.02
##  [80.3108,82.2146)  886 0.09  8.86  1388  13.88
##  [82.2146,84.1184) 1574 0.16 15.74  2962  29.62
##  [84.1184,86.0222) 2090 0.21 20.90  5052  50.52
##   [86.0222,87.926) 2076 0.21 20.76  7128  71.28
##   [87.926,89.8298) 1553 0.16 15.53  8681  86.81
##  [89.8298,91.7336)  842 0.08  8.42  9523  95.23
##  [91.7336,93.6374)  353 0.04  3.53  9876  98.76
##  [93.6374,95.5411)  103 0.01  1.03  9979  99.79
##  [95.5411,97.4449)   18 0.00  0.18  9997  99.97
##  [97.4449,99.3487)    2 0.00  0.02  9999  99.99
##  [99.3487,101.252)    1 0.00  0.01 10000 100.00
  • ¿Cuántos alumnos son de la carrera de SISTEMAS y en qué porcentaje? Hay una cantidad de 756 alumnos pertenecientes a la carrera de Sistemas, y representan un 7.56% del total de alumnos inscritos en el Instituto.

  • ¿Hay más alumnos de SISTEMAS o de CIVIL? La carrera de Ingenieria CIVIL tiene más alumnos que la carrera de Ingenieria en SISTEMAS (CIVIL - 789 Alumnos, SISTEMAS - 756 Alumnos).

  • ¿Cuántos alumnos están por encima del 180 cms? Aproximadamente hay una cantidad de 3,150 alumnos con estaturas mayores a 1,80 m, y a manera de porcentaje representarian aproximadamente el 31.5% del total de alumnos.

alturas <- fdt(x=Alumnos$altura,breaks = 'Sturges')
alturas
##       Class limits    f   rf rf(%)    cf  cf(%)
##  [151.292,154.063)   15 0.00  0.15    15   0.15
##  [154.063,156.834)  368 0.04  3.68   383   3.83
##  [156.834,159.605) 1838 0.18 18.38  2221  22.21
##  [159.605,162.377) 2105 0.21 21.05  4326  43.26
##  [162.377,165.148)  598 0.06  5.98  4924  49.24
##  [165.148,167.919)   53 0.01  0.53  4977  49.77
##   [167.919,170.69)    9 0.00  0.09  4986  49.86
##   [170.69,173.461)   85 0.01  0.85  5071  50.71
##  [173.461,176.232)  497 0.05  4.97  5568  55.68
##  [176.232,179.004) 1282 0.13 12.82  6850  68.50
##  [179.004,181.775) 1707 0.17 17.07  8557  85.57
##  [181.775,184.546) 1049 0.10 10.49  9606  96.06
##  [184.546,187.317)  348 0.03  3.48  9954  99.54
##  [187.317,190.088)   41 0.00  0.41  9995  99.95
##  [190.088,192.859)    5 0.00  0.05 10000 100.00