1 Objetivo

Crear eventos a partir de un espacio muestral de alumnos.

2 Descripción

Se crea un espacio muestral de alumno llamando una función que se encuentra en la dirección de github.com
Se carga ejecutando la función
Se describen los datos con summary()
Se crean algunos eventos relativos al espacio muestral

3 Fundamento teórico

Al hacer diseños experimentales, estudios observacionales y estudios retrospectivos, el resultado final es un conjunto de datos que, por supuesto, está sujeto a la incertidumbre.

Aunque sólo uno de ellos tiene la palabra experimento en su descripción, el proceso de generar los datos o el proceso de observarlos forma parte de un experimento. [@walpole2012].

El espacio muestral se define con una literal matemática \(S\)e implica el conjunto de todos los resultados posibles de un experimento estadístico se le llama El espacio muestral y se representa con el símbolo S. [@mendenhall2010].

A cada resultado en un espacio muestral se le llama elemento o miembro del espacio muestral, o simplemente punto muestral. Si el espacio muestral tiene un número finito de elementos, podemos listar los miembros separados por comas y encerrarlos entre llaves.

La imagen siguiente identifica que el resultado de un experimento es el espacio muestral a partir de ahí se puede construir eventos que se utilizan para calcular probabilidades.

Por consiguiente, el espacio muestral \(S\), es el conjunto de los resultados posibles o eventos.

Cuando se lanza una moneda al aire, se puede escribir como:

\[ S = \text{{'aguila', 'sello'}} \]

Por ejemplo si se construye todo el espacio muestral de tirar un solo dado y conocer las posibles resultados de los puntos que se ven cara arriba del dado, sería que un dado puede caer 1, 2, 3, 4, 5 o 6 entonces. Los valores del 1 al 6 son los puntos muestrales de \(S\).

\[ S = {1, 2, 3, 4, 5, 6} \]

Los espacios muestrales con un número grande o infinito de puntos muestrales se describen mejor mediante un enunciado o método de la regla.

Por ejemplo, si el conjunto de resultados posibles de un experimento fuera el conjunto de ciudades en el mundo con una población de más de un millón de habitantes, nuestro espacio muestral se escribiría como:

\[ S = \text{x | x ciudades con pobación de mas de un millón de habitantes} \]

Se lee: \(S\) es el conjunto de todas las x’s, tales que x es una ciudad con una población de más de un millón de habitantes.

Ahora bien, el concepto de eventos tiene que ver con un conjunto de puntos muestrales. Evento es un subconjunto de todo el espacio muestral.

De tal forma que en el caso del experimento de tirar un dado, el espacio muestral

Puede tener tal vez tres eventos en los que le interese al investigador:

E2, los números impares, es decir los nones o que no son pares.

Entonces, se pueden identificar ciertos eventos del espacio muestral.

E1: Los alumnos con promedio mayor a 85

E2: Los alumnos del género femenino

E3: Los alumnos de la carrera de sistemas o de otra carrera;

E4: Los alumnos con peso igual o superior a 80 kgs ;

Los eventos E1, E2, E3, E4 y cualquier otro evento siendo subconjuntos de todo el espacio muestral contienen puntos muestrales o elementos, que sirven para concluir con algunas ideas, además, estos eventos pueden combinarse unos con otros de tal forma que pueden conformar otros eventos o conjuntos y enriquecer aún más las ideas concluyentes.

4 Desarrollo

4.1 Función which()

Antes de ver algunos ejemplos se recomienda entender la función which() que se utiliza para determinar posiciones de un vector bajo una expresión de comparación. Luego esas posiciones sirven para acceder a los elementos de un vector.

Se presenta un ejercicio para probar la función which().

La función which() devuelve la posición o índice (index) de un elemento dentro de un vector, ejemplo, se tienen 12 números:

1	2	3	4	5	6	7	8	9	10	11	12
30	40	50	60	20	10	40	20	50	40	60	50

Sólo las posiciones 1, 5, 6 y 8 tienen valores por debajo de 40 que equivalen a 30, 20, 10 y 20 respectivamente.

Con la función which() se encuentran las posiciones de ese vector y luego haciendo uso de [posiciones] se encuentran los valores que están por debajo de 40.

numeros <- c(30,40,50,60,20,10,40,20,50,40,60,50)
numeros

##  [1] 30 40 50 60 20 10 40 20 50 40 60 50

n <- length(numeros)

4.2 Posiciones y valores con which()

posiciones <- which(numeros < 40)
paste("Las posiciones o índices (index)")

## [1] "Las posiciones o índices (index)"

posiciones

## [1] 1 5 6 8

numeros[posiciones]

## [1] 30 20 10 20

4.3 Espacios muestrales

Se construye espacios muestrales y alguno eventos respectivos de experimentos de lanzar un dado y de contar alumnos inscritos en una institución de educación superior.

4.3.1 Dados

El espacio muestral de tirar un dado y sus seis posibles valores que pueda caer.

S <- c(1,2,3,4,5,6)
S

## [1] 1 2 3 4 5 6

4.3.1.1 Evento pares

Regresando al caso del dado. Con esa misma función which() se construyen los eventos para el caso de un solo dado.

El operador %in% evalúa si los valores de S están en el vector c(2,4,5). Con la función paste() se muestra el mensaje.

pares <- S[which(S %in% c(2, 4, 6))]
pares

## [1] 2 4 6

paste("Los números pares ")

## [1] "Los números pares "

paste(pares)

## [1] "2" "4" "6"

paste("Existen ", length(pares), " puntos muestrales del total de ", length(S) , " que tiene S")

## [1] "Existen  3  puntos muestrales del total de  6  que tiene S"

4.3.1.2 Evento nones

El operador %in% evalúa si los valores de S están en el vector c(1,3,5). Con la función paste() se muestra el mensaje.

nones <- S[which(S %in% c(1, 3, 5))]
paste("Los números impares ")

## [1] "Los números impares "

paste(nones)

## [1] "1" "3" "5"

paste("Existen ", length(nones), " puntos muestrales del total de ", length(S) , " que tiene S")

## [1] "Existen  3  puntos muestrales del total de  6  que tiene S"

4.3.1.3 Evento menores a 4

El operador < evalúa si los valores de S están por debajo de cuatro.

menor.cuatro <- S[which(S < 4)]
menor.cuatro

## [1] 1 2 3

paste(menor.cuatro)

## [1] "1" "2" "3"

paste("Existen ", length(menor.cuatro), " puntos muestrales del total de ", length(S) , " que tiene S")

## [1] "Existen  3  puntos muestrales del total de  6  que tiene S"

paste("Existen ", length(menor.cuatro), " puntos muestrales del total de ", length(S) , " que tiene S")

## [1] "Existen  3  puntos muestrales del total de  6  que tiene S"

4.3.2 Alumnos

Crear espacio muestral alumnos

\[ S = alumnos = \text{{x | x son estudiantes inscritos en una institución educativa de nivel superior}} \]

4.3.2.1 Cargar la función

Se carga la función que se encuentra en github.com

source("https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/funciones/funcion%20crea%20alumnos.r") 
library(fdth)

## 
## Attaching package: 'fdth'

## The following objects are masked from 'package:stats':
## 
##     sd, var

4.3.2.2 Crear data.frame alumnos

Se crea un conjunto de datos en un data.frame llamado alumnos.

alumnos <- genAlumnos(10000, 1137)

4.3.2.2.1 Factorizar alumnos

Factorizar significa categorizar variables que son de tipo character o textos y se puede utilizar para identificar frecuencias con datos character y/o tipo factor con la función summary().

Utilizar la función as.factor() para factorizar o categorizar en estadística y en el ámbito de ciencia de los datos significa limpiar datos, transformar datos y preparar datos para realizar análisis posteriores.

alumnos$matricula <- as.factor(alumnos$matricula)
alumnos$carrera <- as.factor(alumnos$carrera)
alumnos$genero <- as.factor(alumnos$genero)

4.3.2.3 Mostrar diez registros iniciales

head(alumnos, 10)

##    matricula      carrera genero promedio edad  peso altura
## 1          1 ARQUITECTURA      M    84.48   21 74.78 174.78
## 2          2        CIVIL      F    86.52   21 54.22 154.22
## 3          3     MECANICA      M    83.40   20 80.08 180.08
## 4          4    ELECTRICA      M    87.63   21 82.68 182.68
## 5          5   BIOQUIMICA      F    82.28   20 63.20 163.20
## 6          6        CIVIL      F    89.65   22 57.99 157.99
## 7          7  MECATRONICA      M    81.06   20 84.05 184.05
## 8          8     SISTEMAS      F    89.87   22 61.79 161.79
## 9          9    ELECTRICA      F    86.14   21 58.11 158.11
## 10        10          TIC      F    91.61   23 59.31 159.31

4.3.2.4 Mostrar diez registros finales

tail(alumnos, 10)

##       matricula     carrera genero promedio edad  peso altura
## 9991       9991    SISTEMAS      F    83.41   20 60.64 160.64
## 9992       9992  INDUSTRIAL      M    87.96   22 83.92 183.92
## 9993       9993         TIC      F    84.31   21 54.32 154.32
## 9994       9994    MECANICA      F    88.98   22 62.79 162.79
## 9995       9995    SISTEMAS      F    89.31   22 65.89 165.89
## 9996       9996  INDUSTRIAL      F    83.33   20 59.88 159.88
## 9997       9997  BIOQUIMICA      F    84.93   21 61.49 161.49
## 9998       9998  INDUSTRIAL      M    83.18   20 79.43 179.43
## 9999       9999    SISTEMAS      F    84.10   20 62.48 162.48
## 10000     10000 INFORMATICA      F    90.88   22 60.64 160.64

4.3.2.5 Estructura de los datos

str() muestra la estructura de los datos.

str(alumnos)

## 'data.frame':    10000 obs. of  7 variables:
##  $ matricula: Factor w/ 10000 levels "1","2","3","4",..: 1 2 3 4 5 6 7 8 9 10 ...
##  $ carrera  : Factor w/ 13 levels "ADMINISTRACION",..: 2 4 9 5 3 4 10 12 5 13 ...
##  $ genero   : Factor w/ 2 levels "F","M": 2 1 2 2 1 1 2 1 1 1 ...
##  $ promedio : num  84.5 86.5 83.4 87.6 82.3 ...
##  $ edad     : num  21 21 20 21 20 22 20 22 21 23 ...
##  $ peso     : num  74.8 54.2 80.1 82.7 63.2 ...
##  $ altura   : num  175 154 180 183 163 ...

4.3.2.6 Describir los datos

La función summary() identifica los principales estadísticos descriptivos de los datos.

summary(alumnos)

##    matricula           carrera     genero      promedio          edad      
##  1      :   1   CIVIL      : 824   F:5082   Min.   :70.86   Min.   :17.00  
##  2      :   1   ELECTRICA  : 796   M:4918   1st Qu.:83.60   1st Qu.:20.00  
##  3      :   1   INFORMATICA: 779            Median :86.01   Median :21.00  
##  4      :   1   BIOQUIMICA : 778            Mean   :85.98   Mean   :20.99  
##  5      :   1   MECANICA   : 778            3rd Qu.:88.28   3rd Qu.:22.00  
##  6      :   1   MECATRONICA: 773            Max.   :99.07   Max.   :25.00  
##  (Other):9994   (Other)    :5272                                           
##       peso           altura     
##  Min.   :51.31   Min.   :151.3  
##  1st Qu.:59.96   1st Qu.:160.0  
##  Median :64.78   Median :164.8  
##  Mean   :69.80   Mean   :169.8  
##  3rd Qu.:79.89   3rd Qu.:179.9  
##  Max.   :91.93   Max.   :191.9  
##

4.3.3 Eventos de alumnos

Se crean los eventos de alumnos

4.3.3.1 Alumnos de una carrera ‘SISTEMAS’

Con la función subset() se filtran o selecconan registros con una condición dada.

Con la función nrow() se determinan la cantidad de registros de sistemas. nrow() actúa sobre un data.frame y lenght() sobre un vector.

sistemas <- subset(alumnos, carrera == 'SISTEMAS')
nrow(sistemas)

## [1] 737

summary(sistemas)

##    matricula             carrera    genero     promedio          edad      
##  8      :  1   SISTEMAS      :737   F:381   Min.   :75.83   Min.   :18.00  
##  12     :  1   ADMINISTRACION:  0   M:356   1st Qu.:83.70   1st Qu.:20.00  
##  16     :  1   ARQUITECTURA  :  0           Median :86.04   Median :21.00  
##  29     :  1   BIOQUIMICA    :  0           Mean   :86.02   Mean   :21.01  
##  37     :  1   CIVIL         :  0           3rd Qu.:88.27   3rd Qu.:22.00  
##  64     :  1   ELECTRICA     :  0           Max.   :97.52   Max.   :24.00  
##  (Other):731   (Other)       :  0                                          
##       peso           altura     
##  Min.   :54.45   Min.   :154.4  
##  1st Qu.:59.86   1st Qu.:159.9  
##  Median :63.56   Median :163.6  
##  Mean   :69.61   Mean   :169.6  
##  3rd Qu.:79.83   3rd Qu.:179.8  
##  Max.   :89.81   Max.   :189.8  
##

4.3.3.2 Evento femeninos

femeninos <- subset(alumnos, genero == 'F')
summary(femeninos)

##    matricula           carrera     genero      promedio          edad      
##  2      :   1   MECATRONICA: 412   F:5082   Min.   :74.53   Min.   :18.00  
##  5      :   1   CIVIL      : 409   M:   0   1st Qu.:83.61   1st Qu.:20.00  
##  6      :   1   INDUSTRIAL : 402            Median :86.03   Median :21.00  
##  8      :   1   MECANICA   : 398            Mean   :85.99   Mean   :20.99  
##  9      :   1   TIC        : 397            3rd Qu.:88.29   3rd Qu.:22.00  
##  10     :   1   ELECTRONICA: 395            Max.   :99.07   Max.   :25.00  
##  (Other):5076   (Other)    :2669                                           
##       peso           altura     
##  Min.   :51.31   Min.   :151.3  
##  1st Qu.:58.46   1st Qu.:158.5  
##  Median :60.00   Median :160.0  
##  Mean   :59.98   Mean   :160.0  
##  3rd Qu.:61.45   3rd Qu.:161.4  
##  Max.   :68.34   Max.   :168.3  
##

Fem = fdt_cat(alumnos$genero)
Fem

##  Category    f   rf rf(%)    cf  cf(%)
##         F 5082 0.51 50.82  5082  50.82
##         M 4918 0.49 49.18 10000 100.00

4.3.3.3 Evento masculinos

masculinos <- subset(alumnos, genero == 'M')
summary(masculinos)

##    matricula            carrera     genero      promedio          edad      
##  1      :   1   ELECTRICA   : 420   F:   0   Min.   :70.86   Min.   :17.00  
##  3      :   1   CIVIL       : 415   M:4918   1st Qu.:83.59   1st Qu.:20.00  
##  4      :   1   INFORMATICA : 390            Median :85.98   Median :21.00  
##  7      :   1   BIOQUIMICA  : 385            Mean   :85.97   Mean   :20.99  
##  11     :   1   MECANICA    : 380            3rd Qu.:88.28   3rd Qu.:22.00  
##  12     :   1   ARQUITECTURA: 377            Max.   :97.51   Max.   :24.00  
##  (Other):4912   (Other)     :2551                                           
##       peso           altura     
##  Min.   :66.18   Min.   :166.2  
##  1st Qu.:77.82   1st Qu.:177.8  
##  Median :79.95   Median :180.0  
##  Mean   :79.94   Mean   :179.9  
##  3rd Qu.:82.08   3rd Qu.:182.1  
##  Max.   :91.93   Max.   :191.9  
##

Masc = fdt_cat(alumnos$genero)
Masc

##  Category    f   rf rf(%)    cf  cf(%)
##         F 5082 0.51 50.82  5082  50.82
##         M 4918 0.49 49.18 10000 100.00

4.3.4 Alumnos con promedio mayor que 92

prom = subset(alumnos, promedio > 92)
summary(prom)

##    matricula           carrera    genero     promedio          edad      
##  37     :  1   ARQUITECTURA: 35   F:189   Min.   :92.01   Min.   :23.00  
##  44     :  1   INDUSTRIAL  : 35   M:206   1st Qu.:92.44   1st Qu.:23.00  
##  88     :  1   MECATRONICA : 35           Median :93.05   Median :23.00  
##  100    :  1   TIC         : 35           Mean   :93.50   Mean   :23.18  
##  114    :  1   CIVIL       : 34           3rd Qu.:94.18   3rd Qu.:23.00  
##  116    :  1   MECANICA    : 33           Max.   :99.07   Max.   :25.00  
##  (Other):389   (Other)     :188                                          
##       peso           altura     
##  Min.   :54.90   Min.   :154.9  
##  1st Qu.:59.81   1st Qu.:159.8  
##  Median :75.35   Median :175.3  
##  Mean   :70.36   Mean   :170.4  
##  3rd Qu.:79.90   3rd Qu.:179.9  
##  Max.   :90.24   Max.   :190.2  
##

paste("En porcentaje son: ",395/10000)

## [1] "En porcentaje son:  0.0395"

4.3.5 Carrera con más y menos alumnos

alu = fdt_cat(alumnos$carrera)
alu

##        Category   f   rf rf(%)    cf  cf(%)
##           CIVIL 824 0.08  8.24   824   8.24
##       ELECTRICA 796 0.08  7.96  1620  16.20
##     INFORMATICA 779 0.08  7.79  2399  23.99
##      BIOQUIMICA 778 0.08  7.78  3177  31.77
##        MECANICA 778 0.08  7.78  3955  39.55
##     MECATRONICA 773 0.08  7.73  4728  47.28
##      INDUSTRIAL 771 0.08  7.71  5499  54.99
##             TIC 767 0.08  7.67  6266  62.66
##    ARQUITECTURA 760 0.08  7.60  7026  70.26
##     ELECTRONICA 756 0.08  7.56  7782  77.82
##  ADMINISTRACION 742 0.07  7.42  8524  85.24
##         QUIMICA 739 0.07  7.39  9263  92.63
##        SISTEMAS 737 0.07  7.37 10000 100.00

4.3.6 Alumnos por encima de 180

alt = subset(alumnos, altura > 180)
summary(alt)

##    matricula            carrera     genero      promedio          edad      
##  3      :   1   ELECTRICA   : 218   F:   0   Min.   :70.86   Min.   :17.00  
##  4      :   1   QUIMICA     : 200   M:2433   1st Qu.:83.53   1st Qu.:20.00  
##  7      :   1   BIOQUIMICA  : 196            Median :85.91   Median :21.00  
##  12     :   1   CIVIL       : 195            Mean   :85.89   Mean   :20.96  
##  15     :   1   MECATRONICA : 188            3rd Qu.:88.26   3rd Qu.:22.00  
##  16     :   1   ARQUITECTURA: 186            Max.   :97.22   Max.   :24.00  
##  (Other):2427   (Other)     :1250                                           
##       peso           altura     
##  Min.   :80.01   Min.   :180.0  
##  1st Qu.:80.99   1st Qu.:181.0  
##  Median :82.11   Median :182.1  
##  Mean   :82.47   Mean   :182.5  
##  3rd Qu.:83.51   3rd Qu.:183.5  
##  Max.   :91.93   Max.   :191.9  
##

4.3.7 Alumnos por debajo de 60 kg

kg = subset(alumnos, peso < 60)
summary(kg)

##    matricula           carrera     genero      promedio          edad      
##  2      :   1   INDUSTRIAL : 210   F:2538   Min.   :75.45   Min.   :18.00  
##  6      :   1   CIVIL      : 202   M:   0   1st Qu.:83.48   1st Qu.:20.00  
##  9      :   1   MECATRONICA: 202            Median :85.98   Median :21.00  
##  10     :   1   BIOQUIMICA : 200            Mean   :85.97   Mean   :20.98  
##  13     :   1   ELECTRICA  : 197            3rd Qu.:88.30   3rd Qu.:22.00  
##  17     :   1   SISTEMAS   : 197            Max.   :99.07   Max.   :25.00  
##  (Other):2532   (Other)    :1330                                           
##       peso           altura     
##  Min.   :51.31   Min.   :151.3  
##  1st Qu.:57.40   1st Qu.:157.4  
##  Median :58.45   Median :158.4  
##  Mean   :58.22   Mean   :158.2  
##  3rd Qu.:59.27   3rd Qu.:159.3  
##  Max.   :59.99   Max.   :160.0  
##

5 Interpretación

Se simulan dos experimentos: el primero es tirar un dado y se identifica su espacio muestral y el segundo es los estudiantes que son espacio muestral de alumnos inscritos.

Se construyeron espacios muestrales de dados siendo 6 los puntos muestrales del dado y 10000 de alumnos

A partir de los espacios muestrales se construyeron eventos

El espacio muestral del dado su estructura es un vector y el espacio muestral de alumnos la estructura es un data.frame.

Modificar con una valor de 10000 alumnos \(n\) del espacio muestral y semilla del numero de control y conteste lo siguiente:

¿Cuántos alumnos son del género Femenino y en qué porcentaje %?

Las alumnos de genero Fememnino son un total de 5082 que representan un 50.82% de la muestra. (fdt_cat)

¿Cuántos alumnos son del género Masculino y en qué porcentaje %?

Los alumnos de genero Masculino son un total de 4918, representando el 49.18% de la muestra restante.

¿Cuántos alumnos tiene promedio mayor que 92 y en qué porcentaje %?

El numero de alumnos con promedio mayor que 92 es: 395 y representan un 0.0395%.

¿De qué carrera hay más y menos alumnos y en que procentaje?

La carrera con más alumnos es civil con 824 y un 8.24%, la carrera con menos alumnos es sistemas con 737 y un 7.37%.

¿Cuántos alumnos son de la carrera de SISTEMAS y en qué porcentaje?

En la carrera de sistemas hay un total de 737 alumnos que representan el 7.37%

¿Hay más alumnos de SISTEMAS o de CIVIL?

Existen más alumnos de CIVIL sólo por 87 alumnos de diferencia.

¿Cuántos alumnos están por encima del 180 cms?

Son un total de 2433.

¿Cuántos alumnos tienen un peso por debajo de 60 kgs?

2538 alumnos están por debajo de 60 kg.

5.0.1 Bibliografia

Tablas y categrorías de: https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/Enero%20Junio%202022/markdown/Caso%205.%20Espacio%20muestral.rmd Los datos utilizados (seed) son propios de mi numero de control.

Caso 05: Espacio muestral

Hector Hugo Gonzalez Hernandez

2023-02-21