Promedio y desviaciones estándar de los promedio de calificaciones de los alumnos del ITD con el objetivo de determinar el error estándar de una muestra.

Objetivo. Determinar error est´pandar de una muestra

Descripción: De un conjunto de datos de los alumnos inscritos en las carrerras de una institución educativa determinar probabilidades normales.

Los datos de todos los alumnos de todas las carreras

datosalumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/practicas%20R/unidad%204/Promediode%20alumnos%20inscritos%20en%20ISC.%20los%20que%20tienen%20promedio%20de%20todas%20las%20carreras.csv")


# datosalumnos

Promedios o medias aritméticas de cada carrera

mediaADMINISTRACION <-mean(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'ADMINISTRACION')])
mediaARQUITECTURA <- mean(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'ARQUITECTURA')])
mediaBIOQUIMICA <- mean(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'BIOQUIMICA')])
mediaCIVIL <- mean(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'CIVIL')])
mediaELECTRICA <- mean(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'ELECTRICA')])
mediaELECTRONICA <- mean(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'ELECTRONICA')])
mediaGESTIONEMPRESARIAL <- mean(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'GESTION EMPRESARIAL')])
mediaINFORMATICA <- mean(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'INFORMATICA')])
mediaMECANICA <- mean(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'MECANICA')])
mediaMECATRONICA <- mean(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'MECATRONICA')])
mediaQUIMICA <- mean(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'QUIMICA')])
mediaSISTEMAS <- mean(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'SISTEMAS')])
mediaTIC <- mean(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'TECNOLOGIAS DE INFORMACION Y COMUNICACIONES')])
mediaINDUSTRIAL <- mean(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'INDUSTRIAL')])


# mediaADMINISTRACION
# mediaARQUITECTURA
# mediaBIOQUIMICA
# mediaCIVIL
# mediaELECTRICA
# mediaELECTRONICA
# mediaGESTIONEMPRESARIAL
# mediaINFORMATICA
# mediaMECANICA
# mediaMECATRONICA
# mediaQUIMICA
# mediaSISTEMAS
# mediaTIC
# mediaINDUSTRIAL

Desviaciones estándard de cada carrera

desvADMINISTRACION <-sd(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'ADMINISTRACION')])
desvARQUITECTURA <- sd(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'ARQUITECTURA')])
desvBIOQUIMICA <- sd(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'BIOQUIMICA')])
desvCIVIL <- sd(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'CIVIL')])
desvELECTRICA <- sd(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'ELECTRICA')])
desvELECTRONICA <- sd(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'ELECTRONICA')])
desvGESTIONEMPRESARIAL <- sd(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'GESTION EMPRESARIAL')])
desvINFORMATICA <- sd(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'INFORMATICA')])
desvMECANICA <- sd(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'MECANICA')])
desvMECATRONICA <- sd(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'MECATRONICA')])
desvQUIMICA <- sd(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'QUIMICA')])
desvSISTEMAS <- sd(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'SISTEMAS')])
desvTIC <- sd(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'TECNOLOGIAS DE INFORMACION Y COMUNICACIONES')])
desvINDUSTRIAL <- sd(datosalumnos$Promedio[which(datosalumnos$CARRERA == 'INDUSTRIAL')])

# desvADMINISTRACION
# desvARQUITECTURA
# desvBIOQUIMICA
# desvCIVIL
# desvELECTRICA
# desvELECTRONICA
# desvGESTIONEMPRESARIAL
# desvINFORMATICA
# desvMECANICA
# desvMECATRONICA
# desvQUIMICA
# desvSISTEMAS
# desvTIC
# desvINDUSTRIAL

Tabla para ver las medias y las desviaciones de cada carrera

tablaPROMS <-  data.frame(carrera = unique(datosalumnos$CARRERA), promedios = c(mediaADMINISTRACION, mediaARQUITECTURA, mediaBIOQUIMICA, mediaCIVIL, mediaELECTRICA, mediaELECTRONICA, mediaGESTIONEMPRESARIAL, mediaINFORMATICA, mediaMECANICA, mediaMECATRONICA, mediaQUIMICA, mediaSISTEMAS, mediaTIC, mediaINDUSTRIAL), desvstd = c(desvADMINISTRACION, desvARQUITECTURA, desvBIOQUIMICA, desvCIVIL, desvELECTRICA, desvELECTRONICA, desvGESTIONEMPRESARIAL, desvINFORMATICA, desvMECANICA, desvMECATRONICA, desvQUIMICA, desvSISTEMAS, desvTIC, desvINDUSTRIAL))

tablaPROMS
##                                        carrera promedios  desvstd
## 1                               ADMINISTRACION  87.18570 4.330804
## 2                                 ARQUITECTURA  85.04016 3.753101
## 3                                   BIOQUIMICA  84.35411 4.332458
## 4                                        CIVIL  83.95414 4.263399
## 5                                    ELECTRICA  84.56220 3.536467
## 6                                  ELECTRONICA  83.45317 4.242269
## 7                          GESTION EMPRESARIAL  86.81308 4.331956
## 8                                   INDUSTRIAL  84.35158 4.566525
## 9                                  INFORMATICA  82.43986 4.040545
## 10                                    MECANICA  83.39957 4.034543
## 11                                 MECATRONICA  84.68841 3.638157
## 12                                     QUIMICA  84.71179 4.704340
## 13                                    SISTEMAS  84.18871 4.163146
## 14 TECNOLOGIAS DE INFORMACION Y COMUNICACIONES  84.50989 4.573360

Determinar una muestra de 10 alumnos de sistemas con su promedio de calificación aleatoriamente

Fórmulas para determinar valor esperado y la desviación estándar de la distribución muestral

Fórmulas para determinar valor esperado y la desviación estándar de la distribución muestral

muestrasistemas <- datosalumnos$Promedio[which(datosalumnos$CARRERA == 'SISTEMAS')]

muestrasistemas <- sample(muestrasistemas, 10, replace = FALSE)   # la muestra de 10

Valores iniciales

N <- length(datosalumnos$Promedio)  # Total de alumnos

N
## [1] 5604
n <- 10 # Tamaño de la muestra
n
## [1] 10
desvSISTEMAS
## [1] 4.70434
mediaSISTEMAS
## [1] 84.71179
muestrasistemas
##  [1] 84.09 81.22 75.50 88.19 86.83 80.51 90.75 84.50 85.69 86.17
desvdistmuestralsistemas <- desvSISTEMAS / sqrt(n) 
desvdistmuestralsistemas
## [1] 1.487643

Se aplicó la fórmula dado que ….

Dado que

Dado que

 n / N
## [1] 0.00178444
print ("¿ Y ahora qué ?")
## [1] "¿ Y ahora qué ?"

Suponemos que la media de la muestra está 2 puntos por debajo y 2 puntos por encima de la media de la población

Creemos qué está un 80% de ser REAL ésta HIPÓTESIS

Comprobar …

media <- mediaSISTEMAS # confoeme a media meustral igual a media poblacional

media
## [1] 84.71179
desvdistmuestralsistemas
## [1] 1.487643
x1 <- media + 2
x2 <- media - 2

x1
## [1] 86.71179
x2
## [1] 82.71179
pnorm(x1, mean = media, sd = desvdistmuestralsistemas) 
## [1] 0.9105919
pnorm(x2, mean = media, sd = desvdistmuestralsistemas) 
## [1] 0.08940813
paste("Determinando la probabilidad de la distribución normal entre  ", x1, " y ", x2) 
## [1] "Determinando la probabilidad de la distribución normal entre   86.7117873303167  y  82.7117873303167"
prob <- (pnorm(x1, mean = media, sd = desvdistmuestralsistemas) - pnorm(x2, mean = media, sd = desvdistmuestralsistemas) )

prob
## [1] 0.8211837
paste("Hay un ", round(prob, 4) * 100 , "%", " de probabilidades de que la media muestral esté entre ", x1, " y ", x2)
## [1] "Hay un  82.12 %  de probabilidades de que la media muestral esté entre  86.7117873303167  y  82.7117873303167"