R Markdown

This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.

When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:

EJERCICIO EN CLASE - MUESTREO POR CUOTAS

##DEFINICION

#Es un método donde la muestra se selecciona asegurando que ciertos subgrupos de la población (cuotas) estén representados en proporciones específicas, pero la selección final de individuos dentro de cada cuota queda a criterio del investigador.

##MUESTREO POR CUOTAS #TRABAJAREMOS LA BASE DE DATOS DE MATRICULA DE LA UNIVERSIDAD SURCOLOMBIANA, ESPECIFICAMENTE EL PROGRAMA DE ECONOMIA.

#ESTA BASE DE DATOS SE CONFORMA POR LAS SIGUIENTES VARIABLES: #ESTRATO, RENTA, VALOR DE LA MATRICULA. #EL NUMERO DE ESTUDIANTES MATRICULADOS SON DE 328

##PASO 1

#DEFINIMOS LAS CUOTAS - BASE DE DATOS

ESTRATO1 = 109 ##(33,2%) ESTRATO2 = 192 ##(58.5%) ESTRATO3 = 21 ##(6.4%) ESTRATO4 = 6 ##(1.8%)

#TOTAL POBLACION 328 ESTUDIANTES

##DISEÑO DE CUOTAS

#QUEREMOS TRABAJAR CON EL 54% DE LA POBLACION

ESTRATO1_CUOTA= ESTRATO1 * 0.54 ESTRATO2_CUOTA = ESTRATO2 * 0.54 ESTRATO3_CUOTA = ESTRATO3 * 0.54 ESTRATO4_CUOTA = ESTRATO4 * 0.54

#TOTAL MUESTRA 177 ESTUDIANTES

#AFIRMACIONES VALIDAS con muestreo por cuotas

cat(‘1. “El 54% de nuestra muestra reporto estar satisfecho con el servicio”’) cat(’ == Ejemplo: de 177 estudiantes encuestados, 52 reportaron satisfaccion‘) cat(’ == Calculo: 52/131 == 29.0% ≈ 54% DE LA MUESTRA’)

#AFIRMACIONES NO VALIDAS con muestreo por cuotas

cat(‘1. “El 54% de TODA la poblacion piensa X”’) cat(’ == ERROR: No podemos generalizar de muestra a poblacion‘) cat(’ == RAZON: La seleccion no fue aleatoria, hay sesgo de seleccion’)

cat(‘2. “Hay una diferencia estadisticamente significativa entre estratos”’) cat(’ == ERROR: No podemos hacer tests de hipotesis formales‘) cat(’ == RAZON: No es muestreo probabilistico, no se cumplen supuestos’)

##CONCLUSION

#El muestreo por cuotas describe la muestra, pero no te permite hacer afirmaciones sobre toda la población.

#El muestreo por cuotas es un método práctico para obtener información rápidamente cuando la representatividad estadística no es el objetivo principal, pero no sustituye al muestreo probabilístico cuando se requiere rigor científico y capacidad de generalización

#Estudios de mercado exploratorios, Pruebas de productos o conceptos, Encuestas de opinión rápida, Investigación cualitativa, Cuando el tiempo y presupuesto son limitados

TRABAJO # 1

##BASE DE DATOS MATRICULAS UNIVERSIDAD SURCOLOMBIANA 2021

library(readr)
library(readxl)

## Warning: package 'readxl' was built under R version 4.5.2

Basedatosmatriculas<-read_excel("BASE DE DATOSMatriculaUSCO2021 (1).xlsx")

## New names:
## • `` -> `...1`
## • `` -> `...3`
## • `` -> `...4`
## • `` -> `...5`

N<-nrow (Basedatosmatriculas)
N

## [1] 13688

El número total de registros en la base de datos es de 13.688

Muestreo aleatorio simple

# Definir tamaño poblacional
N <- nrow(Basedatosmatriculas)
print(paste("Tamaño poblacional:", N))

## [1] "Tamaño poblacional: 13688"

# Parámetros del muestreo
e <- 0.05       # error máximo permitido
z <- qnorm(0.975)  # nivel de confianza 95%
p <- 0.5        # proporción esperada

# Cálculo del tamaño de muestra con corrección para población finita
n <- round((z^2*p*(1-p)*N)/((e^2*(N-1))+(z^2*p*(1-p))))
print(paste("Tamaño muestral calculado:", n))

## [1] "Tamaño muestral calculado: 374"

# Muestreo aleatorio simple sin reemplazo
set.seed(123)
muestra_indices<-sample(1:N,size=n,replace=FALSE)
muestra<-Basedatosmatriculas[muestra_indices, ]

La muestra aleatoria simple seleccionada contiene 374 estudiantes matriculados en programas de pregrado de la USCO en 2021. Este tamaño muestral fue determinado para garantizar una estimación confiable de parámetros poblacionales, como el valor promedio de matrícula, con un margen de error del 5% y un nivel de confianza del 95%.”

MEDIA POBLACIONAL

Basedatosmatriculas[["...5"]] <- as.numeric(Basedatosmatriculas[["...5"]])

## Warning: NAs introducidos por coerción

media_poblacional<-mean(Basedatosmatriculas[["...5"]],na.rm=TRUE)
print(media_poblacional)

## [1] 632518.9

El valor de la media poblacional del valor de matrícula es de $632.518,90. Esto significa que, considerando todos los estudiantes matriculados en los programas de pregrado de la USCO en 2021 (según la base de datos completa), el valor promedio pagado por matrícula fue de $632.518,90. Este valor representa el parámetro real de la población y sirve como referencia para comparar estimaciones muestrales.

MEDIA MUESTRAL

muestra[["...5"]] <- as.numeric(muestra[["...5"]])
media_muestral<-mean(muestra[["...5"]], na.rm = TRUE)
print(media_muestral)

## [1] 585986.8

La media muestral del valor de matrícula, calculada a partir de una muestra aleatoria simple de 374 estudiantes matriculados en programas de pregrado de la USCO en 2021, es de $585.986,80.

if (is.na(media_poblacional) | is.na(media_muestral)) {
  print("Alguna de las medias es NA — revisar datos")
} else if (media_poblacional != media_muestral) {
  print("Si hay sesgo en el estimador de la media del valor de matricula")
} else {
  print("El estimador de media de valor matricula es insesgado")
}

## [1] "Si hay sesgo en el estimador de la media del valor de matricula"

El estimador muestral de la media del valor de matrícula presenta sesgo, ya que su valor ($585.986,80) no coincide con la media poblacional ($632.518,90). Esto indica que, aunque se utilizó un diseño de muestreo aleatorio simple, la muestra seleccionada subestima ligeramente el valor promedio real de matrícula. Este sesgo puede deberse a variabilidad muestral o a características particulares de los estudiantes seleccionados.

Varianza muestral (s^2)

muestra[["...5"]] <- as.numeric(muestra[["...5"]])
varianza_muestra <- var(muestra[["...5"]], na.rm = TRUE)
varianza_muestra_redondeada <- round(varianza_muestra, 2)
print(paste("Varianza muestral:", varianza_muestra_redondeada))

## [1] "Varianza muestral: 158948421408.76"

desviacion muestra

desviacion_muestra <- sd(muestra[["...5"]], na.rm = TRUE)
print(round(desviacion_muestra, 2))

## [1] 398683.4

La desviación estándaren este caso es de aproximadamente $398.683. Esto significa que, en promedio, los valores de matrícula de los estudiantes de la muestra se alejan unos $398.683 del valor promedio. Es decir, hay bastante diferencia entre unos estudiantes y otros en cuanto al valor que pagan por matrícula.

Los estimadores calculados —media muestral, varianza y desviación estándar— cumplen con las propiedades estadísticas fundamentales bajo el diseño de muestreo aleatorio simple. Son consistentes, ya que se aproximan al valor poblacional al aumentar el tamaño de la muestra; eficientes, al presentar mínima variabilidad dentro del marco muestral; y suficientes, pues contienen toda la información necesaria para estimar el parámetro de interés. No obstante, se observa una diferencia entre la media muestral y la media poblacional, lo que indica la presencia de sesgo en esta muestra específica, atribuible a la variabilidad aleatoria o a características particulares de los datos seleccionados.

TRABAJO # 2

library(readxl)
BASE_DATOS_INFERENCIA <- read_excel("BASE DATOS INFERENCIA.xlsx")
View(BASE_DATOS_INFERENCIA)

INTERVALO DE CONFIANZA

BASE_DATOS_INFERENCIA <- read_excel("BASE DATOS INFERENCIA.xlsx")
nivel_confianza <- 0.95

Media por variable

media_estrato <- mean(BASE_DATOS_INFERENCIA$Estrato, na.rm = TRUE)
media_renta <- mean(BASE_DATOS_INFERENCIA$Renta, na.rm = TRUE)
media_matricula <- mean(BASE_DATOS_INFERENCIA$`Valor Matricula`, na.rm = TRUE)

Desviación estándar

sd_estrato <- sd(BASE_DATOS_INFERENCIA$Estrato, na.rm = TRUE)
sd_renta <- sd(BASE_DATOS_INFERENCIA$Renta, na.rm = TRUE)
sd_matricula <- sd(BASE_DATOS_INFERENCIA$`Valor Matricula`, na.rm = TRUE)

n_estrato <- length(BASE_DATOS_INFERENCIA$Estrato)
n_renta <- length(BASE_DATOS_INFERENCIA$Renta)
n_matricula <- length(BASE_DATOS_INFERENCIA$`Valor Matricula`)

##Calcular el error estándar de la media de ESTRATO

Error estándar

error_estandar <- sd_estrato / sqrt(n_estrato)
error_estandar

## [1] 0.07651425

Valor crítico t

valor_critico <- qt((1 + nivel_confianza) / 2, df = n_estrato - 1)
valor_critico

## [1] 1.99045

Margen de error

margen_error <- valor_critico * error_estandar
margen_error

## [1] 0.1522978

##Intervalo de confianza 95%

##Calcular el intervalo de confianza

intervalo_confianza <- c(media_estrato - margen_error, media_estrato + margen_error)
intervalo_confianza

## [1] 1.597702 1.902298

##Mostrar resultados

cat("Intervalo de confianza del", nivel_confianza * 100, "% para la media:", intervalo_confianza)

## Intervalo de confianza del 95 % para la media: 1.597702 1.902298

Calcular el error estándar de la media de RENTA

Error estándar

error_estandarenta <- sd_renta / sqrt(n_renta)
error_estandarenta

## [1] 13133261

Valor crítico t

valor_critico <- qt((1 + nivel_confianza) / 2, df = n_estrato - 1)
valor_critico

## [1] 1.99045

Margen de error

margen_error <- valor_critico * error_estandarenta
margen_error

## [1] 26141102

##Intervalo de confianza 95% ##Calcular el intervalo de confianza

intervalo_confianza <- c(media_renta - margen_error, media_renta + margen_error)
intervalo_confianza

## [1] 15215457 67497661

##Mostrar resultados

cat("Intervalo de confianza del", nivel_confianza * 100, "% para la media:", intervalo_confianza)

## Intervalo de confianza del 95 % para la media: 15215457 67497661

##Calcular el error estándar de la media de MATRICULA

Calcular el error estándar de la valor matricula

Error estándar

error_estandar <- sd_matricula / sqrt(n_matricula)
error_estandar

## [1] 61322.31

Valor crítico t

valor_critico <- qt((1 + nivel_confianza) / 2, df = n_estrato - 1)
valor_critico

## [1] 1.99045

Margen de error

margen_error <- valor_critico * error_estandar
margen_error

## [1] 122059

##Intervalo de confianza 95% ##Calcular el intervalo de confianza

intervalo_confianza <- c(media_matricula - margen_error, media_matricula + margen_error)
intervalo_confianza

## [1] 643870.8 887988.8

##Mostrar resultados

cat("Intervalo de confianza del", nivel_confianza * 100, "% para la media:", intervalo_confianza)

## Intervalo de confianza del 95 % para la media: 643870.8 887988.8

INTERVALO PARA LA MEDIA Estrato

muestra <- BASE_DATOS_INFERENCIA$Estrato

nivel_confianza <- 0.95
muestra_media <- mean(muestra)
desviacion_estandar <- sd(muestra)
tamano_muestra <- length(muestra)

Error estándar

error_estandar <- desviacion_estandar / sqrt(tamano_muestra)
error_estandar

## [1] 0.07651425

Valor crítico t

valor_critico <- qt((1 + nivel_confianza)/2, df = tamano_muestra - 1)
valor_critico

## [1] 1.99045

Margen de error

margen_error <- valor_critico * error_estandar
margen_error

## [1] 0.1522978

Intervalo

intervalo_confianza <- c(muestra_media - margen_error,
                         muestra_media + margen_error)
intervalo_confianza

## [1] 1.597702 1.902298

cat("IC del 95% para la media:", intervalo_confianza)

## IC del 95% para la media: 1.597702 1.902298

INTERVALO PARA LA MEDIA Renta

muestrarenta <- BASE_DATOS_INFERENCIA$Renta

nivel_confianza <- 0.95
muestra_media <- mean(muestrarenta)
desviacion_estandar <- sd(muestrarenta)
tamano_muestra <- length(muestrarenta)

Error estándar

error_estandarenta <- desviacion_estandar / sqrt(tamano_muestra)
error_estandarenta

## [1] 13133261

Valor crítico t

valor_critico <- qt((1 + nivel_confianza)/2, df = tamano_muestra - 1)
valor_critico

## [1] 1.99045

Margen de error

margen_error <- valor_critico * error_estandar
margen_error

## [1] 0.1522978

Intervalo

intervalo_confianza <- c(muestra_media - margen_error,
                         muestra_media + margen_error)
intervalo_confianza

## [1] 41356559 41356559

cat("IC del 95% para la media:", intervalo_confianza)

## IC del 95% para la media: 41356559 41356559

INTERVALO PARA LA MEDIA Valor matricula

muestravalorma <- BASE_DATOS_INFERENCIA$`Valor Matricula`

nivel_confianza <- 0.95
muestra_media <- mean(muestravalorma)
desviacion_estandar <- sd(muestravalorma)
tamano_muestra <- length(muestravalorma)

Error estándar

error_estandar <- desviacion_estandar / sqrt(tamano_muestra)
error_estandar

## [1] 61322.31

Valor crítico t

valor_critico <- qt((1 + nivel_confianza)/2, df = tamano_muestra - 1)
valor_critico

## [1] 1.99045

Margen de error

margen_error <- valor_critico * error_estandar
margen_error

## [1] 122059

Intervalo

intervalo_confianza <- c(muestra_media - margen_error,
                         muestra_media + margen_error)
intervalo_confianza

## [1] 643870.8 887988.8

cat("IC del 95% para la media:", intervalo_confianza)

## IC del 95% para la media: 643870.8 887988.8

Intervalo de confianza normal (Z) cuando NO tengo los datos- estrato

x <- BASE_DATOS_INFERENCIA$Estrato
n <- length(x)
media <- mean(x)
s <- sd(x)
nivel_confianza <- 0.95

Aproximación: usar s como estimación de sigma poblacional

sigma <- s 
sigma

## [1] 0.6843643

Valor crítico Z

z_critico <- qnorm((1 + nivel_confianza) / 2)
z_critico

## [1] 1.959964

Error estándar usando Z

error_estandar <- sigma / sqrt(n)
error_estandar

## [1] 0.07651425

Margen de error

margen_error <- z_critico * error_estandar
margen_error

## [1] 0.1499652

Intervalo de confianza normal (Z)

IntC <- c(media - margen_error, media + margen_error)
IntC

## [1] 1.600035 1.899965

Intervalo de confianza normal (Z) cuando NO tengo los datos- Renta

x1 <- BASE_DATOS_INFERENCIA$Renta
n1 <- length(x)
media1 <- mean(x)
s1 <- sd(x)
nivel_confianza <- 0.95

Aproximación: usar s como estimación de sigma poblacional

sigma <- s1
sigma

## [1] 0.6843643

Valor crítico Z

z_critico <- qnorm((1 + nivel_confianza) / 2)
z_critico

## [1] 1.959964

Error estándar usando Z

error_estandar <- sigma / sqrt(n)
error_estandar

## [1] 0.07651425

Margen de error

margen_error <- z_critico * error_estandar
margen_error

## [1] 0.1499652

Intervalo de confianza normal (Z)

IntC <- c(media1 - margen_error, media1 + margen_error)
IntC

## [1] 1.600035 1.899965

Intervalo de confianza normal (Z) cuando NO tengo los datos- valormatricula

x2 <- BASE_DATOS_INFERENCIA$`Valor Matricula`
n2 <- length(x)
media2 <- mean(x)
s2 <- sd(x)
nivel_confianza <- 0.95

Aproximación: usar s como estimación de sigma poblacional

sigma <- s2 
sigma

## [1] 0.6843643

Valor crítico Z

z_critico <- qnorm((1 + nivel_confianza) / 2)
z_critico

## [1] 1.959964

Error estándar usando Z

error_estandar <- sigma / sqrt(n)
error_estandar

## [1] 0.07651425

Margen de error

margen_error <- z_critico * error_estandar
margen_error

## [1] 0.1499652

Intervalo de confianza normal (Z)

IntC <- c(media2 - margen_error, media2 + margen_error)
IntC

## [1] 1.600035 1.899965

VALOR CRITICO ESTRATO

Cargar los datos

BASE_DATOS_INFERENCIA <- read_excel("BASE DATOS INFERENCIA.xlsx")

Nivel de confianza

nivel_confianza <- 0.95
nivel_confianza

## [1] 0.95

Seleccionar la variable estrato

muestra_estrato <- BASE_DATOS_INFERENCIA$Estrato
muestra_estrato

##  [1] 3 1 2 2 2 2 1 1 1 1 2 2 2 2 2 2 1 1 2 2 2 1 2 1 2 2 1 2 2 2 1 3 1 1 2 2 2 1
## [39] 2 1 2 1 2 3 3 2 2 2 2 2 1 4 2 1 4 2 2 2 2 3 1 2 1 2 2 2 1 1 1 1 2 1 1 2 1 2
## [77] 2 1 2 1

Estadísticos muestrales

media_estrato <- mean(muestra_estrato)
media_estrato

## [1] 1.75

Aquí sd() es un estimador de sigma

sigma_estrato <- sd(muestra_estrato)
sigma_estrato

## [1] 0.6843643

n_estrato <- length(muestra_estrato)
n_estrato

## [1] 80

Error estándar

error_estandar_estrato <- sigma_estrato / sqrt(n_estrato)
error_estandar_estrato

## [1] 0.07651425

Valor crítico usando qnorm con media y sigma (poblacional estimada)

valor_critico_estrato <- qnorm(
  (1 + nivel_confianza) / 2,
  mean = media_estrato,
  sd = sigma_estrato
)
valor_critico_estrato

## [1] 3.091329

VALOR CRITICO RENTA

Cargar los datos

BASE_DATOS_INFERENCIA <- read_excel("BASE DATOS INFERENCIA.xlsx")

Nivel de confianza

nivel_confianza <- 0.95

Seleccionar la variable estrato

muestra_renta <- BASE_DATOS_INFERENCIA$Renta
muestra_renta

##  [1] 111475298   6200000  12785590  15372000  18091202  30815055 998689000
##  [8]  13150770   7200000  28712362  35675317  88149000   8400000  10433436
## [15]  26814734  28674893  19874784  22091876  12667297  24150787  46542000
## [22]   9600000  18428000   3600000  24930000   6120000   7800000  17542995
## [29]  22653183   6000000   8160000 140806000 137727000   7000000   7730000
## [36] 335000000  66613000   4800000   7800000   6000000   6000000   8853000
## [43]   5400000  27175960  40811000   9600000  78063000  58174000   9120000
## [50]   9600000  16800000  88949000   7500000   8852604  72889000  25528225
## [57]   4500000  22367733  10988681   6427200  15000000   7800000  22063223
## [64]  26464000   9000000  14039662   9600000  22525000  10800000  21560208
## [71]  11400000  15309600  13997030   8160000  79360000   4200000  13934000
## [78]   7732000  67705000   6000000

Estadísticos muestrales

media_renta <- mean(muestra_renta)
media_renta

## [1] 41356559

Aquí sd() es un estimador de sigma

sigma_renta <- sd(muestra_renta)
sigma_renta

## [1] 117467457

n_renta <- length(muestra_renta)
n_renta

## [1] 80

Error estándar

 error_estandar_renta <- sigma_renta / sqrt(n_renta)
 error_estandar_renta

## [1] 13133261

Valor crítico usando qnorm con media y sigma (poblacional estimada)

 valor_critico_renta <- qnorm(
  (1 + nivel_confianza) / 2,
  mean = media_renta,
  sd = sigma_renta
)
valor_critico_renta

## [1] 271588544

VALOR CRITICO valor matricula

Cargar los datos

 BASE_DATOS_INFERENCIA <- read_excel("BASE DATOS INFERENCIA.xlsx")

Nivel de confianza

nivel_confianza <- 0.95

Seleccionar la variable estrato

muestra_valormatricula <- BASE_DATOS_INFERENCIA$`Valor Matricula`
muestra_valormatricula

##  [1] 1899080  287764  505867  697717  678953  738137 1627812  427656  303520
## [10]  303520 1380226 1380226  479608  536219  964091  964091  448655  674314
## [19]  536219 1515868 1888034  403830  930310  269834  743181  407631  313233
## [28]  513182  750901  418691  313233 1474637 1425626  303044  368574 1335335
## [37] 2156417  303044  400703  313233  427648  313233  384922  892499  892499
## [46]  522055 2171150 1303330  513182  513182  386679 2491568  394374  313233
## [55] 2362234  709066  400703  726478  729037  677930  423259  394992  636144
## [64] 1548294  611509  479608  310013  635149  420386 1005534  709779  414395
## [73]  414395  394374 1214191  352506 1718562  283220  505075  295781

Estadísticos muestrales

media_valormatricula <- mean(muestra_valormatricula)
media_valormatricula

## [1] 765929.8

Aquí sd() es un estimador de sigma

sigma_valormatricula <- sd(muestra_valormatricula)
sigma_valormatricula

## [1] 548483.4

n_valormatricula <- length(muestra_valormatricula)
n_valormatricula

## [1] 80

Error estándar

error_estandar_valormatricula <- sigma_valormatricula / sqrt(n_valormatricula)
error_estandar_valormatricula

## [1] 61322.31

Valor crítico usando qnorm con media y sigma (poblacional estimada)

valor_critico_valormatricula <- qnorm(
  (1 + nivel_confianza) / 2,
  mean = media_valormatricula,
  sd = sigma_valormatricula
)
valor_critico_valormatricula

## [1] 1840938

Intervalo de confianza estrato

————————

Valor crítico estándar Z (solo para construir el IC)

z <- qnorm((1 + nivel_confianza) / 2)
z

## [1] 1.959964

Límites del intervalo de confianza

IC_inferior <- media_estrato - z * error_estandar_estrato
IC_superior <- media_estrato + z * error_estandar_estrato

IC_inferior

## [1] 1.600035

IC_superior

## [1] 1.899965

Intervalo de confianza Renta

Valor crítico estándar Z (solo para construir el IC)

z <- qnorm((1 + nivel_confianza) / 2)
z

## [1] 1.959964

Límites del intervalo de confianza

IC_inferior <- media_renta - z * error_estandar_renta
IC_superior <- media_renta + z * error_estandar_renta

IC_inferior

## [1] 15615840

IC_superior

## [1] 67097277

Intervalo de confianza valor matricula

Valor crítico estándar Z (solo para construir el IC)

z <- qnorm((1 + nivel_confianza) / 2)
z

## [1] 1.959964

Límites del intervalo de confianza

IC_inferior <- media_valormatricula - z * error_estandar_renta
IC_superior <- media_valormatricula + z * error_estandar_renta

IC_inferior

## [1] -24974789

IC_superior

## [1] 26506648

Intervalo de Confianza para la Media

BASE_DATOS_INFERENCIA <- read_excel("BASE DATOS INFERENCIA.xlsx")

media_estrato <- mean(muestra_estrato)
media_estrato

## [1] 1.75

desviacion_estandar1 <- sd(muestra_estrato)
desviacion_estandar1

## [1] 0.6843643

desviacion_estandar

## [1] 548483.4

Cálculos

nivel_confianza <- 0.95
media_estrato <- mean(muestra_estrato)
desviacion_estandar <- sd(muestra_estrato)
tamano_muestra <- length(muestra_estrato)
error_estandar <- desviacion_estandar / sqrt(tamano_muestra)
valor_critico <- qt((1 + nivel_confianza) / 2, df = tamano_muestra - 1)
margen_error <- valor_critico * error_estandar
intervalo_confianza <- c(muestra_estrato - margen_error, muestra_estrato + margen_error)

Mostrar resultado

cat("Intervalo de confianza del", nivel_confianza * 100, "% para la media:", intervalo_confianza)

## Intervalo de confianza del 95 % para la media: 2.847702 0.8477022 1.847702 1.847702 1.847702 1.847702 0.8477022 0.8477022 0.8477022 0.8477022 1.847702 1.847702 1.847702 1.847702 1.847702 1.847702 0.8477022 0.8477022 1.847702 1.847702 1.847702 0.8477022 1.847702 0.8477022 1.847702 1.847702 0.8477022 1.847702 1.847702 1.847702 0.8477022 2.847702 0.8477022 0.8477022 1.847702 1.847702 1.847702 0.8477022 1.847702 0.8477022 1.847702 0.8477022 1.847702 2.847702 2.847702 1.847702 1.847702 1.847702 1.847702 1.847702 0.8477022 3.847702 1.847702 0.8477022 3.847702 1.847702 1.847702 1.847702 1.847702 2.847702 0.8477022 1.847702 0.8477022 1.847702 1.847702 1.847702 0.8477022 0.8477022 0.8477022 0.8477022 1.847702 0.8477022 0.8477022 1.847702 0.8477022 1.847702 1.847702 0.8477022 1.847702 0.8477022 3.152298 1.152298 2.152298 2.152298 2.152298 2.152298 1.152298 1.152298 1.152298 1.152298 2.152298 2.152298 2.152298 2.152298 2.152298 2.152298 1.152298 1.152298 2.152298 2.152298 2.152298 1.152298 2.152298 1.152298 2.152298 2.152298 1.152298 2.152298 2.152298 2.152298 1.152298 3.152298 1.152298 1.152298 2.152298 2.152298 2.152298 1.152298 2.152298 1.152298 2.152298 1.152298 2.152298 3.152298 3.152298 2.152298 2.152298 2.152298 2.152298 2.152298 1.152298 4.152298 2.152298 1.152298 4.152298 2.152298 2.152298 2.152298 2.152298 3.152298 1.152298 2.152298 1.152298 2.152298 2.152298 2.152298 1.152298 1.152298 1.152298 1.152298 2.152298 1.152298 1.152298 2.152298 1.152298 2.152298 2.152298 1.152298 2.152298 1.152298

Intervalo de Confianza para la Media renta

BASE_DATOS_INFERENCIA <- read_excel("BASE DATOS INFERENCIA.xlsx")

media_renta <- mean(muestra_renta)
media_renta

## [1] 41356559

desviacion_estandar2 <- sd(muestra_renta)
desviacion_estandar2

## [1] 117467457

desviacion_estandar

## [1] 0.6843643

Cálculos

nivel_confianza <- 0.95
media_renta <- mean(muestra_renta)
desviacion_renta <- sd(muestra_renta)
tamano_renta <- length(muestra_renta)
error_estandar <- desviacion_estandar / sqrt(tamano_muestra)
valor_critico <- qt((1 + nivel_confianza) / 2, df = tamano_muestra - 1)
margen_error <- valor_critico * error_estandar
intervalo_confianza <- c(muestra_renta - margen_error, muestra_renta + margen_error)

Mostrar resultado

cat("Intervalo de confianza del", nivel_confianza * 100, "% para la media:", intervalo_confianza)

## Intervalo de confianza del 95 % para la media: 111475298 6200000 12785590 15372000 18091202 30815055 998689000 13150770 7200000 28712362 35675317 88149000 8400000 10433436 26814734 28674893 19874784 22091876 12667297 24150787 46542000 9600000 18428000 3600000 24930000 6120000 7800000 17542995 22653183 6e+06 8160000 140806000 137727000 7e+06 7730000 3.35e+08 66613000 4800000 7800000 6e+06 6e+06 8853000 5400000 27175960 40811000 9600000 78063000 58174000 9120000 9600000 16800000 88949000 7500000 8852604 72889000 25528225 4500000 22367733 10988681 6427200 1.5e+07 7800000 22063223 26464000 9e+06 14039662 9600000 22525000 10800000 21560208 11400000 15309600 13997030 8160000 79360000 4200000 13934000 7732000 67705000 6e+06 111475298 6200000 12785590 15372000 18091202 30815055 998689000 13150770 7200000 28712362 35675317 88149000 8400000 10433436 26814734 28674893 19874784 22091876 12667297 24150787 46542000 9600000 18428000 3600000 24930000 6120000 7800000 17542995 22653183 6e+06 8160000 140806000 137727000 7e+06 7730000 3.35e+08 66613000 4800000 7800000 6e+06 6e+06 8853000 5400000 27175960 40811000 9600000 78063000 58174000 9120000 9600000 16800000 88949000 7500000 8852604 72889000 25528225 4500000 22367733 10988681 6427200 1.5e+07 7800000 22063223 26464000 9e+06 14039662 9600000 22525000 10800000 21560208 11400000 15309600 13997030 8160000 79360000 4200000 13934000 7732000 67705000 6e+06

Intervalo de Confianza para la Media valor matricula

BASE_DATOS_INFERENCIA <- read_excel("BASE DATOS INFERENCIA.xlsx")

media_valormatricula <- mean(muestra_valormatricula)
media_valormatricula

## [1] 765929.8

desviacion_estandar3 <- sd(muestra_valormatricula)
desviacion_estandar3

## [1] 548483.4

desviacion_estandar

## [1] 0.6843643

Cálculos

nivel_confianza <- 0.95
media_valormatricula <- mean(muestra_valormatricula)
desviacion_valormatricula <- sd(muestra_valormatricula)
tamano_valormatricula <- length(muestra_valormatricula)
error_estandar <- desviacion_estandar / sqrt(tamano_muestra)
valor_critico <- qt((1 + nivel_confianza) / 2, df = tamano_muestra - 1)
margen_error <- valor_critico * error_estandar
intervalo_confianza <- c(muestra_valormatricula - margen_error, muestra_valormatricula + margen_error)

Mostrar resultado

cat("Intervalo de confianza del", nivel_confianza * 100, "% para la media:", intervalo_confianza)

## Intervalo de confianza del 95 % para la media: 1899080 287763.8 505866.8 697716.8 678952.8 738136.8 1627812 427655.8 303519.8 303519.8 1380226 1380226 479607.8 536218.8 964090.8 964090.8 448654.8 674313.8 536218.8 1515868 1888034 403829.8 930309.8 269833.8 743180.8 407630.8 313232.8 513181.8 750900.8 418690.8 313232.8 1474637 1425626 303043.8 368573.8 1335335 2156417 303043.8 400702.8 313232.8 427647.8 313232.8 384921.8 892498.8 892498.8 522054.8 2171150 1303330 513181.8 513181.8 386678.8 2491568 394373.8 313232.8 2362234 709065.8 400702.8 726477.8 729036.8 677929.8 423258.8 394991.8 636143.8 1548294 611508.8 479607.8 310012.8 635148.8 420385.8 1005534 709778.8 414394.8 414394.8 394373.8 1214191 352505.8 1718562 283219.8 505074.8 295780.8 1899080 287764.2 505867.2 697717.2 678953.2 738137.2 1627812 427656.2 303520.2 303520.2 1380226 1380226 479608.2 536219.2 964091.2 964091.2 448655.2 674314.2 536219.2 1515868 1888034 403830.2 930310.2 269834.2 743181.2 407631.2 313233.2 513182.2 750901.2 418691.2 313233.2 1474637 1425626 303044.2 368574.2 1335335 2156417 303044.2 400703.2 313233.2 427648.2 313233.2 384922.2 892499.2 892499.2 522055.2 2171150 1303330 513182.2 513182.2 386679.2 2491568 394374.2 313233.2 2362234 709066.2 400703.2 726478.2 729037.2 677930.2 423259.2 394992.2 636144.2 1548294 611509.2 479608.2 310013.2 635149.2 420386.2 1005534 709779.2 414395.2 414395.2 394374.2 1214191 352506.2 1718562 283220.2 505075.2 295781.2

RESULTADOS FINALES E INTERPRETACIÓN

cat("BASADO EN LOS CÁLCULOS CORREGIDOS, SE CONCLUYE:\n\n")

## BASADO EN LOS CÁLCULOS CORREGIDOS, SE CONCLUYE:

cat("1. VARIABLE: ESTRATO SOCIOECONÓMICO\n")

## 1. VARIABLE: ESTRATO SOCIOECONÓMICO

cat("   ---------------------------------\n")

##    ---------------------------------

cat("   • Media muestral: 1.75\n")

##    • Media muestral: 1.75

cat("   • Intervalo de Confianza 95%: [1.60, 1.90]\n")

##    • Intervalo de Confianza 95%: [1.60, 1.90]

cat("   • Desviación estándar: 0.68\n")

##    • Desviación estándar: 0.68

cat("   • Tamaño de muestra: ~80 observaciones\n\n")

##    • Tamaño de muestra: ~80 observaciones

cat("   INTERPRETACIÓN:\n")

##    INTERPRETACIÓN:

cat("   Con 95% de confianza, el estrato socioeconómico promedio de la población\n")

##    Con 95% de confianza, el estrato socioeconómico promedio de la población

cat("   se encuentra entre 1.60 y 1.90. Esto indica:\n")

##    se encuentra entre 1.60 y 1.90. Esto indica:

cat("   Predominio de estratos bajos (1-2)\n")

##    Predominio de estratos bajos (1-2)

cat("   Alta precisión en la estimación (intervalo estrecho)\n")

##    Alta precisión en la estimación (intervalo estrecho)

cat("   Consistencia en los datos (baja variabilidad)\n")

##    Consistencia en los datos (baja variabilidad)

cat("   La población estudiada pertenece mayoritariamente a estratos 1 y 2\n\n")

##    La población estudiada pertenece mayoritariamente a estratos 1 y 2

cat("2. VARIABLE: RENTA MENSUAL\n")

## 2. VARIABLE: RENTA MENSUAL

cat("   -----------------------\n")

##    -----------------------

cat("   • Media muestral: $41,356,559\n")

##    • Media muestral: $41,356,559

cat("   • Intervalo de Confianza 95%: [$15,615,840, $67,097,277]\n")

##    • Intervalo de Confianza 95%: [$15,615,840, $67,097,277]

cat("   • Desviación estándar: $117,467,457\n")

##    • Desviación estándar: $117,467,457

cat("   • Coeficiente de variación: 284%\n\n")

##    • Coeficiente de variación: 284%

cat("   INTERPRETACIÓN:\n")

##    INTERPRETACIÓN:

cat("   Con 95% de confianza, la renta mensual promedio poblacional está entre\n")

##    Con 95% de confianza, la renta mensual promedio poblacional está entre

cat("   $15.6 millones y $67.1 millones. Esto revela:\n")

##    $15.6 millones y $67.1 millones. Esto revela:

cat("    Alta dispersión en los ingresos (CV = 284%)\n")

##     Alta dispersión en los ingresos (CV = 284%)

cat("   Presencia probable de valores extremos/outliers\n")

##    Presencia probable de valores extremos/outliers

cat("    Desigualdad económica significativa\n")

##     Desigualdad económica significativa

cat("    La media es fuertemente influenciada por valores altos\n")

##     La media es fuertemente influenciada por valores altos

cat("   el IC amplio sugiere heterogeneidad económica\n\n")

##    el IC amplio sugiere heterogeneidad económica

cat("3. VARIABLE: VALOR MATRÍCULA\n")

## 3. VARIABLE: VALOR MATRÍCULA

cat("   -------------------------\n")

##    -------------------------

cat("   • Media muestral: $765,930\n")

##    • Media muestral: $765,930

cat("   • Intervalo de Confianza 95%: [$643,871, $887,989]\n")

##    • Intervalo de Confianza 95%: [$643,871, $887,989]

cat("   • Desviación estándar: $548,483\n")

##    • Desviación estándar: $548,483

cat("   • Coeficiente de variación: 72%\n\n")

##    • Coeficiente de variación: 72%

cat("   INTERPRETACIÓN:\n")

##    INTERPRETACIÓN:

cat("   Con 95% de confianza, el valor promedio de matrícula poblacional\n")

##    Con 95% de confianza, el valor promedio de matrícula poblacional

cat("   se encuentra entre $643,871 y $887,989. Esto muestra:\n")

##    se encuentra entre $643,871 y $887,989. Esto muestra:

cat("   Menor variabilidad relativa vs renta (CV = 72%)\n")

##    Menor variabilidad relativa vs renta (CV = 72%)

cat("   Comportamiento más predecible y estable\n")

##    Comportamiento más predecible y estable

cat("   Posible relación con el estrato socioeconómico\n")

##    Posible relación con el estrato socioeconómico

cat("   Los costos educativos son más homogéneos que los ingresos\n\n")

##    Los costos educativos son más homogéneos que los ingresos

TRABAJO 1

YAMID ORJUELA - JOSE RICARDO MUÑOZ

2025-11-11

R Markdown

EJERCICIO EN CLASE - MUESTREO POR CUOTAS

TRABAJO # 2

Intervalo de confianza normal (Z) cuando NO tengo los datos- estrato

Intervalo de confianza normal (Z) cuando NO tengo los datos- Renta

Intervalo de confianza normal (Z) cuando NO tengo los datos- valormatricula

————————

RESULTADOS FINALES E INTERPRETACIÓN