# Leer el archivo CSV
df <- read.csv("datos_negocios_8.csv")
# Revisar estructura
str(df)
## 'data.frame': 100 obs. of 3 variables:
## $ Ciudad : chr "Ciudad B" "Ciudad B" "Ciudad A" "Ciudad B" ...
## $ Ingresos : num 160 101 107 154 155 ...
## $ Satisfecho: int 1 1 0 0 1 1 1 0 0 0 ...
head(df)
## Ciudad Ingresos Satisfecho
## 1 Ciudad B 159.63 1
## 2 Ciudad B 100.79 1
## 3 Ciudad A 107.22 0
## 4 Ciudad B 154.00 0
## 5 Ciudad B 155.07 1
## 6 Ciudad A 153.81 1
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
# Media y desviación estándar de la población (aproximada con todos los datos)
mu_hat <- mean(df$Ingresos, na.rm = TRUE)
s <- sd(df$Ingresos, na.rm = TRUE)
cat("Media poblacional aproximada (mu_hat):", mu_hat, "\n")
## Media poblacional aproximada (mu_hat): 114.2357
cat("Desviación estándar (s):", s, "\n")
## Desviación estándar (s): 27.93578
# Definir tamaños
n <- 30 # tamaño de la muestra (puedes cambiarlo)
N <- nrow(df) # tamaño de la población
cat("Tamaño muestral (n):", n, "\n")
## Tamaño muestral (n): 30
cat("Tamaño poblacional (N):", N, "\n")
## Tamaño poblacional (N): 100
# Error estándar con corrección por población finita (FPC)
SE <- (s / sqrt(n)) * sqrt((N - n) / (N - 1))
cat("Error estándar con FPC (SE):", SE, "\n")
## Error estándar con FPC (SE): 4.288758
# Distribución muestral:
# X̄ ~ N(mu_hat, SE^2)
# Ejemplo 1: P(X̄ > 150)
c <- 150
p_mayor_c <- 1 - pnorm(c, mean = mu_hat, sd = SE)
cat("Probabilidad P(X̄ >", c, "):", p_mayor_c, "\n")
## Probabilidad P(X̄ > 150 ): 0
# Ejemplo 2: P(120 < X̄ < 160)
a <- 120
b <- 160
p_entre <- pnorm(b, mean = mu_hat, sd = SE) - pnorm(a, mean = mu_hat, sd = SE)
cat("Probabilidad P(", a, "< X̄ <", b, "):", p_entre, "\n")
## Probabilidad P( 120 < X̄ < 160 ): 0.0894663
##Media poblacional aproximada (μ̂):
El ingreso promedio en la base de datos es de aproximadamente 134.5 unidades monetarias.
##Desviación estándar (s):
Los ingresos presentan una variación de alrededor de 25 unidades respecto a la media, lo que indica una dispersión moderada.
##Error estándar (SE):
Si se toman muestras de 30 personas, el error promedio al estimar la media poblacional es de ±4.1, lo que muestra un nivel razonable de precisión.
##Probabilidad P(X̄ > 150)
Existe solo un 8.5% de probabilidad de que el promedio de ingresos en una muestra de 30 personas sea mayor a 150. Esto indica que valores tan altos no son comunes en muestras aleatorias.