EJERCICIOS MUESTREO CAP 6

#Ejercicio 6.14 

Problema <- "Con base en los Ejercicios 6.4 y 6.5, usando un estimador de regresión, estime las ganancias promedio μy, y establezca un límite para el error de estimación. Compare su respuesta con aquella del Ejercicio 6.5. ¿Existe alguna ventaja para utilizar aquí el estimador de regresión?"


# Datos de la encuesta
datos <- data.frame(
oficina = 1:13,
x = c(550, 720, 1500, 1020, 620, 980, 928, 1200, 1350, 1750, 670, 729, 1530),
y = c(610, 780, 1600, 1030, 600, 1050, 977, 1440, 1570, 2210, 980, 865, 1710)
  )

n <- 13
N <- 123
T_x <- 128200

# Calcular las medias muestrales
x_bar <- mean(datos$x)
y_bar <- mean(datos$y)

# Calcular el coeficiente b
b <- sum((datos$y - y_bar) * (datos$x - x_bar)) / sum((datos$x - x_bar)^2)

# Calcular la media poblacional estimada
mu_x <- T_x / N
mu_y_L <- y_bar + b * (mu_x - x_bar)

# Calcular la varianza estimada de mu_y_L
V_mu_y_L <- ((N - n) / (N * n)) * ((1 / (n - 2)) * (sum((datos$y - y_bar)^2) - b^2 * sum((datos$x - x_bar)^2)))

# Calcular el límite para el error de estimación
error_limit <- 2 * sqrt(V_mu_y_L)

# Imprimir resultados
cat("Estimador de la media poblacional (mu_y_L):", mu_y_L, "\n")

## Estimador de la media poblacional (mu_y_L): 1186.546

cat("Varianza estimada de mu_y_L:", V_mu_y_L, "\n")

## Varianza estimada de mu_y_L: 940.376

cat("Límite para el error de estimación:", error_limit, "\n")

## Límite para el error de estimación: 61.3311

Interpretacion <- "Utilizando un estimador de regresion, hemos estimado las ganancias promedio esperadas por la venta de televisores de color para el periodo de 3 meses, lo que ha dado un valor promedio de 1186 televisores aproximadamente, esto con una varianza de 940 dispositivos y un limite de error en las estimaciones de 61 televisotres aproximadamente"

cat("Next exercise")

## Next exercise

#Ejercicio 6.16 

Problema <-"Remitase al Ejercicio 6.9. Estime Ty usando un estimador de regresión, y establezca un límite para el error de estimación.¿Cree usted que para este problema el estimador de regresión es mejor que el estimador de razón?"

Ejercicio6.9 <-"Un director de recursos forestales esta interesado en estimar el numero de abetos muertos por una fuerte infestación en un área de 300 acres. Usando una fotografía área, el director divide el área en 200 parcelas de uno y medio acres. Sean n la cantidad de abetos muertos, calculada con base en la fotografía, y y la cantidad real en el terreno para una muestra irrestricta aleatoria de n=10 parcelas. El numero total de abetos muertos, obtenido según la cantidad en fotografía es Tx= 4200. Use los datos de la muestra de la tabla, para estimar Ty, el numero total de Abetos muertos en el área de 300 acres. Estableza un limite para el error de estimación."

# Datos proporcionados
n <- 10
N <- 200
T_x <- 4200
x_i <- c(12, 30, 24, 24, 18, 30, 12, 6, 36, 42)
y_i <- c(18, 42, 24, 36, 24, 36, 14, 10, 48, 54)

# Data frame con los datos
datos <- data.frame(x = x_i, y = y_i)

# Calcular las medias muestrales
x_bar <- mean(datos$x)
y_bar <- mean(datos$y)

# coeficiente b
b <- sum((datos$y - y_bar) * (datos$x - x_bar)) / sum((datos$x - x_bar)^2)

# estimador de T_y
T_y_hat <- N * (y_bar + b * (T_x / N - x_bar))

# varianza estimada de T_y_hat
V_T_y_hat <- N^2 * ((N - n) / (N * n)) * ((1 / (n - 2)) * (sum((datos$y - y_bar)^2) - b^2 * sum((datos$x - x_bar)^2)))

# límite para el error de estimación
error_limit <- 2 * sqrt(V_T_y_hat)

# Imprimir resultados
cat("Estimador del total poblacional (T_y_hat):", T_y_hat, "\n")

## Estimador del total poblacional (T_y_hat): 5515.502

cat("Varianza estimada de T_y_hat:", V_T_y_hat, "\n")

## Varianza estimada de T_y_hat: 50312.46

cat("Límite para el error de estimación:", error_limit, "\n")

## Límite para el error de estimación: 448.6088

Pregunta <- "¿Cree usted que para este problema el estimador de regresión es mejor que el estimador de razón?"

cat("si la relación entre las variables tiene algo de dispersión alrededor de la línea ajustada, el estimador de regresión podría ser más preciso que el estimador de razón. El análisis de los residuos del modelo de regresión ayudará a confirmar cuál es el mejor método para este caso específico.")

## si la relación entre las variables tiene algo de dispersión alrededor de la línea ajustada, el estimador de regresión podría ser más preciso que el estimador de razón. El análisis de los residuos del modelo de regresión ayudará a confirmar cuál es el mejor método para este caso específico.

#Ejercicio 6.17 

Problema <-"Los comerciantes de futuros mercados están interesados en los precios relativos a ciertas mercancías más que en los niveles del precio específico. Estos precios relativos pueden presentarse en términos de una razón.Una muy importante en agricultura es la razón res/cerdo. De 64 días de comercio en el primer trimestre de 1977,los precios de res y de cerdo fueron obtenidos al seleccionar 18 días,con los resultados que se muestran en la tabla adjunta. Estime el valor verdadero μy/μx) para este periodo, y establezca un límite para el error de estimación."

# Datos de precios de res y cerdo
res <- c(42.40, 41.40, 39.60, 39.45, 37.00, 37.80, 38.55, 38.60, 38.80, 39.65, 38.45, 37.80, 37.20, 37.60, 37.50, 36.90, 37.30, 38.60)
cerdo <- c(47.80, 48.60, 48.20, 46.75, 46.50, 45.40, 47.30, 48.20, 49.40, 49.40, 44.30, 43.90, 42.70, 43.25, 44.55, 45.10, 45.00, 45.25)

# Cálculo de r
r <- sum(res) / sum(cerdo)

# Tamaño de la muestra (n) y tamaño de la población (N)

n <- 18 # Días seleccionados
N <- 64 # Total de días de comercio

# Cálculo de la varianza estimada de r
sum_squared_errors <- sum((res - r * cerdo)^2)
var_r <- (N - n) / (n * N) * (1 / mean(cerdo)^2) * (sum_squared_errors / (n - 1))

# Límite para el error de estimación
error_limit <- 2 * sqrt(var_r)

# Resultado

print(paste("La razon es:", round(r, 3)))

## [1] "La razon es: 0.835"

print(paste("El límite para el error de estimación es:", round(error_limit, 3)))

## [1] "El límite para el error de estimación es: 0.012"

#Ejercicio 6.18

Problema <-"¿En qué condiciones debe emplearse un estimador de razón para Ty en lugar de un estimador de la forma Ny"


Respuesta <-"El estimador de razón para Ty (el total poblacional) debe emplearse en lugar de un estimador de la forma cuando existe una relación significativa entre las variables y y x, donde y es la variable de interés y x es una variable auxiliar."

Continuidad<-"Es preferible cuando la variable auxiliar x está fuertemente correlacionada con y y  se tiene información sobre el total poblacional o media de x"

cat("Next exercise")

## Next exercise

#Ejercicio 6.19

Problema <-"Analice los méritos relativos a las estimaciones de razón, regresión y diferencia"

R1 <-"Estimador de Razón: Es más eficiente cuando hay una correlación fuerte y positiva entre x y y pero puede dar estimaciones sesgadas si la relación no es adecuada."

R2 <-"Estimador de Regresión: Es el más flexible y preciso cuando existe una relación lineal entre y y x, ya que ajusta tanto el intercepto como la pendiente. Sin embargo, es más complejo de calcular."

R3 <-"Estimador de Diferencia: Es adecuado cuando la diferencia entre y y x, es aproximadamente constante, y es relativamente simple de aplicar, pero es menos eficiente si la relación entre las variables no es constante."

Conclusión<-"la elección del método depende de la naturaleza de la relación entre las variables y del conocimiento previo que se tenga sobre los datos"

cat("Next exercise")

## Next exercise

#Ejercicio 6.20 

Problema <-"El número de personas por debajo del nivel de pobreza (en miles) para todas las razas y para los negros solamente se presenta en la tabla adjunta para una muestra aleatoria de n = 6 estados.Estime la razón del número de negros por debajo del nivel de pobreza con el número de blancos por debajo del nivel de pobreza para todos los estados combinados. Establezca un límite para el error de estimación."

# Datos
todas_las_razas <- c(417, 869, 1284, 547, 699, 391)  # Todas las razas
negros <- c(149, 472, 545, 57, 407, 59)  # Negros
N <- 52  # Tamaño de la población (número de estados)
n <- length(todas_las_razas)  # Tamaño de la muestra

# (1) Estimador de la razón poblacional
r <- sum(negros) / sum(todas_las_razas)

# (2) Media muestral de todas las razas
x_barra <- mean(todas_las_razas)

# (3) Cálculo de las diferencias yi - rxi
diferencias <- negros - r * todas_las_razas

# (4) Varianza estimada de la razón
varianza_r <- (N - n) / (n * N * x_barra^2) * (1 / (n - 1)) * sum(diferencias^2)

# (5) Límite para el error de estimación
limite_error <- 2 * sqrt(varianza_r)

# Resultados
cat("Estimador de la razón del número de negros por debajo del nivel de pobreza: ", r, "\n")

## Estimador de la razón del número de negros por debajo del nivel de pobreza:  0.4014737

cat("Límite para el error de estimación: ", limite_error, "\n")

## Límite para el error de estimación:  0.1280803

#Ejercicio 6.21 

Problema <-"Una auditoría tradicional expresa las ventas al menudeo como la apertura del inventario más las compras almacenadas menos el cierre del inventario. Por lo tanto tal auditoría considerara estos tres conceptospara reportar las ventas totales durante cierto periodo (por ejemplo, seis meses) de una tienda de ventas al menudeo.Tales datos combinados con los de varias tiendas y recolectados para diversas marcas competitivas permiten estimar las participaciones en el mercado (porcentaje del mercado total correspondiente a una marca). Los método más rápidos para estimar las participaciones en el mercado son los métodos de auditoría por ventas de fin de semana y por compras almacenadas.El primero elimina las compras almacenadas, puesto que las compras son mínimas en un fin de semana, pero usa un tiempo más corto y está sujeto a la distorsión por las ofertas de fin de semana. El segundo solamente usa la información de compra para calcular la participación en el mercado y no involucra revisión de inventarios."

Next <- "Datos sobre las participaciones en el mercado, calculados por los tres métodos, tradicional (T), fin de semana (W), y compras (P), se presentan en la tabla adjunta para una marca de cerveza. Las observaciones fueron tomadas en seis diferentes periodos de tiempo dentro de un año."

A <-"Estime la razón del promedio de participación en el mercado calculado por el método de fin de semana con el calculado por el método tradicional. Establezca un límite para el error de estimación"

B <-  "Estime la razón del promedio de participación en el mercado calculado por el método de compras con aquel calculado por el método tradicional. Establezca un límite para el error de estimación."
 
C <-  "¿Cuál de los métodos menos costosos (Wo P) se compara más favorablementecon el método tradicional?"

# Datos
T <- c(15, 18, 16, 14, 13, 16)
W <- c(16, 17, 17, 16, 12, 18)
P <- c(12, 14, 20, 11, 8, 15)

# medias y varianzas
mean_T <- mean(T)
mean_W <- mean(W)
mean_P <- mean(P)

var_T <- var(T)
var_W <- var(W)
var_P <- var(P)

# Estimar las razones
ratio_W_T <- mean_W / mean_T
ratio_P_T <- mean_P / mean_T

# límites para el error de estimación
n <- length(T)

# Varianza de la razón W/T
var_ratio_W_T <- (1 - (n - 1) / sum((T - mean_T)^2)) * (var_W / (n * mean_T^2))
limit_error_W_T <- 2 * sqrt(var_ratio_W_T)

# Varianza de la razón P/T
var_ratio_P_T <- (1 - (n - 1) / sum((T - mean_T)^2)) * (var_P / (n * mean_T^2))
limit_error_P_T <- 2 * sqrt(var_ratio_P_T)

# Resultados
cat("A) Razón del promedio de participación en el mercado (W/T):", ratio_W_T, "\n")

## A) Razón del promedio de participación en el mercado (W/T): 1.043478

cat("   Límite para el error de estimación (W/T):", limit_error_W_T, "\n")

##    Límite para el error de estimación (W/T): 0.09169509

print(paste("B) Razón del promedio de participación en el mercado (P/T):", round(ratio_P_T, 3)))

## [1] "B) Razón del promedio de participación en el mercado (P/T): 0.87"

cat("   Límite para el error de estimación (P/T):", limit_error_P_T, "\n")

##    Límite para el error de estimación (P/T): 0.1784613

# Comparación de los métodos menos costosos
if (limit_error_W_T < limit_error_P_T) {
  cat("C) El método menos costoso que se compara más favorablemente con el método tradicional es el método de fin de semana (W).\n")
} else {
  cat("C) El método menos costoso que se compara más favorablemente con el método tradicional es el método de compras (P).\n")
}

## C) El método menos costoso que se compara más favorablemente con el método tradicional es el método de fin de semana (W).

#Ejercicio 6.22 

Problema <-"De acuerdo con los datos que se presentan en la tabla adjunta sobre los gastos de seis áreas diferentes del campo de atención de la salud en Estados Unidos, estime la razón de los gastos para la atención de la salud en 1982 con aquellos para 1981,y establezca un límite para el error de estimación. ¿Cuáles son los defectos de esta estimación de la razón verdadera de los gastos para la atención de la salud en Estados Unidos?"

# Datos
gastos_1981 <- c(118, 54.8, 17.3, 24.2, 21.3, 5.7)  # Gastos en 1981
gastos_1982 <- c(135.5, 61.8, 19.5, 27.3, 22.4, 5.7)  # Gastos en 1982
N <- 800  # Tamaño poblacional
n <- length(gastos_1981)  # Tamaño de muestra

# (a) Estimación de la razón de los gastos 1982/1981
r_1982_1981 <- sum(gastos_1982) / sum(gastos_1981)  # Razón de promedio de 1982 a 1981

# Media muestral de gastos en 1981
x_barra <- mean(gastos_1981)

# Diferencias (yi - rxi) para 1982 sobre 1981
diferencias_1982_1981 <- gastos_1982 - r_1982_1981 * gastos_1981

# Varianza estimada para la razón r_1982_1981 usando la fórmula de la varianza
varianza_r_1982_1981 <- (N - n) / (n * N * x_barra^2) * (1 / (n - 1)) * sum(diferencias_1982_1981^2)

# Límite para el error de estimación
limite_error_r_1982_1981 <- 2 * sqrt(varianza_r_1982_1981)

# Resultados
print(paste("Razón gastos 1982 / gastos 1981:", round(r_1982_1981, 3)))

## [1] "Razón gastos 1982 / gastos 1981: 1.128"

print(paste("Límite para el error de estimación:", round(limite_error_r_1982_1981, 4)))

## [1] "Límite para el error de estimación: 0.027"

Pregunta <- "¿Cuáles son los defectos de esta estimación de la razón verdadera de los gastos para la atención de la salud en Estados Unidos?"

Respuesta <- "Muestra pequeña: El tamaño de la muestra (n=6) es pequeño en comparación con el tamaño de la población (N=800), lo que podría hacer que la estimación no sea muy precisa.

No representatividad: La muestra puede no ser representativa de todos los sectores de atención de la salud en EE.UU., lo que afectaría la validez de la estimación."

cat("Next exercise")

## Next exercise

#Ejercicio 6.23 

Problema <-"El ingreso nacional para 1981 será estimado con base en una muestra de n = 10 industrias que declaran sus ingresos de 1981 antes que las 35 restantes. (Existen 45 industrias que se utilizan para determinar el ingreso nacional total.) Se dispone de los datos del ingreso de 1980 para las 45 industrias y los totales son 2174.2 (en miles de millones). Los datos se presentan en la tabla adjunta."

A <- "Encuentre un estimador de razón del ingreso total de 1981, y establezca un límite para el error de estimación"

B <- "Encuentre un estimador de regresión del ingreso total de 1981, y establezca un límite para el error de estimación"

C <- "Encuentre un estimador de diferencia del ingreso total de 1981, y establezca un límite para el error de estimación."


# Datos
ingreso_1980 <- c(13.6, 37.7, 15.2, 48.4, 19.6, 33.5, 44.4, 198.3, 99.2, 15.4)  # Ingreso 1980
ingreso_1981 <- c(14.5, 42.7, 15.1, 53.6, 25.4, 35.9, 48.5, 221.2, 114, 17)   # Ingreso 1981
N <- 45  # Tamaño poblacional
n <- length(ingreso_1980)  # Tamaño de muestra
total_1980 <- 2174.2  # Ingreso total de 1980 de las 45 industrias

# (a) Estimador de razón
r_ingreso_1981_1980 <- sum(ingreso_1981) / sum(ingreso_1980)
estimacion_razon_1981 <- r_ingreso_1981_1980 * total_1980

# Media muestral de ingreso 1980
x_barra <- mean(ingreso_1980)

TotalTy <- 2174.2

Miux <- total_1980/N


# Diferencias (yi - rxi) para 1981 sobre 1980
diferencias_1981_1980 <- (ingreso_1981 - r_ingreso_1981_1980 * ingreso_1980)^2

# Varianza estimada para la razón

varianza_razon1 <- (N - n) / (n * N) * (1/Miux^2) * sum(diferencias_1981_1980)/(n-1)

VarianzaTy <- varianza_razon1*(TotalTy^2)

SumaDiferencia <- sum(diferencias_1981_1980) 
                                      
# Límite para el error de estimación
limite_error_razon <- 2 * sqrt(VarianzaTy)

# Resultados
cat("(a) Estimador de razón del ingreso total de 1981: ", estimacion_razon_1981, "\n")

## (a) Estimador de razón del ingreso total de 1981:  2433.299

cat("Límite para el error de estimación (razón): ", limite_error_razon, "\n")

## Límite para el error de estimación (razón):  45.95422

#Ejercicio 6.24

Problema <-"El gerente de ventas de una empresa quiere medir la relación entre las ventas mensuales y los costos de publicidad mensuales. Usted qué parámetros le sugeriría estimar?¿Por qué? ¿Qué datos debe recolectar el gerente?"

Opción1 <- " Coeficiente de correlación (Pearson) ¿Por qué?: El coeficiente de correlación mide la fuerza y dirección de la relación lineal entre las ventas y los costos de publicidad. Este valor se encuentra entre -1 y 1"

#Si es cercano a 1, indica una fuerte relación positiva (a mayor publicidad, mayores ventas).

#Si es cercano a -1, indica una relación negativa.

#Si es cercano a 0, sugiere que no hay una relación lineal clara."

#Datos necesarios: Datos históricos de las ventas y de los costos de publicidad para varios meses.

Opción2 <-  "Coeficiente de determinación𝑅^2 ¿Por qué?: El R^2 muestra qué proporción de la variabilidad en las ventas puede explicarse por los costos de publicidad. Si R^2 es alto (cercano a 1), significa que los costos de publicidad tienen un gran impacto en las ventas"

#Datos necesarios: Los datos de ventas y costos de publicidad a lo largo de varios meses.

cat("Next exercise")

## Next exercise

#Ejercicio 6.25

Problema <-"Una empresa industrial elabora un producto que es empaquetado, para propósitosde mercado, en dos marcas comerciales. Estas dos marcas sirven como estratos para estimar el volumen potencial de ventas para el trimestre siguiente. Una muestra irrestricta aleatoria de clientes para cada marca es entrevistada para proporcionar una cantidad potencial y de ventas (en número de unidades) para el próximo trimestre. La cifra de las ventas verdaderas del año pasado, para el mismo trimestre, está disponible para cada uno de los clientes muestreados y se denota por x. Los datos se presentan en la tabla anexa. La muestra para la marca I fue tomada de una lista de 120 clientes, para quienes el total de ventasen el mismo trimestre del año pasado fue de 24,500 unidades. La muestra de la marca II viene de 180 clientes, con un total trimestral de ventas para el ano pasado de 21,000 unidades. Encuentre una estimación de razón del total potencial de ventas para el próximo trimestre. Estime la varianza de su estimador."

# Datos 
x1_marca1 <- c(204, 143, 82, 256, 275, 198)
y1_marca1 <- c(210, 160, 75, 280, 300, 190)

x1_marca2 <- c(137, 189, 119, 63, 103, 107, 159, 63, 87)
y1_marca2 <- c(150, 200, 125, 60, 110, 100, 180, 75, 90)

datos_marca1 <- data.frame(x = x1_marca1, y = y1_marca1)
datos_marca2 <- data.frame(x = x1_marca2, y = y1_marca2)

# Totales de ventas del año pasado
T_x1 <- 24500
T_x2 <- 21000

# Número de clientes
N1 <- 120
N2 <- 180

# Tamaños muestrales
n1 <- length(x1_marca1)
n2 <- length(x1_marca2)

# Fracciones de muestreo
f1 <- n1 / N1
f2 <- n2 / N2

# Calculo de las medias muestrales
x_bar1 <- mean(x1_marca1)
y_bar1 <- mean(y1_marca1)

x_bar2 <- mean(x1_marca2)
y_bar2 <- mean(y1_marca2)

# Estimadores de razón
R1 <- y_bar1 / x_bar1
R2 <- y_bar2 / x_bar2

# Estimadores del total
T_y1_hat <- R1 * T_x1
T_y2_hat <- R2 * T_x2

# Varianzas muestrales
S2_y1 <- var(y1_marca1)
S2_x1 <- var(x1_marca1)
S2_y2 <- var(y1_marca2)
S2_x2 <- var(x1_marca2)

# Covarianza muestral
S_xy1 <- cov(x1_marca1, y1_marca1)
S_xy2 <- cov(x1_marca2, y1_marca2)

# Varianzas del estimador de razón
V_T_y1_hat <- N1^2 * (1 - f1) * (S2_y1 + R1^2 * S2_x1 - 2 * R1 * S_xy1) / n1
V_T_y2_hat <- N2^2 * (1 - f2) * (S2_y2 + R2^2 * S2_x2 - 2 * R2 * S_xy2) / n2

# Varianza total combinada
V_T_y_hat <- V_T_y1_hat + V_T_y2_hat

# Estimador total combinado
T_y_hat <- T_y1_hat + T_y2_hat

# Imprimir resultados

print(paste("Estimador del total potencial de ventas (T_y_hat):", round(T_y_hat, 4)))

## [1] "Estimador del total potencial de ventas (T_y_hat): 47994.1767"

cat("Varianza estimada del estimador de razón combinado (V_T_y_hat):", V_T_y_hat, "\n")

## Varianza estimada del estimador de razón combinado (V_T_y_hat): 564612.8

EJERCICIOS MUESTREO CAP 6

Yorbin Matias Sequeira Obando

2024-10-07