ACA01 ESTADISTICA ANALISIS

Parte 01

Se carga la tabla para desarrollar el ejercicio.

library(readxl)
sector_a <- read_excel("~/R/proyectos/ACAESTADISTICA02/DATOS ACA A.xlsx")
sector_a = data.frame(sector_a)
#Se muestran los datos del sector A
head (sector_a)

Sector	Inmueble	tipo	estrato	numero.habitantes	metros.cuadrados
A	1	Residencial	Medio	3	67.11
A	2	Residencial	Bajo	7	65.21
A	3	Residencial	Bajo	1	75.96
A	4	No Residencial	Alto	1	71.34
A	5	Residencial	Alto	5	67.80
A	6	Residencial	Bajo	5	67.82

library(readxl)
sector_b <- read_excel("~/R/proyectos/ACAESTADISTICA02/DATOS ACA B.xlsx")
sector_b = data.frame(sector_b)
head (sector_b)

Sector	Inmueble	tipo	estrato	numero.habitantes	metros.cuadrados
B	1	Residencial	Bajo	3	88.46
B	2	Residencial	Bajo	2	80.78
B	3	Residencial	Bajo	7	93.28
B	4	No Residencial	Alto	7	67.11
B	5	Residencial	Alto	5	65.21
B	6	Residencial	Bajo	7	75.96

#Se muestran los datos del sector B

Con respecto a los inmuebles del sector B, estimar el porcentaje (proporción) y error estándar de inmuebles residenciales que hace parte del estrato bajo entre de 65 y 85 (inclusive) metros cuadrados construidos.

## Proporcion

propor_b = mean(sector_b$estrato == "Bajo" & sector_b$metros.cuadrados >= 65 & sector_b$metros.cuadrados <= 85)

eest_b = sqrt(propor_b * (1 - propor_b) / nrow(sector_b))

cat("La proporcion es: ", propor_b, "\n")

## La proporcion es:  0.5211268

cat("EL error estándar es: ", eest_b, "\n")

## EL error estándar es:  0.05928609

Proponga un intervalo de confianza del 97,43%, para establecer la proporción de inmuebles de tipo residencial y que al mismo tiempo sea de estrato medio para el sector A.

propor_a = mean(sector_a$estrato == "Medio" & sector_a$tipo == "Residencial")
propor_a

## [1] 0.11

in_con = prop.test(x = round(propor_a * (nrow(sector_a))), n = (nrow(sector_b)), conf.level = 0.9743)$conf.int

#0.07721882 0.28096313

cat("Elmintervalo de confianza del 97,43% es: ", in_con, "\n")

## Elmintervalo de confianza del 97,43% es:  0.07721882 0.2809631

¿Es posible inferir que más del 69% de los inmuebles del sector A tienen menos de 70 metros cuadrados?

propor_a1 = mean(sector_a$metros.cuadrados < 70)
propor_a1

## [1] 0.46

cat("la proporcion de inmuebles del sector A que tienen menos de 70 metros cuadrados (no se incluye 70) es de: ", propor_a1, " por lo cual no se puede inferir que es 69% sino 46%")

## la proporcion de inmuebles del sector A que tienen menos de 70 metros cuadrados (no se incluye 70) es de:  0.46  por lo cual no se puede inferir que es 69% sino 46%

Usando una prueba de hipótesis con el 97,45% de confianza e indicar si hay diferencias significativas entre los metros cuadrados de los inmuebles de sector A y del sector B. (suponer normalidad) (Sugerencia: No olvide estudiar la varianza de los metros cuadrados de cada sector para decidir qué prueba usar)

# Varianza 1: x = sector a, y = sector b
v1= var.test(sector_a$metros.cuadrados, sector_b$metros.cuadrados, conf.level = 0.9745)$conf.int
cat("La varianza teniendo en cuenta x = sector a, y = sector b, es :", v1, "\n")

## La varianza teniendo en cuenta x = sector a, y = sector b, es : 0.4153198 1.12315

cat("La diferencai de varianza seria 0.4153198 - 1.12315 y como resultado es: ",0.4153198 - 1.12315, "\n")

## La diferencai de varianza seria 0.4153198 - 1.12315 y como resultado es:  -0.7078302

# Varianza 2: b = sector b, y = sector a
v2= var.test(sector_b$metros.cuadrados, sector_a$metros.cuadrados, conf.level = 0.9745)$conf.int
cat("La varianza teniendo en cuenta x = sector b, y = sector a, es :", v2, "\n")

## La varianza teniendo en cuenta x = sector b, y = sector a, es : 0.8903533 2.407783

cat("La diferencia de varianza seria 0.8903533 - 2.407783 y como resultado es: ",0.8903533 - 2.407783, "\n")

## La diferencia de varianza seria 0.8903533 - 2.407783 y como resultado es:  -1.51743

cat("para definir las diferencias significativas del ejercicio se usará la v1 teniendo en cuenta x = sector a, y = sector b", "\n")

## para definir las diferencias significativas del ejercicio se usará la v1 teniendo en cuenta x = sector a, y = sector b

###

t.test(sector_a$metros.cuadrados,sector_b$metros.cuadrados,conf.level = 0.9745)

## 
##  Welch Two Sample t-test
## 
## data:  sector_a$metros.cuadrados and sector_b$metros.cuadrados
## t = 0.50945, df = 132.83, p-value = 0.6113
## alternative hypothesis: true difference in means is not equal to 0
## 97.45 percent confidence interval:
##  -1.899467  3.005557
## sample estimates:
## mean of x mean of y 
##  71.74220  71.18915

Pensando en un modelo de Poisson, ¿cuántos habitantes por inmueble se estima para el sector B? (No olvide calcular el error estandar). Estime la probabilidad de que las personas tengan entre 4 y 6 habitantes por inmuebles en el sector B. (Aquí NO es necesario calcular el error estándar).

## EStimado

habitantes = sum(sector_b$numero.habitantes)
inmuebles = nrow(sector_b)

estimado_hab_in = habitantes/inmuebles
estimado_hab_in

## [1] 4.830986

cat("El estimado segun Poisson para ", habitantes," habitantes y ",inmuebles," inmuebles es ",estimado_hab_in,"\n")

## El estimado segun Poisson para  343  habitantes y  71  inmuebles es  4.830986

## Error

eest_hab = sqrt(estimado_hab_in/inmuebles)

cat("EL error estándar es: ", eest_hab, "\n")

## EL error estándar es:  0.2608487

## 4 y 6 habitantes

lim_inf = 4
lim_sup = 6

# Se utiliza ppois para calcular la probabilidad acumulativa para el límite superior e inferior
pinf = ppois(lim_inf, estimado_hab_in)
psup = ppois(lim_sup, estimado_hab_in)

# Diferencia entre probabilidades 
plim = psup - pinf

# Mostrar resultados
cat("Probabilidad de tener entre", lim_inf, "y", lim_sup, "habitantes por inmueble en el sector B:", plim, "\n")

## Probabilidad de tener entre 4 y 6 habitantes por inmueble en el sector B: 0.3158231

Encontrar evidencia estadística para decidir si la proporción de inmuebles residenciales del Sector B, es 2 veces la proporción de inmuebles no residenciales.

a. Definir de la hipotesis

Ho = La proporción de inmuebles residenciales del Sector B es 2 veces la proporción de inmuebles no residenciales

Ha = La proporción de inmuebles residenciales del Sector B NO es 2 veces la proporción de inmuebles no residenciales

b. Calcular proporcion

# Total de inmuebles
inmuebles = nrow(sector_b)

# Contar el número de inmuebles residenciales y su proporcion
residenciales = sum(sector_b$tipo == "Residencial")
prop_res = residenciales/inmuebles

cat("El numero estimado de inmueblres residenciales es ", residenciales," de ",inmuebles," inmuebles; por lo cual su proporcion es: ",prop_res,"\n")

## El numero estimado de inmueblres residenciales es  57  de  71  inmuebles; por lo cual su proporcion es:  0.8028169

# Contar el número de inmuebles no residenciales y su proporcion
no_residenciales = sum(sector_b$tipo == "No Residencial")
prop_nores = no_residenciales/inmuebles

cat("El numero estimado de inmueblres no residenciales es ", no_residenciales," de ",inmuebles," inmuebles; por lo cual su proporcion es: ",prop_nores,"\n")

## El numero estimado de inmueblres no residenciales es  14  de  71  inmuebles; por lo cual su proporcion es:  0.1971831

c. Validación de la hipotesis:

Ho = La proporción de inmuebles residenciales del Sector B es 2 veces la proporción de inmuebles no residenciales

# Proporcion no residecial
prop_nores

## [1] 0.1971831

# La proporcion hipotesis es dos veces la proporcion de los no residenciales que debe ser igual a la proporcion residencial segun la hiporesis nula
prop_hipo = prop_nores * 2
prop_hipo

## [1] 0.3943662

cat("La proporcion residencial es ", prop_res, " la cual no es el doble de la proporcion no residencial porpuesta en la variable prop_hipo = ", prop_hipo , " .Por lo cual se rechaza la hipotesis nula")

## La proporcion residencial es  0.8028169  la cual no es el doble de la proporcion no residencial porpuesta en la variable prop_hipo =  0.3943662  .Por lo cual se rechaza la hipotesis nula

¿Hay evidencia estadística para decir que la proporción de inmnuebles NO residenciales del sector A es igual a la proporción de inmnuebles NO residenciales del sector B?

a. Definir de la hipotesis

Ho = la proporción de inmnuebles NO residenciales del sector A es igual a la proporción de inmnuebles NO residenciales del sector B

Ha = la proporción de inmnuebles NO residenciales del sector A NO es igual a la proporción de inmnuebles NO residenciales del sector B

b. Calcular proporcion

# Total de inmuebles sector a
inmuebles_a = nrow(sector_a)

# Contar el número de inmuebles no residenciales y su proporcion
no_residenciales_a = sum(sector_a$tipo == "No Residencial")
prop_nores_a = no_residenciales_a/inmuebles_a

cat("El numero estimado de inmueblres no residenciales del sector A es ", no_residenciales_a," de ",inmuebles_a," inmuebles; por lo cual su proporcion es: ",prop_nores_a,"\n")

## El numero estimado de inmueblres no residenciales del sector A es  20  de  100  inmuebles; por lo cual su proporcion es:  0.2

# Total de inmuebles sector b
inmuebles = nrow(sector_b)

# Contar el número de inmuebles no residenciales y su proporcion
no_residenciales = sum(sector_b$tipo == "No Residencial")
prop_nores = no_residenciales/inmuebles

cat("El numero estimado de inmueblres no residenciales es ", no_residenciales," de ",inmuebles," inmuebles; por lo cual su proporcion es: ",prop_nores,"\n")

## El numero estimado de inmueblres no residenciales es  14  de  71  inmuebles; por lo cual su proporcion es:  0.1971831

c. Validación de la hipotesis:

Ho = la proporción de inmnuebles NO residenciales del sector A es igual a la proporción de inmnuebles NO residenciales del sector B

# Proporcion no residecial del sector a
prop_nores_a

## [1] 0.2

# Proporcion no residecial del sector b
prop_nores

## [1] 0.1971831

# La hipotesis mencioa que ambas proporciones son iguales para lo cual vamos a redondear el valor de la proporcion no residecial del sector b y lo guardaremos en la variable prop_noresr

prop_noresr = round(prop_nores, digits = 2)

cat("La proporcion no residencial del sector a es ", prop_nores_a, " y la proporcion no residencial del sector b es ", prop_noresr, " .Por lo cual hay evidenvia estadistica para afirmar que la hipotesis nula es correcta")

## La proporcion no residencial del sector a es  0.2  y la proporcion no residencial del sector b es  0.2  .Por lo cual hay evidenvia estadistica para afirmar que la hipotesis nula es correcta

Parte 02

Sea una muestra dada por:

muestra1 = c(4,3,4,5,4,3,2,3,4,5)
muestra1

##  [1] 4 3 4 5 4 3 2 3 4 5

Se asume normalidad y responder:

La estimación del promedio es

promedio = mean(muestra1)
cat("El promedio es: ", promedio)

## El promedio es:  3.7

Un intervalo de confianza del 95% para la media es:

int_conf_m1 = t.test(muestra1,conf.level = 0.95)$conf.int
cat("El intervalo de confianza del 95% para la media es: ", int_conf_m1)

## El intervalo de confianza del 95% para la media es:  3.021353 4.378647

c.Un intervalo de confianza del 92% para la varianza del punto 1 es:

# Total de la muestra
t_muestra = length(muestra1)

# Varianza muestral
var_muestra_1 = var(muestra1)

# Grados de libertad
grad_lib = t_muestra - 1

# Nivel de confianza (1 - alpha)
confianza = 0.92

# Calcular los valores críticos de la distribución chi-cuadrado
valor_critico_inf = qchisq((1 - confianza) / 2, df = grad_lib)
valor_critico_sup = qchisq(1 - (1 - confianza) / 2, df = grad_lib)

# Calcular el intervalo de confianza para la varianza
int_conf_varianza = c((grad_lib * var_muestra_1) / valor_critico_sup,
                                  (grad_lib * var_muestra_1) / valor_critico_inf)

cat("El intervalo de confianza del 92% para la varianza es:", int_conf_varianza)

## El intervalo de confianza del 92% para la varianza es: 0.4600109 2.608972

2.1. Sea otra muestra dada por:

muestra2 = c(4,5,2,5,2,4,2)
muestra2

## [1] 4 5 2 5 2 4 2

Asumiendo normalidad y aceptando sin comprobar que las varianzas son iguales pero desconocidas,

¿será que hay evidencia estadística para decir que hay diferencia significativa entre esta muestra y la muestra dada por el punto 1.?

difer_m1_m2 = t.test(muestra1, muestra2, var.equal = TRUE)$p.value
cat("El p-value es:", difer_m1_m2, ", por lo cual estadisticamente no hay suficiente evidencia para concluir que hay una diferencia significativa entre las dos muestras")

## El p-value es: 0.6386924 , por lo cual estadisticamente no hay suficiente evidencia para concluir que hay una diferencia significativa entre las dos muestras

3.Si se sabe con anterioridad que un intervalo de confianza del 95% para estimar una proporción es (0.9167, 0.9500), se puede deducir del intervalo que la proporción estimada es 91.67% y el 95%

Asumiendo que la muestra dada es Poisson

muestra3 = c(3,4,3,2,3,4,5,6)
muestra3

## [1] 3 4 3 2 3 4 5 6

Entonces:

El parámetro del modelo Poisson estimado es:

parametro_muestra3 = mean(muestra3)
cat("El parametro del modelo Poisson estimado es ", parametro_muestra3)

## El parametro del modelo Poisson estimado es  3.75

Su error estándar o variabilidad es:

eest_muestra3 = sqrt(parametro_muestra3)
cat("El error estándar o variabilidad es ", eest_muestra3)

## El error estándar o variabilidad es  1.936492

ACA01 ESTADISTICA ANALISIS

Jhonathan Correa - Camilo Rojas

27-03-24

Parte 01

a. Definir de la hipotesis

b. Calcular proporcion

c. Validación de la hipotesis:

a. Definir de la hipotesis

b. Calcular proporcion

c. Validación de la hipotesis:

Parte 02