Vamos a generar una población de \(1.000\) datos con un porcentaje de plantas enfermas sea del 50% para lo cual haremos el convenio
ahora crearemos la población de 1.000 plantas de manera que los resultados sean aleatorios.
# Generar una secuencia de 0s y 1s
valores <- rep(c(0, 1), each = 500)
# comprobar que hayan 1.000 valores
table(valores)# verificar que hayan exactamente 50% de plantas enfermas
## valores
## 0 1
## 500 500
set.seed(123)# semilla para obtener siempre la misma población
# Mezclar aleatoriamente los valores
mezcla <- sample(valores)
poblacion<-data.frame(mezcla)# comprobar que sean aleatorios los valores
head(poblacion)
## mezcla
## 1 0
## 2 0
## 3 0
## 4 1
## 5 0
## 6 1
se crea la función que se repita 500 veces el proceso de seleccionar una muestra de tamaño \(n\) y calcule el estimador \(\hat{p}\)
# n tamaño de la muestra
proporcion<-function(n){
conteos_unos<-vector()
prop<- vector()
for (i in 1:500) {
muestra <- sample(poblacion$mezcla,n, replace = TRUE)
conteos_unos[i] <- sum(muestra == 1) # número de 1 por cada muestra
prop[i]<-round(conteos_unos[i]/n,4)
tlc<-data.frame(prop[])
}
return(tlc)
}
para un valor de \(n=300\)
set.seed(1213)# semilla para obtener los mismos resultados
y0<-proporcion(300)
hist(y0$prop.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=300")
shapiro.test(y0$prop..)
##
## Shapiro-Wilk normality test
##
## data: y0$prop..
## W = 0.99631, p-value = 0.302
qqnorm(y0$prop..)
qqline(y0$prop..)
### Asimetria y variabilidad
library(moments)
simetr<-skewness(y0$prop..)
varianza<-var(y0$prop..)
desv<-sd(y0$prop..)
mediana<- median(y0$prop..)
media<- mean(y0$prop..)
cv<-(desv/media)*100
boxplot(y0$prop..,main = "Proporcion Muestral n= 300", col = "green")
cat("El coheficiente de simetria es :",simetr,"\n","La mediana es: ", mediana,"\n","La varianza es: ", varianza,"\n","El cohefiiente de variacion es: ", cv)
## El coheficiente de simetria es : -0.1748297
## La mediana es: 0.5
## La varianza es: 0.000811119
## El cohefiiente de variacion es: 5.700826
abline(h=media, col= "red", lwd = 2 ,lty=2)
se observa una ligera asimetria hacia la izquierda es decir negativa ademas presenta un coeficiente de variacion del 5.7\(\%\) lo cual indica poca variabilidad respecto al promedio. y mediante la prueba de shapiro-Wilks no se rechaza el hecho de que los datos provengan de una distribucion normal.
para \(n=5\)
set.seed(12)# semilla para obtener los mismos resultados
y1<-proporcion(5)
hist(y1$prop.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=5")
shapiro.test(y1$prop..)
##
## Shapiro-Wilk normality test
##
## data: y1$prop..
## W = 0.92909, p-value = 1.222e-14
qqnorm(y1$prop..)
qqline(y1$prop..)
para \(n=10\)
set.seed(123)# semilla para obtener los mismos resultados
y2<-proporcion(10)
hist(y2$prop.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=10")
shapiro.test(y2$prop..)
##
## Shapiro-Wilk normality test
##
## data: y2$prop..
## W = 0.96377, p-value = 9.254e-10
qqnorm(y2$prop..)
qqline(y2$prop..)
para \(n=15\)
set.seed(124)# semilla para obtener los mismos resultados
y2<-proporcion(15)
hist(y2$prop.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=15")
shapiro.test(y2$prop..)
##
## Shapiro-Wilk normality test
##
## data: y2$prop..
## W = 0.97498, p-value = 1.525e-07
qqnorm(y2$prop..)
qqline(y2$prop..)
para \(n=20\)
set.seed(125)# semilla para obtener los mismos resultados
y4<-proporcion(20)
hist(y4$prop.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=20")
shapiro.test(y4$prop..)
##
## Shapiro-Wilk normality test
##
## data: y4$prop..
## W = 0.98082, p-value = 3.704e-06
qqnorm(y4$prop..)
qqline(y4$prop..)
para \(n=30\)
set.seed(126)# semilla para obtener los mismos resultados
y5<-proporcion(30)
hist(y5$prop.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=30")
shapiro.test(y5$prop..)
##
## Shapiro-Wilk normality test
##
## data: y5$prop..
## W = 0.98506, p-value = 5.21e-05
qqnorm(y5$prop..)
qqline(y5$prop..)
para \(n=50\)
set.seed(127)# semilla para obtener los mismos resultados
y6<-proporcion(50)
hist(y6$prop.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=50")
shapiro.test(y6$prop..)
##
## Shapiro-Wilk normality test
##
## data: y6$prop..
## W = 0.99154, p-value = 0.005944
qqnorm(y6$prop..)
qqline(y6$prop..)
para \(n=60\)
set.seed(128)# semilla para obtener los mismos resultados
y7<-proporcion(60)
hist(y7$prop.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=60")
shapiro.test(y7$prop..)
##
## Shapiro-Wilk normality test
##
## data: y7$prop..
## W = 0.99263, p-value = 0.01459
qqnorm(y7$prop..)
qqline(y7$prop..)
para \(n=100\)
set.seed(123)# semilla para obtener los mismos resultados
y8<-proporcion(100)
set.seed(129)# semilla para obtener los mismos resultados
hist(y8$prop.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=100")
shapiro.test(y8$prop..)
##
## Shapiro-Wilk normality test
##
## data: y8$prop..
## W = 0.99515, p-value = 0.1194
qqnorm(y8$prop..)
qqline(y8$prop..)
para \(n=200\)
set.seed(1210)# semilla para obtener los mismos resultados
y9<-proporcion(200)
hist(y9$prop.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=200")
shapiro.test(y9$prop..)
##
## Shapiro-Wilk normality test
##
## data: y9$prop..
## W = 0.9953, p-value = 0.1354
qqnorm(y9$prop..)
qqline(y9$prop..)
para \(n=500\)
set.seed(1211)# semilla para obtener los mismos resultados
y10<-proporcion(500)
hist(y10$prop.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=500")
shapiro.test(y10$prop..)
##
## Shapiro-Wilk normality test
##
## data: y10$prop..
## W = 0.99483, p-value = 0.09145
qqnorm(y10$prop..)
qqline(y10$prop..)
De los resultados obtenidos podemos notar que mediante el uso de la prueba de normalidad de shapiro- Wilks para las muestras inferiores \(n=100\) se observa el rechazo de la hipotesis nula \(H_{0}: Los \, datos\, provienen\, de\,una\,distribucion\,normal\) ya que \(p-valor<0,05\) y esto se comprueba mediante la visualizacion de QQ-plot
Por el teorema central del limite establece que la distribucion muestral \(\hat{p}\) sigue una distribucion normal con media \(\mu =P\) y desviacion estandar \(\sigma =\frac{\sqrt{p(1-p)}}{n}\), de lo cual por el experimento sabemos que el parametro \(P=0.5\) y observamos que a medida que tomamos muestras de mayor tamaño los estimadores puntuales tienden a concentrarse en torno al parametro real a traves de observar los histogramas.
Vamos a generar una población de \(1.000\) datos con un porcentaje de plantas enfermas sea del 10% para lo cual haremos el convenio
ahora crearemos la población de 1.000 plantas de manera que los resultados sean aleatorios.
valores1 <- c(rep(0,900),rep(1,100))
# comprobar que hayan 1.000 valores
table(valores1)# verificar que hayan exactamente 10% de plantas enfermas
## valores1
## 0 1
## 900 100
set.seed(1234)# semilla para obtener siempre la misma población
# Mezclar aleatoriamente los valores
mezcla1 <- sample(valores1)
poblacion1<-data.frame(mezcla1)# comprobar que sean aleatorios los valores
head(poblacion1)
## mezcla1
## 1 0
## 2 0
## 3 1
## 4 0
## 5 0
## 6 1
se crea la función que se repita 500 veces el proceso de seleccionar una muestra de tamaño \(n\) y calcule el estimador \(\hat{p}\)
# n tamaño de la muestra
proporcion1<-function(n){
conteos_unos1 <- vector()
prop1 <- vector()
for (i in 1:500) {
muestra1<- sample(poblacion1$mezcla1,n, replace = TRUE)
conteos_unos1[i] <- sum(muestra1 == 1) # número de 1 por cada muestra
prop1[i]<-round(conteos_unos1[i]/n,4)
tlc1<-data.frame(prop1[])
}
return(tlc1)
}
para un valor de \(n=300\)
set.seed(1213)# semilla para obtener los mismos resultados
a0<-proporcion1(300)
media0<-mean(a0$prop1..)
cat("La media para una muestra de n=300 es :", media0)
## La media para una muestra de n=300 es : 0.0986258
hist(a0$prop1.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=300")
shapiro.test(a0$prop1..)
##
## Shapiro-Wilk normality test
##
## data: a0$prop1..
## W = 0.99055, p-value = 0.002709
qqnorm(a0$prop1..)
qqline(a0$prop1..)
### Asimetria y variabilidad
library(moments)
simetr1<-skewness(a0$prop1..)
varianza1<-var(a0$prop1..)
desv1<-sd(a0$prop1..)
mediana1<- median(a0$prop1..)
media1<- mean(a0$prop1..)
cv1<-(desv1/media1)*100
boxplot(a0$prop1..,main = "Proporcion Muestral n= 300", col = "green")
cat("El coheficiente de simetria es :",simetr1,"\n","La mediana es: ", mediana1,"\n","La varianza es: ", varianza1,"\n","El cohefiiente de variacion es: ", cv1,"\n" , "la media es : ",media1)
## El coheficiente de simetria es : 0.1979635
## La mediana es: 0.0967
## La varianza es: 0.0003052954
## El cohefiiente de variacion es: 17.71616
## la media es : 0.0986258
abline(h=media1, col= "red", lwd = 2 ,lty=2)
Se observa una ligera asimetria hacia la derecha (positiva) ademas presenta un coeficiente de variacion del 17.7\(\%\) lo cual indica poca variabilidad respecto al promedio. y mediante la prueba de shapiro-Wilks se rechaza el hecho de que los datos provengan de una distribucion normal, a pesar de que la media y la mediana estan muy cerca.
para \(n=5\)
set.seed(12)# semilla para obtener los mismos resultados
a1<-proporcion1(5)
media2<-mean(a1$prop1..)
cat("La media para una muestra de n=5 es :", media2)
## La media para una muestra de n=5 es : 0.0984
hist(a1$prop1.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=5")
shapiro.test(a1$prop1..)
##
## Shapiro-Wilk normality test
##
## data: a1$prop1..
## W = 0.69857, p-value < 2.2e-16
qqnorm(a1$prop1..)
qqline(a1$prop1..)
para \(n=10\)
set.seed(123)# semilla para obtener los mismos resultados
a2<-proporcion1(10)
media3<-mean(a2$prop1..)
cat("La media para una muestra de n=10 es :", media3)
## La media para una muestra de n=10 es : 0.0984
hist(a2$prop1.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=10")
shapiro.test(a2$prop1..)
##
## Shapiro-Wilk normality test
##
## data: a2$prop1..
## W = 0.83243, p-value < 2.2e-16
qqnorm(a2$prop1..)
qqline(a2$prop1..)
para \(n=15\)
set.seed(124)# semilla para obtener los mismos resultados
a3<-proporcion1(15)
media4<-mean(a3$prop1..)
cat("La media para una muestra de n=15 es :", media4)
## La media para una muestra de n=15 es : 0.103604
hist(a3$prop1.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=15")
shapiro.test(a2$prop1..)
##
## Shapiro-Wilk normality test
##
## data: a2$prop1..
## W = 0.83243, p-value < 2.2e-16
qqnorm(a3$prop1..)
qqline(a3$prop1..)
para \(n=20\)
set.seed(125)# semilla para obtener los mismos resultados
a4<-proporcion1(20)
media5<-mean(a4$prop1..)
cat("La media para una muestra de n=20 es :", media5)
## La media para una muestra de n=20 es : 0.1003
hist(a4$prop1.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=20")
shapiro.test(a4$prop1..)
##
## Shapiro-Wilk normality test
##
## data: a4$prop1..
## W = 0.92255, p-value = 2.307e-15
qqnorm(a4$prop1..)
qqline(a4$prop1..)
para \(n=30\)
set.seed(126)# semilla para obtener los mismos resultados
a5<-proporcion1(30)
media6<-mean(a5$prop1..)
cat("La media para una muestra de n=30 es :", media6)
## La media para una muestra de n=30 es : 0.1002672
hist(a5$prop1.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=30")
shapiro.test(a5$prop1..)
##
## Shapiro-Wilk normality test
##
## data: a5$prop1..
## W = 0.94882, p-value = 3.93e-12
qqnorm(a5$prop1..)
qqline(a5$prop1..)
para \(n=50\)
set.seed(127)# semilla para obtener los mismos resultados
a6<-proporcion1(50)
media7<-mean(a6$prop1..)
cat("La media para una muestra de n=50 es :", media7)
## La media para una muestra de n=50 es : 0.0982
hist(a6$prop1.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=50")
shapiro.test(a6$prop1..)
##
## Shapiro-Wilk normality test
##
## data: a6$prop1..
## W = 0.96763, p-value = 4.747e-09
qqnorm(a6$prop1..)
qqline(a6$prop1..)
para \(n=60\)
set.seed(128)# semilla para obtener los mismos resultados
a7<-proporcion1(60)
media8<-mean(a7$prop1..)
cat("La media para una muestra de n=60 es :", media8)
## La media para una muestra de n=60 es : 0.1027342
hist(a7$prop1.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=60")
shapiro.test(a7$prop1..)
##
## Shapiro-Wilk normality test
##
## data: a7$prop1..
## W = 0.97867, p-value = 1.082e-06
qqnorm(a7$prop1..)
qqline(a7$prop1..)
para \(n=100\)
set.seed(123)# semilla para obtener los mismos resultados
a8<-proporcion1(100)
media9<-mean(a8$prop1..)
cat("La media para una muestra de n=100 es :", media9)
## La media para una muestra de n=100 es : 0.1004
set.seed(129)# semilla para obtener los mismos resultados
hist(a8$prop1.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=100")
shapiro.test(a8$prop1..)
##
## Shapiro-Wilk normality test
##
## data: a8$prop1..
## W = 0.97856, p-value = 1.019e-06
qqnorm(a8$prop1..)
qqline(a8$prop1..)
para \(n=200\)
set.seed(1210)# semilla para obtener los mismos resultados
a9<-proporcion1(200)
media10<-mean(a9$prop1..)
cat("La media para una muestra de n=200 es :", media10)
## La media para una muestra de n=200 es : 0.10082
hist(a9$prop1.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=200")
shapiro.test(a9$prop1..)
##
## Shapiro-Wilk normality test
##
## data: a9$prop1..
## W = 0.99282, p-value = 0.01706
qqnorm(a9$prop1..)
qqline(a9$prop1..)
para \(n=500\)
set.seed(1211)# semilla para obtener los mismos resultados
a10<-proporcion1(500)
media11<-mean(a10$prop1..)
cat("La media para una muestra de n=500 es :", media11)
## La media para una muestra de n=500 es : 0.100856
hist(a10$prop1.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=500")
shapiro.test(a10$prop1..)
##
## Shapiro-Wilk normality test
##
## data: a10$prop1..
## W = 0.99343, p-value = 0.02829
qqnorm(a10$prop1..)
qqline(a10$prop1..)
Observamos para todas la muestras se presento un sesgo hacia la derecha de la distribucion de los datos a traves del histograma ademas de que en todos los tamaños de muestra se rechazo la hipotesis nula, sin embargo el promedio de cada muestra se acerca al parametro \(P=0.10\)
A pesar de que en todas las muestras se rechazo la hipótesis nula mediante la prueba de Shapiro_Wilks, se cumplio el hecho de que los valores de \(\hat{p}\) se acrecaran a el valor parametro \(\mu=P=0.10\), validando de esta forma el teorema del limite central para una numero grande de datos.
Vamos a generar una población de \(1.000\) datos con un porcentaje de plantas enfermas sea del 90% para lo cual haremos el convenio
ahora crearemos la población de 1.000 plantas de manera que los resultados sean aleatorios.
# Generar una secuencia de 0s y 1s
valores2 <- c(rep(0,100),rep(1,900))
# comprobar que hayan 1.000 valores
table(valores2)# verificar que hayan exactamente 50% de plantas enfermas
## valores2
## 0 1
## 100 900
set.seed(12345)# semilla para obtener siempre la misma población
# Mezclar aleatoriamente los valores
mezcla2 <- sample(valores2)
poblacion2<-data.frame(mezcla2)# comprobar que sean aleatorios los valores
head(poblacion2)
## mezcla2
## 1 1
## 2 0
## 3 1
## 4 1
## 5 1
## 6 1
se crea la función que se repita 500 veces el proceso de seleccionar una muestra de tamaño \(n\) y calcule el estimador \(\hat{p}\)
# n tamaño de la muestra
propor1<-function(n){
conteos_1<-vector()
prop2<- vector()
for (i in 1:500) {
mu2<- sample(poblacion2$mezcla2,n, replace = TRUE)
conteos_1[i] <- sum(mu2 == 1) # número de 1 por cada muestra
prop2[i]<-round(conteos_1[i]/n,4)
tlc2<-data.frame(prop2[])
}
return(tlc2)
}
para un valor de \(n=300\)
set.seed(1213)# semilla para obtener los mismos resultados
b0<-propor1(300)
med0<-mean(b0$prop2..)
cat("La media para una muestra de n=300 es :", med0)
## La media para una muestra de n=300 es : 0.9006942
hist(b0$prop2.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=300")
shapiro.test(b0$prop2..)
##
## Shapiro-Wilk normality test
##
## data: b0$prop2..
## W = 0.99259, p-value = 0.01405
qqnorm(b0$prop2..)
qqline(b0$prop2..)
### Asimetria y variabilidad
library(moments)
sim<-skewness(b0$prop2..)
vari<-var(b0$prop2..)
des1<-sd(b0$prop2..)
medi<- median(b0$prop2..)
med<- mean(b0$prop2..)
cv0<-(des1/med)*100
boxplot(b0$prop2..,main = "Proporcion Muestral n= 300", col = "green")
cat("El coheficiente de simetria es :",sim,"\n","La mediana es: ", medi,"\n","La varianza es: ", vari,"\n","El cohefiiente de variacion es: ", cv0,"\n" , "la media es : ",med)
## El coheficiente de simetria es : -0.169509
## La mediana es: 0.9
## La varianza es: 0.0002987372
## El cohefiiente de variacion es: 1.918966
## la media es : 0.9006942
abline(h=med, col= "red", lwd = 2 ,lty=2)
Las diferentes muestras de tamaño 300 se comportan en su distribución con una asimetria negativa con respecto a la media de -0.169509 lo cual muestra que los datos presentan un sesgo a lo cual agregamos que la media y la mediana estan muy proximos, para el analisis de variabilidadlo haremos mediante el coheficiente de variacion del 1.9\(\%\) lo cual indica que los datos estan muy cercanos a la media.
para \(n=5\)
set.seed(12)# semilla para obtener los mismos resultados
b1<-propor1(5)
med2<-mean(b1$prop2..)
cat("La media para una muestra de n=5 es :", med2)
## La media para una muestra de n=5 es : 0.8988
hist(b1$prop2.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=5")
shapiro.test(b1$prop2..)
##
## Shapiro-Wilk normality test
##
## data: b1$prop2..
## W = 0.71132, p-value < 2.2e-16
qqnorm(b1$prop2..)
qqline(b1$prop2..)
### prueba 2
para \(n=10\)
set.seed(123)# semilla para obtener los mismos resultados
b2<-propor1(10)
med3<-mean(b2$prop2..)
cat("La media para una muestra de n=10 es :", med3)
## La media para una muestra de n=10 es : 0.8982
hist(b2$prop2.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=10")
shapiro.test(b2$prop2..)
##
## Shapiro-Wilk normality test
##
## data: b2$prop2..
## W = 0.8494, p-value < 2.2e-16
qqnorm(b2$prop2..)
qqline(b2$prop2..)
para \(n=15\)
set.seed(124)# semilla para obtener los mismos resultados
b3<-propor1(15)
med4<-mean(b3$prop2..)
cat("La media para una muestra de n=15 es :", med4)
## La media para una muestra de n=15 es : 0.8994634
hist(b3$prop2.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=15")
shapiro.test(b2$prop2..)
##
## Shapiro-Wilk normality test
##
## data: b2$prop2..
## W = 0.8494, p-value < 2.2e-16
qqnorm(b3$prop2..)
qqline(b3$prop2..)
para \(n=20\)
set.seed(125)# semilla para obtener los mismos resultados
b4<-propor1(20)
med5<-mean(b4$prop2..)
cat("La media para una muestra de n=20 es :", med5)
## La media para una muestra de n=20 es : 0.8971
hist(b4$prop2.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=20")
shapiro.test(b4$prop2..)
##
## Shapiro-Wilk normality test
##
## data: b4$prop2..
## W = 0.92078, p-value = 1.496e-15
qqnorm(b4$prop2..)
qqline(b4$prop2..)
para \(n=30\)
set.seed(126)# semilla para obtener los mismos resultados
b5<-propor1(30)
med6<-mean(b5$prop2..)
cat("La media para una muestra de n=30 es :", med6)
## La media para una muestra de n=30 es : 0.9056666
hist(b5$prop2.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=30")
shapiro.test(b5$prop2..)
##
## Shapiro-Wilk normality test
##
## data: b5$prop2..
## W = 0.92766, p-value = 8.408e-15
qqnorm(b5$prop2..)
qqline(b5$prop2..)
para \(n=50\)
set.seed(127)# semilla para obtener los mismos resultados
b6<-propor1(50)
med7<-mean(b6$prop2..)
cat("La media para una muestra de n=50 es :", med7)
## La media para una muestra de n=50 es : 0.89708
hist(b6$prop2.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=50")
shapiro.test(b6$prop2..)
##
## Shapiro-Wilk normality test
##
## data: b6$prop2..
## W = 0.97241, p-value = 4.269e-08
qqnorm(b6$prop2..)
qqline(b6$prop2..)
para \(n=60\)
set.seed(128)# semilla para obtener los mismos resultados
b7<-propor1(60)
med8<-mean(b7$prop2..)
cat("La media para una muestra de n=60 es :", med8)
## La media para una muestra de n=60 es : 0.8984992
hist(b7$prop2.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=60")
shapiro.test(b7$prop2..)
##
## Shapiro-Wilk normality test
##
## data: b7$prop2..
## W = 0.97064, p-value = 1.844e-08
qqnorm(b7$prop2..)
qqline(b7$prop2..)
para \(n=100\)
set.seed(123)# semilla para obtener los mismos resultados
b8<-propor1(100)
med9<-mean(b8$prop2..)
cat("La media para una muestra de n=100 es :", med9)
## La media para una muestra de n=100 es : 0.89984
set.seed(129)# semilla para obtener los mismos resultados
hist(b8$prop2.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=100")
shapiro.test(b8$prop2..)
##
## Shapiro-Wilk normality test
##
## data: b8$prop2..
## W = 0.98904, p-value = 0.0008562
qqnorm(b8$prop2..)
qqline(b8$prop2..)
para \(n=200\)
set.seed(1210)# semilla para obtener los mismos resultados
b9<-propor1(200)
med10<-mean(b9$prop2..)
cat("La media para una muestra de n=200 es :", med10)
## La media para una muestra de n=200 es : 0.89867
hist(b9$prop2.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=200")
shapiro.test(b9$prop2..)
##
## Shapiro-Wilk normality test
##
## data: b9$prop2..
## W = 0.99237, p-value = 0.01173
qqnorm(b9$prop2..)
qqline(b9$prop2..)
para \(n=500\)
set.seed(1211)# semilla para obtener los mismos resultados
b10<-propor1(500)
med11<-mean(b10$prop2..)
cat("La media para una muestra de n=500 es :", med11)
## La media para una muestra de n=500 es : 0.8995
hist(b10$prop2.., ylab = "frecuencia", xlab = " Estimador p",main = "Distribucion del Estimador Muestral n=500")
shapiro.test(b10$prop2..)
##
## Shapiro-Wilk normality test
##
## data: b10$prop2..
## W = 0.99713, p-value = 0.5351
qqnorm(b10$prop2..)
qqline(b10$prop2..)
### Analisis se presento en las diferentes tamaños de muestras un
rechazo de la hipótesis nula que plantea que los datos se asemejan a una
distribución normal, excepto en la muestra de \(n=500\) donde no se rechazo la hipótesis,
de este modo también se observa que el promedio de los valores \(\hat{p}\) tiende a ser muy cercano al
parámetro \(P=0.9\) en todas las
muestras.
Se verifica el teorema central del limite para la muestra \(n=500\)ya que la distribución de las muestras de \(\hat{p}\) tienden a acercarse al parámetro \(\mu=P=0.9\) a pesar de encontrarse los datos en desbalance.
podemos comprobar en las distintas simulaciones realizadas para los tamaños de muestra 5,10,15,20,30,50,60,100,200,500 que en sus distribuciones muéstrales la media \(\mu=P\) el promedio de estas muestras estaba muy cerca del parámetro \(P\),sin embargo, no para todos los tamaños se verifica que la distribución de los estimadores de la proporción \(\hat{p}\) tenga una forma normal.Cabe aclarar que para los valores de \(P=0.1\) y \(P=0.9\) se hizo necesario tomar muestras de mayor valor para que los datos se comportaran de forma normal donde en el caso de \(P=0.1\) no se cumplió para ninguno de ellos y en el caso de \(P=0.9\) solo se cumplió para \(n=500\),esto se debio al desbalance de los datos en las muestras donde claramente habia un sesgo. Caso contrario cuando \(P=0.5\) donde a partir de \(n=100\) no se rechazo la hipótesis nula que plantea que los datos provienen de una distribución normal debido a que los datos en terminos de proporcion se encuentras balanceados.