Tema 1:

#Todos los estudiantes del país tienen acceso a internet?. #Base de Datos de la Encuesta Permanente de Hogares (EPH)2022. (serie comparable-S4-ED)

#Obtenemos la base de datos de la EPH utilizando el enlace para la descarga

enlace_eph_2022 ="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2022/data/REG02_EPHC2022.csv"
base_eph_2022 = read.csv(enlace_eph_2022,sep = ";",header = T)
table(base_eph_2022$TIC03)
## 
##     1     6     9 
## 10220  2082     5
table(base_eph_2022$ED03)
## 
##     1     6     9 
## 15626   312     1

Filtrado

fbase_eph_2022 = subset(base_eph_2022,TIC03!=9 & ED03!=9,select = c(TIC03,ED03))
ftable(fbase_eph_2022$TIC03,fbase_eph_2022$ED03)
##        1     6
##               
## 1  10173    46
## 6   2005    77
table(base_eph_2022$TIC03)
## 
##     1     6     9 
## 10220  2082     5
table(base_eph_2022$ED03)
## 
##     1     6     9 
## 15626   312     1

##Transformar y etiquetar las variables en categoricas

fbase_eph_2022$internet <- factor(fbase_eph_2022$TIC03,labels = c("Si utilizo internet","NO utilizo internet"))

#Cantidad de personas según utilización o no de internet
tabla_internet=table(fbase_eph_2022$internet)
tabla_internet
## 
## Si utilizo internet NO utilizo internet 
##               10219                2082
fbase_eph_2022$educa<-factor(fbase_eph_2022$ED03,labels=c("Si asiste","No asiste"))

#Cantidad de personas según asisten o no a una institución de educación formal
tabla_educa=table(fbase_eph_2022$educa)
tabla_educa
## 
## Si asiste No asiste 
##     12178       123
tabla_internet_educa <- (xtabs(~educa+internet,data = fbase_eph_2022));tabla_internet_educa
##            internet
## educa       Si utilizo internet NO utilizo internet
##   Si asiste               10173                2005
##   No asiste                  46                  77
tabla_internet_educaprop=prop.table(tabla_internet_educa,margin = 1)
tabla_internet_educaprop
##            internet
## educa       Si utilizo internet NO utilizo internet
##   Si asiste           0.8353588           0.1646412
##   No asiste           0.3739837           0.6260163
addmargins(tabla_internet_educaprop,margin = 2)
##            internet
## educa       Si utilizo internet NO utilizo internet       Sum
##   Si asiste           0.8353588           0.1646412 1.0000000
##   No asiste           0.3739837           0.6260163 1.0000000
#Gráfico de barras para frecuencia absoluta
barplot(t(tabla_internet_educa), beside = T, legend.text = T)

#Gráfico de barras para frecuencia relativa 
barplot(t(prop.table(tabla_internet_educa,margin = 1)), beside = T, legend.text = T)

Al tener en cuenta los datos verificados al realizar las estadísticas descriptivas,se observa que la proporción de estudiantes que tienen acceso a internet es mayor que la proporcion de estudiantes que no tienen acceso, teniendo en cuenta mencionado se puede establecer la hipótesis.

#Contraste de hipótesis

\(H_0:\) Pa=Pn=100$ Todos los estudiantes tienen acceso a internet.

\(H_1:\) Pa>Pn$ los estudiantes que no tienen acceso a internet es menor a los que tienen acceso a internet

La prueba será una cola para diferencia de proporciones, y utilizaremos \(alfa =0,05\) Paso 2: Establecimiento del valor critico z, para un nivel de confianza del \(0,95\)

Criterio de Decision. Zcal=Valor de z calculado, Zc, valor critco de z

Calculo del estadístico de prueba \(z\), para diferencia de proporciones

#Calculo de las cantidades y proporciones por área

xa <- tabla_internet_educa [1,1];xa
## [1] 10173
na <- sum(tabla_internet_educa[1,]);na
## [1] 12178
pa= tabla_internet_educaprop[1,1];pa
## [1] 0.8353588
xn <- tabla_internet_educa[2,1];xn
## [1] 46
nn <- sum(tabla_internet_educa[2,]);nn
## [1] 123
pn = tabla_internet_educaprop[2,1];pn
## [1] 0.3739837
p_gral <- (xa+xn)/(na+nn);p_gral
## [1] 0.8307455

Estandarizamos el valor del estadistico

zcal <- (pa-pn)/sqrt(p_gral*(1-p_gral)*(1/na+1/nn));zcal
## [1] 13.57752

Conclusión Como el valor de \(zcal=13,57752>1,645\), se rechaza la \(Ho\) con un nivel de \(alpha\)=\(0,05\) existe evidencia estadística para afirmar que la proporción de estudiantes que acceden a internet es mayor a la proporción de estudiantes que no acceden a internet.

#Tema 3: # a) Desarrollo de los temas de Estadística Bayesiana

La inferencia estadística busca modelar un conjunto de datos con el propósito de conocer el comportamiento y las características de la población en estudio, es decir, utilizamos informaciones muestrales para predecir el comportamiento de observaciones más extensas. De la clase magistral de inferencia bayesiana abordado por el Prof. Dr. Bernardo me ha llamado la atención, las Distribuciones a priori no informativas, es por ello que he me interiorizado acerca del uso de dicha distribución y he encontrado que autores como: Bernardo & Ramón (1993) sostienen un argumento sobre la bondad de usar aprioris no informativas es que la automatización de procesos bayesianos en software estadístico que utiliza ciertos procesos numéricos, estilo MCMC, se vuelven mucho más complejos e imprácticos si no se usan aprioris no informativas. Correa & Barrera (2018) mencionan acerca del uso de distribuciones a priori no informativas busca que ellas tengan un impacto mínimo sobre la distribución posterior del parámetro de interés y que sea relativamente plana con relación a la verosimilitud. Esto busca que sean los datos los que tengan un claro dominio en la distribución posterior, y por tanto, en todas las inferencias que de ellas se obtengan. Y además indican en su libro que José Bernardo ha sido un gran investigador junto con sus colaboradores en el área de aprioris no informativas. También es importante mencionar que estas distribuciones a priori no informativas se reúnen en dos grupos: Propia e Impropia La distribución a priori de Jeffreys satisface la propiedad local de uniformidad para distribuciones a priori no informativas, es decir, es uniforme sobre el espacio parametral. Esta a priori está basada en la matriz de información de Fisher. Jeffreys la propuso como una «regla general» para determinar la distribución a priori (Correa & Barrera, 2018) A partir de lo expuesto es importante mencionar la utilidad de la aplicación de las distribuciones a priori no informativas Jeffreys cuando se desea que la inferencia no se vea afectada por la información que no provenga de los datos presentes y que estas distribuciones son apropiadas cuando tenemos muy poca información de conocimiento previo.

#b) Desarrollo de los temas de inferencia Clásica

Conclusión General: En trabajo del reporte estadístico realizado se ha contrastado utilizando pruebas estadísticas que para ambos años (EPH 2019 y 2020) se mantiene la diferencia significativa estadísticamente comprobadas mediante las pruebas de hipótesis, con un nivel de significancia del 0,05; que la proporción de hombres en los últimos 3 meses, utilizó internet para para usar/descargar juegos, videos, músicas, películas, programas informáticos es mayor que la de mujeres.