ephc2020 <- read.csv2("C:/Users/hernan/Desktop/Maestria/Examen/55f07reg02_ephc2020.csv", stringsAsFactors=TRUE,sep=";",header=TRUE)
ephc2022 <- read.csv2("C:/Users/hernan/Desktop/Maestria/Inferencia/Trabajo practico/REG02_EPHC2022.csv", stringsAsFactors=TRUE,sep=";",header=TRUE)
#para ver nombre de las variables:comandos
#names(ephc2020)
#names(ephc2022)
#para identificar se utilizó el diccionario de variables que está en la misma páginaTrabajo Práctico de Inferencia Estadística
Tema 1: Condición de Pobreza en Paraguay considerando el área rural y urbana para los años 2022 y 2020
Introducción
Para abordar nuestro estudio lo haremos en dos años por separado, realizando un análisis estadístico descriptivo de una muestra de datos y un contraste de hipótesis para cada año. Los datos son descargados de la base de datos de INE::INSTITUTO NACIONAL DE ESTADISTICAS de la sección “datos abiertos” y “microdatos”, se descarga el archivo .cvs correspondiente a los datos de la población de la Encuesta Permanente de Hogares de los años 2020 y 2022. Se utilizará el programador R para el cálculo y procesamiento de los datos.
1. Administración de los datos
Categorización y Etiquetado de las variables
#filtrar variables objetivo
Pobreza20<-ephc2020[c("AREA","pobnopoi")]
Pobreza22<-ephc2022[c("AREA","pobnopoi")]
Pobreza20<-na.omit(Pobreza20)
Pobreza22<-na.omit(Pobreza22)Pobreza20<-rename(Pobreza20, Condicion = pobnopoi)
Pobreza22<-rename(Pobreza22, Condicion = pobnopoi)str(Pobreza20)'data.frame': 17542 obs. of 2 variables:
$ AREA : int 1 1 1 1 1 1 1 1 1 1 ...
$ Condicion: int 0 0 0 0 0 0 0 0 0 0 ...
- attr(*, "na.action")= 'omit' Named int [1:40] 110 111 474 577 580 650 1160 1169 1172 1372 ...
..- attr(*, "names")= chr [1:40] "110" "111" "474" "577" ...
str(Pobreza22)'data.frame': 17341 obs. of 2 variables:
$ AREA : int 1 1 1 1 1 1 1 1 1 1 ...
$ Condicion: int 0 0 0 0 0 0 0 0 0 0 ...
- attr(*, "na.action")= 'omit' Named int [1:38] 36 66 67 432 569 594 720 735 737 849 ...
..- attr(*, "names")= chr [1:38] "36" "66" "67" "432" ...
#2020
Condicion120<-Pobreza20$Condicion
Condicion220<-cut(Condicion120,2,labels=c("no pobre","pobre")) #etiqueta nivel
Area120<-Pobreza20$AREA
Area220<-cut(Area120,2,labels=c("urbana","rural")) #etiqueta nivel
Pobreza2020<-data.frame("Area"=Area220,"Condicion"=Condicion220)
#2022
Condicion122<-Pobreza22$Condicion
Condicion222<-cut(Condicion122,2,labels=c("no pobre","pobre")) #etiqueta nivel
Area122<-Pobreza22$AREA
Area222<-cut(Area122,2,labels=c("urbana","rural")) #etiqueta nivel
Pobreza2022<-data.frame("Area"=Area222,"Condicion"=Condicion222)2. Análisis Estadístico descriptivo
Tablas de contigencias valores nominales
| no pobre | pobre | Sum | |
|---|---|---|---|
| urbana | 7241 | 2048 | 9289 |
| rural | 5440 | 2813 | 8253 |
| Sum | 12681 | 4861 | 17542 |
| no pobre | pobre | Sum | |
|---|---|---|---|
| urbana | 7283 | 1886 | 9169 |
| rural | 5260 | 2912 | 8172 |
| Sum | 12543 | 4798 | 17341 |
Tablas de contigencias de proporciones: según área.
| no pobre | pobre | |
|---|---|---|
| urbana | 0.7795242 | 0.2204758 |
| rural | 0.6591542 | 0.3408458 |
| no pobre | pobre | |
|---|---|---|
| urbana | 0.7943069 | 0.2056931 |
| rural | 0.6436613 | 0.3563387 |
3.Contraste de Hipótesis
Deseamos probar la hipótesis de que dos parámetros son iguales, en este caso de proporciones de variables aleatorias que siguen una distribución binomial, x, que denotan los casos favorables en el contexto de la distribución Bernoulli, aquí representa la condición de pobreza. Definimos los dos parámetros como p1 y p2, donde cada una representa las proporciones de pobres de dos poblaciones diferentes, las muestras son seleccionadas aleatoriamente de tamaño n1 y n2 respectivamente, apartir de poblaciones binomiales con medias p1*n1 y p2*n2, y varianzas n1*p1*q1 y n2*p2*q2, determinamos como x1 y x2 la cantidad de personas en condición de pobreza en cada muestra y formamos las proporciones pm1=x1/n1 y pm2=x2/n2. El estadístico que utilizaremos va ser la diferencia entre las dos proporciones, pm1 - pm2, que será la estimación de p1 - p2.
Datos de la muestra
Cantidad de pobres zona rural: x1= 2912
Cantidad de pobres zona urbana: x2= 1886
n1=8172 (Zona rural)
n2=9169 (Zona urbana)
pm1=0.3563
pm2=0.2057
Definición de las Hipótesis
Ho: p1-p2 = 0 o también p1=p2
H_:p1-p2>0
Intervalos de Confianza para p1 y p2
Como n1 y n2 son suficientemente grandes, el estimador pm1 - pm2 está distribuido de forma casi normal con:
Media = E(pm1 - pm2) = p1 - p2
Varianza de pm1 - pm2 = Var(pm1 - pm2)= p1*q1/n1 + p2*q2/n2 , donde q=1-p
Por lo tanto es posible establecer la región crítica usando la distribución normal estándar y con un nivel de significancia de 5% para el error de tipo 1, eso no dá un valor z0.05=1.645, así definimos como la región de rechazo: z>1.645.
Cálculos
Como suponemos Ho verdadera, tenemos que p1=p2=p, y calculamos nuestro valor Z estandar para el caso de dos muestras:
Z=(pm1-pm2)-(p1-p2)/sqrt(p1*q1/n1 + p2*q2/n2)………….con Ho verdadera
Z = (pm1-pm2)/sqrt(p*q*(1/n1 +1/n2))
Para calcular los valores de Z, debemos estimar los valores de p y q que aparecen en el denominar bajo el radicando. Al agrupar los datos muestrales el estimador de p es:
pe=(x1+x2)/(n1+n2) y qe=1-pe
Entonces el valor de z para probar la Ho se determina reemplazando p por pe y q por qe
z=(pm1-pm2)/sqrt(pe*qe*(1/n1 +1/n2))
Mediante el valor p
Año:2020
Valores de las variables
n2<-tabla2020[1,1]+tabla2020[1,2]
n2[1] 9289
n1<-tabla2020[2,1]+tabla2020[2,2]
n1[1] 8253
x1<-tabla2020[2,2]
x1[1] 2813
x2<-tabla2020[1,2]
x2[1] 2048
Cálculo del estadístico de prueba y su probabilidad
pe=(x1+x2)/(n1+n2)
qe=1-pe
pm1=x1/n1
pm2=x2/n2
z=(pm1-pm2)/(sqrt(pe*qe*(1/n1 +1/n2)))
z[1] 17.77904
#Probabilidad de z
1-pnorm(z) # P(Z>z)[1] 0
#Como la probabilidad de cometer erro tipo I es 0, se rechaza Ho.Mediante intervalo de confianza
#habiamos fijado un α = 0.05
zα<-qnorm(0.95) # región crítica z > zα
zα[1] 1.644854
#Como z > zα se rechaza HoConclusión
Para desarrollar la teoría hemos considerado dos poblaciones, la rural y la urbana, para ello se tomó dos muestras, la condición de pobreza del área rural y la urbana, la variable categórica utilizada tiene dos niveles, pobre y no pobre, las proporciones se definieron como la cantidad de personas pobres en relación al total de cada área. Se modeló una variable aleatoria binomial y los parámetros se constrataron con estimadores normales estándares dado la cantidad de las muestras y como n < 0.05N. En las tablas de contigencia se puede intuir que hay una mayor proporción de pobres en las áreas rurales, eso se pudo comprobar con el contraste de hipótesis. En general podemos afirmar que de forma significativa hay mas pobres en el área rural que en el área urbana en el Paraguay, considerando los últimos años.
Tema 2: Demostrar un teorema de la teoría clásica de la estadística
Teorema de Chebyshev
“La probabilidad de que cualquier variable aleatoria X tome un valor dentro de k desviaciones estándar de la media es menor igual que 1/k**2”
Vamos a demostrar mediante simulacion que la fracción del área entre cualesquiera dos valores simétricos alrededor de una media está relacionada con la desviación estándar.
Primero: establecemos diferentes valores para un área dada de probabilidad entre dos variables aleatorias con una función de densidad simétrica
sd<-seq(1,5,by=0.1) #desviación estándar
#v1 es el valor de la probabilidad de ocurrencia de todos los valores entre a y b, en este caso fijamos a=1 y b=-1, y consideramos el caso de la distribución normal.
v1<-pnorm(1,0,sd)-pnorm(-1,0,sd)
plot(v1) # El valor de área disminuye a medida que aumenta la desviación estándar, si mantenemos constante la sd, relacionamos con una variable k.Segundo: probamos la relación descubierta por Chebyshev para difentes valores de k
k<-seq(1,5,length.out=100)
che<-(1/k^2) #relación de Chebyshev
plot(che)En este caso hacemos uso de la congruencia en el comportamiento gráfico de las variables para intuir que exista tal relación descubierta por Chebyshev.