Trabajo Práctico de Inferencia Estadística

Author

Hernán Vargas

Tema 1: Condición de Pobreza en Paraguay considerando el área rural y urbana para los años 2022 y 2020

Introducción

Para abordar nuestro estudio lo haremos en dos años por separado, realizando un análisis estadístico descriptivo de una muestra de datos y un contraste de hipótesis para cada año. Los datos son descargados de la base de datos de INE::INSTITUTO NACIONAL DE ESTADISTICAS de la sección “datos abiertos” y “microdatos”, se descarga el archivo .cvs correspondiente a los datos de la población de la Encuesta Permanente de Hogares de los años 2020 y 2022. Se utilizará el programador R para el cálculo y procesamiento de los datos.

1. Administración de los datos

ephc2020 <- read.csv2("C:/Users/hernan/Desktop/Maestria/Examen/55f07reg02_ephc2020.csv", stringsAsFactors=TRUE,sep=";",header=TRUE)
ephc2022 <- read.csv2("C:/Users/hernan/Desktop/Maestria/Inferencia/Trabajo practico/REG02_EPHC2022.csv", stringsAsFactors=TRUE,sep=";",header=TRUE)
#para ver nombre de las variables:comandos
#names(ephc2020) 
#names(ephc2022)
#para identificar se utilizó el diccionario de variables que está en la misma página

Categorización y Etiquetado de las variables

#filtrar variables objetivo
Pobreza20<-ephc2020[c("AREA","pobnopoi")] 
Pobreza22<-ephc2022[c("AREA","pobnopoi")]
Pobreza20<-na.omit(Pobreza20)
Pobreza22<-na.omit(Pobreza22)

Pobreza20<-rename(Pobreza20, Condicion = pobnopoi)
Pobreza22<-rename(Pobreza22, Condicion = pobnopoi)

str(Pobreza20)

'data.frame':   17542 obs. of  2 variables:
 $ AREA     : int  1 1 1 1 1 1 1 1 1 1 ...
 $ Condicion: int  0 0 0 0 0 0 0 0 0 0 ...
 - attr(*, "na.action")= 'omit' Named int [1:40] 110 111 474 577 580 650 1160 1169 1172 1372 ...
  ..- attr(*, "names")= chr [1:40] "110" "111" "474" "577" ...

str(Pobreza22)

'data.frame':   17341 obs. of  2 variables:
 $ AREA     : int  1 1 1 1 1 1 1 1 1 1 ...
 $ Condicion: int  0 0 0 0 0 0 0 0 0 0 ...
 - attr(*, "na.action")= 'omit' Named int [1:38] 36 66 67 432 569 594 720 735 737 849 ...
  ..- attr(*, "names")= chr [1:38] "36" "66" "67" "432" ...

#2020
Condicion120<-Pobreza20$Condicion
Condicion220<-cut(Condicion120,2,labels=c("no pobre","pobre")) #etiqueta nivel

Area120<-Pobreza20$AREA
Area220<-cut(Area120,2,labels=c("urbana","rural")) #etiqueta nivel

Pobreza2020<-data.frame("Area"=Area220,"Condicion"=Condicion220)

#2022
Condicion122<-Pobreza22$Condicion
Condicion222<-cut(Condicion122,2,labels=c("no pobre","pobre")) #etiqueta nivel

Area122<-Pobreza22$AREA
Area222<-cut(Area122,2,labels=c("urbana","rural")) #etiqueta nivel

Pobreza2022<-data.frame("Area"=Area222,"Condicion"=Condicion222)

2. Análisis Estadístico descriptivo

Tablas de contigencias valores nominales

Año 2020
	no pobre	pobre	Sum
urbana	7241	2048	9289
rural	5440	2813	8253
Sum	12681	4861	17542

Año 2022
	no pobre	pobre	Sum
urbana	7283	1886	9169
rural	5260	2912	8172
Sum	12543	4798	17341

Tablas de contigencias de proporciones: según área.

Proporciones Año 2020
	no pobre	pobre
urbana	0.7795242	0.2204758
rural	0.6591542	0.3408458

Proporciones Año 2022
	no pobre	pobre
urbana	0.7943069	0.2056931
rural	0.6436613	0.3563387

3.Contraste de Hipótesis

Deseamos probar la hipótesis de que dos parámetros son iguales, en este caso de proporciones de variables aleatorias que siguen una distribución binomial, x, que denotan los casos favorables en el contexto de la distribución Bernoulli, aquí representa la condición de pobreza. Definimos los dos parámetros como p1 y p2, donde cada una representa las proporciones de pobres de dos poblaciones diferentes, las muestras son seleccionadas aleatoriamente de tamaño n1 y n2 respectivamente, apartir de poblaciones binomiales con medias p1*n1 y p2*n2, y varianzas n1*p1*q1 y n2*p2*q2, determinamos como x1 y x2 la cantidad de personas en condición de pobreza en cada muestra y formamos las proporciones pm1=x1/n1 y pm2=x2/n2. El estadístico que utilizaremos va ser la diferencia entre las dos proporciones, pm1 - pm2, que será la estimación de p1 - p2.

Datos de la muestra

Cantidad de pobres zona rural: x1= 2912

Cantidad de pobres zona urbana: x2= 1886

n1=8172 (Zona rural)

n2=9169 (Zona urbana)

pm1=0.3563

pm2=0.2057

Definición de las Hipótesis

Ho: p1-p2 = 0 o también p1=p2

H_:p1-p2>0

Intervalos de Confianza para p1 y p2

Como n1 y n2 son suficientemente grandes, el estimador pm1 - pm2 está distribuido de forma casi normal con:

Media = E(pm1 - pm2) = p1 - p2

Varianza de pm1 - pm2 = Var(pm1 - pm2)= p1*q1/n1 + p2*q2/n2 , donde q=1-p

Por lo tanto es posible establecer la región crítica usando la distribución normal estándar y con un nivel de significancia de 5% para el error de tipo 1, eso no dá un valor z0.05=1.645, así definimos como la región de rechazo: z>1.645.

Cálculos

Como suponemos Ho verdadera, tenemos que p1=p2=p, y calculamos nuestro valor Z estandar para el caso de dos muestras:

Z=(pm1-pm2)-(p1-p2)/sqrt(p1*q1/n1 + p2*q2/n2)………….con Ho verdadera

Z = (pm1-pm2)/sqrt(p*q*(1/n1 +1/n2))

Para calcular los valores de Z, debemos estimar los valores de p y q que aparecen en el denominar bajo el radicando. Al agrupar los datos muestrales el estimador de p es:

pe=(x1+x2)/(n1+n2) y qe=1-pe

Entonces el valor de z para probar la Ho se determina reemplazando p por pe y q por qe

^{z=(pm1-pm2)/sqrt(peqe(1/n1 +1/n2))}

Mediante el valor p

Año:2020

Valores de las variables

n2<-tabla2020[1,1]+tabla2020[1,2]
n2

[1] 9289

n1<-tabla2020[2,1]+tabla2020[2,2]
n1

[1] 8253

x1<-tabla2020[2,2]
x1

[1] 2813

x2<-tabla2020[1,2]
x2

[1] 2048

Cálculo del estadístico de prueba y su probabilidad

pe=(x1+x2)/(n1+n2)
qe=1-pe

pm1=x1/n1
pm2=x2/n2


z=(pm1-pm2)/(sqrt(pe*qe*(1/n1 +1/n2)))
z

[1] 17.77904

#Probabilidad de z
1-pnorm(z) # P(Z>z)

[1] 0

#Como la probabilidad de cometer erro tipo I es 0, se rechaza Ho.

Mediante intervalo de confianza

#habiamos fijado un α = 0.05 
zα<-qnorm(0.95) # región crítica z > zα
zα

[1] 1.644854

#Como  z > zα se rechaza Ho

Conclusión

Para desarrollar la teoría hemos considerado dos poblaciones, la rural y la urbana, para ello se tomó dos muestras, la condición de pobreza del área rural y la urbana, la variable categórica utilizada tiene dos niveles, pobre y no pobre, las proporciones se definieron como la cantidad de personas pobres en relación al total de cada área. Se modeló una variable aleatoria binomial y los parámetros se constrataron con estimadores normales estándares dado la cantidad de las muestras y como n < 0.05N. En las tablas de contigencia se puede intuir que hay una mayor proporción de pobres en las áreas rurales, eso se pudo comprobar con el contraste de hipótesis. En general podemos afirmar que de forma significativa hay mas pobres en el área rural que en el área urbana en el Paraguay, considerando los últimos años.

Tema 2: Demostrar un teorema de la teoría clásica de la estadística

Teorema de Chebyshev

“La probabilidad de que cualquier variable aleatoria X tome un valor dentro de k desviaciones estándar de la media es menor igual que 1/k**2”

Vamos a demostrar mediante simulacion que la fracción del área entre cualesquiera dos valores simétricos alrededor de una media está relacionada con la desviación estándar.

Primero: establecemos diferentes valores para un área dada de probabilidad entre dos variables aleatorias con una función de densidad simétrica

sd<-seq(1,5,by=0.1) #desviación estándar
#v1 es el valor de la probabilidad de ocurrencia de todos los valores entre a y b, en este caso fijamos a=1 y b=-1, y consideramos el caso de la distribución normal.
v1<-pnorm(1,0,sd)-pnorm(-1,0,sd) 
plot(v1) # El valor de área disminuye a medida que aumenta la desviación estándar, si mantenemos constante la sd, relacionamos con una variable k.

Segundo: probamos la relación descubierta por Chebyshev para difentes valores de k

k<-seq(1,5,length.out=100)
che<-(1/k^2) #relación de Chebyshev
plot(che)

En este caso hacemos uso de la congruencia en el comportamiento gráfico de las variables para intuir que exista tal relación descubierta por Chebyshev.