Vamos ha realizar un diagnóstico de normalidad de algunos indicadores sociodemográficos que se utilizan para evaluar el nivel de desarrollo social de un país. Para ello utilizaremos datos compilados en el archivo “mundo98.rda”. La data final se puede descargar en el siguiente enlace:
https://www.dropbox.com/sh/fbeyyikum4i0m8p/AADDk_VHnqsdcRoGE7Q509zUa?dl=0
Primero, debemos cargar la data (“load”) para luego explorarla (“names”, “head”):
load("mundo98.rda")
Exploración de “dataWorld”
names(mundo98)
## [1] "region" "tfr" "contraception"
## [4] "educationMale" "educationFemale" "lifeMale"
## [7] "lifeFemale" "infantMortality" "GDPperCapita"
## [10] "economicActivityMale" "economicActivityFemale" "illiteracyMale"
## [13] "illiteracyFemale"
head(mundo98)
## region tfr contraception educationMale educationFemale lifeMale
## Afghanistan Asia 6.90 NA NA NA 45.0
## Albania Europe 2.60 NA NA NA 68.0
## Algeria Africa 3.81 52 11.1 9.9 67.5
## American.Samoa Asia NA NA NA NA 68.0
## Andorra Europe NA NA NA NA NA
## Angola Africa 6.69 NA NA NA 44.9
## lifeFemale infantMortality GDPperCapita economicActivityMale
## Afghanistan 46.0 154 2848 87.5
## Albania 74.0 32 863 NA
## Algeria 70.3 44 1531 76.4
## American.Samoa 73.0 11 NA 58.8
## Andorra NA NA NA NA
## Angola 48.1 124 355 NA
## economicActivityFemale illiteracyMale illiteracyFemale
## Afghanistan 7.2 52.800 85.00
## Albania NA NA NA
## Algeria 7.8 26.100 51.00
## American.Samoa 42.4 0.264 0.36
## Andorra NA NA NA
## Angola NA NA NA
Inspección gráfica con histograma
hist(mundo98$economicActivityFemale)
Preliminarmente, en el histograma presentado no se observa que existan problemas graves de normalidad.
Análisis de estadísticos descriptivos
Evaluación de asimetría y kurtosis. Antes de realiar el análisis, es necesario que revisa los criterios de referencia vistos en clase teórica.
library(summarytools)
tabla1 <- descr(mundo98$economicActivityFemale)
tabla1
## Descriptive Statistics
## mundo98$economicActivityFemale
## N: 207
##
## economicActivityFemale
## ----------------- ------------------------
## Mean 46.79
## Std.Dev 16.81
## Min 1.90
## Q1 37.00
## Median 48.40
## Q3 56.40
## Max 90.60
## MAD 13.94
## IQR 19.40
## CV 0.36
## Skewness -0.12
## SE.Skewness 0.19
## Kurtosis 0.24
## N.Valid 165.00
## Pct.Valid 79.71
Los estadísticos de Asimetría (“Skewness”) y Curtosis (“Kurtosis”) nos indican que existe una ligera asimetría de la distribución hacia la izquierda (-0.12) y que su forma es mesocúrtica (0.24). Por lo tanto, no se observa que existan problemas de falta de normalidad en la distribución.
Pruebas de contrate estadístico
Antes de realizar el contraste estadístico, es fundamental plantear las hipótesis de contraste:
Planteamiento de hipótesis:
H0: la distribución es normal
H1: la distribución no es normal
## Como se trata de una variable con más de 120 casos, utilizamos la prueba de Kolgomorov
ks.test(x = mundo98$economicActivityFemale,"pnorm", mean(mundo98$economicActivityFemale, na.rm=T),
sd(mundo98$economicActivityFemale,na.rm=T))
##
## One-sample Kolmogorov-Smirnov test
##
## data: mundo98$economicActivityFemale
## D = 0.064369, p-value = 0.5012
## alternative hypothesis: two-sided
En este caso, rechazamos H0 con un D = 0.064 y p valor > 0.05. Entonces, decimos que la distribución es normal.
Antes de aplicar las propiedad de la curva normal a la distribución que vamos a analizar, debemos calcular su media y desviación estándar:
media <- mean(mundo98$economicActivityFemale, na.rm=T)
de <- sd(mundo98$economicActivityFemale, na.rm=T)
1. Hallar probabilidad a partir de puntajes
Una vez calculadas la media y desviación estándar de la distribución, ya podemos responder algunas preguntas relacionadas a la probabilidad acumulada de la distribución:
En este caso, primero colocamos el dato de interés y despúes la media (“media”) y desviación estándar (“de”). Vamos a realizar la resta respecto de 1 porque nuestro interés es encontrar la probabilidad de encontrar un país por encima de 80%.
1 - pnorm(80, media, de)
## [1] 0.02411797
Así, tenemos que la probabilidad de encontrar un país con un porcentaje de PEA femenina por encima de 80% es tan solo de 0.024.
pnorm(40, media, de)
## [1] 0.3430382
En este caso, la probabilidad de encontrar un país elegido al azar con PEA femenina por debajo de 40% es de 0.34.
Nótese que para expresar la probabilidad como área acumulada, basta con multipicar la probabilidad por 100, lo que resultaría en 34%.
Para encontrar la probabilidad acumulada entre dos valores, podemos hacer una resta simple de las probabilidades acumuladas:
pnorm(68, media, de) - pnorm(60, media, de)
## [1] 0.1124912
2. Hallar puntaje a partir de probabilidad
qnorm(.90, media, de)
## [1] 68.33803
qnorm(.20, media, de)
## [1] 32.64649
hist(mundo98$GDPperCapita)
tabla2 <- descr(mundo98$GDPperCapita)
tabla2
## Descriptive Statistics
## mundo98$GDPperCapita
## N: 207
##
## GDPperCapita
## ----------------- --------------
## Mean 6261.95
## Std.Dev 9355.66
## Min 36.00
## Q1 442.00
## Median 1779.00
## Q3 7272.00
## Max 42416.00
## MAD 2185.35
## IQR 6830.00
## CV 1.49
## Skewness 1.94
## SE.Skewness 0.17
## Kurtosis 3.15
## N.Valid 197.00
## Pct.Valid 95.17