Curva normal

César Córdova

16/4/2021

Vamos ha realizar un diagnóstico de normalidad de algunos indicadores sociodemográficos que se utilizan para evaluar el nivel de desarrollo social de un país. Para ello utilizaremos datos compilados en el archivo “mundo98.rda”. La data final se puede descargar en el siguiente enlace:

https://www.dropbox.com/sh/fbeyyikum4i0m8p/AADDk_VHnqsdcRoGE7Q509zUa?dl=0

Primero, debemos cargar la data (“load”) para luego explorarla (“names”, “head”):


load("mundo98.rda")

Exploración de “dataWorld”


names(mundo98)
##  [1] "region"                 "tfr"                    "contraception"         
##  [4] "educationMale"          "educationFemale"        "lifeMale"              
##  [7] "lifeFemale"             "infantMortality"        "GDPperCapita"          
## [10] "economicActivityMale"   "economicActivityFemale" "illiteracyMale"        
## [13] "illiteracyFemale"

head(mundo98)
##                region  tfr contraception educationMale educationFemale lifeMale
## Afghanistan      Asia 6.90            NA            NA              NA     45.0
## Albania        Europe 2.60            NA            NA              NA     68.0
## Algeria        Africa 3.81            52          11.1             9.9     67.5
## American.Samoa   Asia   NA            NA            NA              NA     68.0
## Andorra        Europe   NA            NA            NA              NA       NA
## Angola         Africa 6.69            NA            NA              NA     44.9
##                lifeFemale infantMortality GDPperCapita economicActivityMale
## Afghanistan          46.0             154         2848                 87.5
## Albania              74.0              32          863                   NA
## Algeria              70.3              44         1531                 76.4
## American.Samoa       73.0              11           NA                 58.8
## Andorra                NA              NA           NA                   NA
## Angola               48.1             124          355                   NA
##                economicActivityFemale illiteracyMale illiteracyFemale
## Afghanistan                       7.2         52.800            85.00
## Albania                            NA             NA               NA
## Algeria                           7.8         26.100            51.00
## American.Samoa                   42.4          0.264             0.36
## Andorra                            NA             NA               NA
## Angola                             NA             NA               NA

Inspección gráfica con histograma

hist(mundo98$economicActivityFemale)

Preliminarmente, en el histograma presentado no se observa que existan problemas graves de normalidad.


Análisis de estadísticos descriptivos

Evaluación de asimetría y kurtosis. Antes de realiar el análisis, es necesario que revisa los criterios de referencia vistos en clase teórica.


library(summarytools)

tabla1 <- descr(mundo98$economicActivityFemale)

tabla1
## Descriptive Statistics  
## mundo98$economicActivityFemale  
## N: 207  
## 
##                     economicActivityFemale
## ----------------- ------------------------
##              Mean                    46.79
##           Std.Dev                    16.81
##               Min                     1.90
##                Q1                    37.00
##            Median                    48.40
##                Q3                    56.40
##               Max                    90.60
##               MAD                    13.94
##               IQR                    19.40
##                CV                     0.36
##          Skewness                    -0.12
##       SE.Skewness                     0.19
##          Kurtosis                     0.24
##           N.Valid                   165.00
##         Pct.Valid                    79.71

Los estadísticos de Asimetría (“Skewness”) y Curtosis (“Kurtosis”) nos indican que existe una ligera asimetría de la distribución hacia la izquierda (-0.12) y que su forma es mesocúrtica (0.24). Por lo tanto, no se observa que existan problemas de falta de normalidad en la distribución.


Pruebas de contrate estadístico

Antes de realizar el contraste estadístico, es fundamental plantear las hipótesis de contraste:

Planteamiento de hipótesis:

H0: la distribución es normal

H1: la distribución no es normal


## Como se trata de una variable con más de 120 casos, utilizamos la prueba de Kolgomorov

ks.test(x = mundo98$economicActivityFemale,"pnorm", mean(mundo98$economicActivityFemale, na.rm=T),
        sd(mundo98$economicActivityFemale,na.rm=T))
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  mundo98$economicActivityFemale
## D = 0.064369, p-value = 0.5012
## alternative hypothesis: two-sided

En este caso, rechazamos H0 con un D = 0.064 y p valor > 0.05. Entonces, decimos que la distribución es normal.


Ejercicios de curva normal

Antes de aplicar las propiedad de la curva normal a la distribución que vamos a analizar, debemos calcular su media y desviación estándar:


media <- mean(mundo98$economicActivityFemale, na.rm=T)

de <- sd(mundo98$economicActivityFemale, na.rm=T)

1. Hallar probabilidad a partir de puntajes

Una vez calculadas la media y desviación estándar de la distribución, ya podemos responder algunas preguntas relacionadas a la probabilidad acumulada de la distribución:

  1. ¿Cuál es la probabilidad que un país tomado al azar tenga un porcentaje de PEA femenina por encima de 80%?

En este caso, primero colocamos el dato de interés y despúes la media (“media”) y desviación estándar (“de”). Vamos a realizar la resta respecto de 1 porque nuestro interés es encontrar la probabilidad de encontrar un país por encima de 80%.


1 - pnorm(80, media, de)
## [1] 0.02411797

Así, tenemos que la probabilidad de encontrar un país con un porcentaje de PEA femenina por encima de 80% es tan solo de 0.024.


  1. ¿Cuál es la probabilidad que un país elegido al azar tenga tenga un porcentaje de PEA femenina por debajo de 40%?

pnorm(40, media, de)
## [1] 0.3430382

En este caso, la probabilidad de encontrar un país elegido al azar con PEA femenina por debajo de 40% es de 0.34.

Nótese que para expresar la probabilidad como área acumulada, basta con multipicar la probabilidad por 100, lo que resultaría en 34%.


  1. ¿Cuál es la probabilidad que un país elegido tenga entre 68 y 60 porciento de PEA femenina?

Para encontrar la probabilidad acumulada entre dos valores, podemos hacer una resta simple de las probabilidades acumuladas:


pnorm(68, media, de) - pnorm(60, media, de)
## [1] 0.1124912

2. Hallar puntaje a partir de probabilidad

  1. ¿Cuál es el puntaje en donde el 90% está por debajo?

qnorm(.90, media, de)
## [1] 68.33803

  1. ¿Cuál es el puntaje en donde el 20% está por encima?

qnorm(.20, media, de)
## [1] 32.64649

Otros ejemplos:

hist(mundo98$GDPperCapita)

tabla2 <- descr(mundo98$GDPperCapita)

tabla2
## Descriptive Statistics  
## mundo98$GDPperCapita  
## N: 207  
## 
##                     GDPperCapita
## ----------------- --------------
##              Mean        6261.95
##           Std.Dev        9355.66
##               Min          36.00
##                Q1         442.00
##            Median        1779.00
##                Q3        7272.00
##               Max       42416.00
##               MAD        2185.35
##               IQR        6830.00
##                CV           1.49
##          Skewness           1.94
##       SE.Skewness           0.17
##          Kurtosis           3.15
##           N.Valid         197.00
##         Pct.Valid          95.17