Guía extendida: Estadísticos descriptivos

César Córdova

7/4/2021

Para la realización de estos ejercicios, utilizaremos las bases de datos de indicadores sociodemográficos de países del mundo 1998 y 2005. Los datos pueden descargarse desde el archivo del curso que se encuentra en la carpeta “Semana 3” en “Ejercicio 09.04”.

Revise el libro de códigos que viene con las bases de datos. Descomprima y guarde los archivos en su directorio de trabajo de R y proceda a cargarlos:


Carga de datos

load("mundo98.rda")##En caso de error descargar el área de trabajo 
load("mundo2005.rda")

Exploración de “mundo98”

names(mundo98)
##  [1] "region"                 "tfr"                    "contraception"         
##  [4] "educationMale"          "educationFemale"        "lifeMale"              
##  [7] "lifeFemale"             "infantMortality"        "GDPperCapita"          
## [10] "economicActivityMale"   "economicActivityFemale" "illiteracyMale"        
## [13] "illiteracyFemale"
head(mundo98)
##                region  tfr contraception educationMale educationFemale lifeMale
## Afghanistan      Asia 6.90            NA            NA              NA     45.0
## Albania        Europe 2.60            NA            NA              NA     68.0
## Algeria        Africa 3.81            52          11.1             9.9     67.5
## American.Samoa   Asia   NA            NA            NA              NA     68.0
## Andorra        Europe   NA            NA            NA              NA       NA
## Angola         Africa 6.69            NA            NA              NA     44.9
##                lifeFemale infantMortality GDPperCapita economicActivityMale
## Afghanistan          46.0             154         2848                 87.5
## Albania              74.0              32          863                   NA
## Algeria              70.3              44         1531                 76.4
## American.Samoa       73.0              11           NA                 58.8
## Andorra                NA              NA           NA                   NA
## Angola               48.1             124          355                   NA
##                economicActivityFemale illiteracyMale illiteracyFemale
## Afghanistan                       7.2         52.800            85.00
## Albania                            NA             NA               NA
## Algeria                           7.8         26.100            51.00
## American.Samoa                   42.4          0.264             0.36
## Andorra                            NA             NA               NA
## Angola                             NA             NA               NA

Ejercicio 1

En este ejercicio vamos a realizar estadística descriptiva de algunos de los indicadores sociodemográficos de la base “mundo98”. Considere las siguientes variables:

Variable: Tasa de analfabetismo femenino (“illiteracyFemale”)

Variable: Tasa de fertilidad femenina (“tfr”)

Variable: Expectativa de vida femenina (“lifeFemale”)


Exploración gráfica

Sobre la base del gráfico de cajas “boxplot”, responda las siguientes preguntas:


boxplot(illiteracyFemale~region, data= mundo98)

stripchart(illiteracyFemale~region, data= mundo98, vertical= TRUE, pch = 19, method = "jitter", add=TRUE)


Estadísticos descriptivos

Sobre la base de la tabla de estadísticos descriptivos de la variable “tasa de analfabetismo”, responsa:

  • ¿Qué continentes presentan las medidas de tendencia central más alta y baja?

  • ¿En qué continente difieren más las dos medidas de tendencia central?

  • ¿Cómo interpreta Ud. que exista tanta diferencia entre la media y la mediana en algunos continentes?

  • ¿Qué representa que la desviación estándar de Asia sea 25.87 y la ed Europa solo 3.86?

  • ¿Lo observado en la tabla de estadísticos descriptivos es consistente con el gráfico de cajas antes analizado?

  • ¿Es el continente de América o el de Oceanía el más parecido a Europa?


library(summarytools)

tabla1 <- with(mundo98, stby(data = illiteracyFemale, INDICES = region,
FUN = descr))

tabla1
## Descriptive Statistics  
## illiteracyFemale by region  
## Data Frame: mundo98  
## N: 55  
## 
##                     Africa   America    Asia   Europe   Oceania
## ----------------- -------- --------- ------- -------- ---------
##              Mean    52.76     13.64   26.82     3.55      9.86
##           Std.Dev    21.00     13.38   25.87     3.86     13.69
##               Min    15.12      2.00    0.36     0.20      0.50
##                Q1    36.20      4.70    6.85     0.60      1.20
##            Median    50.40      9.64   20.40     2.38      4.10
##                Q3    73.70     17.00   42.45     4.70     10.70
##               Max    93.40     57.80   86.00    13.00     46.37
##               MAD    27.13      9.10   23.43     2.88      5.34
##               IQR    36.38     12.17   34.65     4.10      8.78
##                CV     0.40      0.98    0.96     1.09      1.39
##          Skewness    -0.02      1.75    0.91     1.11      1.68
##       SE.Skewness     0.34      0.40    0.36     0.50      0.66
##          Kurtosis    -1.14      2.74   -0.45    -0.05      1.73
##           N.Valid    50.00     34.00   44.00    21.00     11.00
##         Pct.Valid    90.91     82.93   88.00    47.73     64.71

Ejercicio 2

Repita el ejercicio anterior de estadística descriptiva de algunos de los indicadores sociodemográficos de la base “mundo2005”. Considere las siguientes variables:

  • Variable: Tasa de alfabetismo femenino (“alfab_f”)

  • Variable: Tasa de fertilidad femenina (“tgf_05”)

  • Variable: Expectativa de vida femenina (“evida_f”)


Exploración de “mundo2005”

names(mundo2005)
##  [1] "Region"      "Pob"         "tgf_75"      "tgf_05"      "anticonc"   
##  [6] "mortInf"     "pbi"         "evida_masc"  "evida_f"     "alfab_f"    
## [11] "alfab_masc"  "matric_fem"  "matric_masc" "pea_fem"     "pea_fem2"   
## [16] "pbiPc05"
head(mundo2005)
##                          Region  Pob tgf_75 tgf_05 anticonc mortInf  pbi
## Kuwait                     Asia  2.7    6.9    2.3       50       9 80.8
## Qatar                      Asia  0.8    6.8    2.9       43      18 42.5
## Namibia                  Africa  2.0    6.6    3.6       44      46  6.1
## Central African Republic Africa  4.2    5.7    5.0       28     115  1.4
## Angola                   Africa 16.1    7.2    6.8        6     154 32.8
## Cape Verde               Africa  0.5    7.0    3.8       53      26  1.0
##                          evida_masc evida_f alfab_f alfab_masc matric_fem
## Kuwait                         79.6    75.7    91.0       94.4         79
## Qatar                          75.8    74.6    88.6       89.1         85
## Namibia                        52.2    50.9    83.5       86.8         66
## Central African Republic       45.0    42.3    33.5       64.8         23
## Angola                         43.3    40.1    54.2       82.9         24
## Cape Verde                     73.8    67.5    75.5       87.8         66
##                          matric_masc pea_fem pea_fem2  pbiPc05
## Kuwait                            71    49.0       58 29925.93
## Qatar                             71    36.3       41 53125.00
## Namibia                           63    46.6       74  3050.00
## Central African Republic          36    70.3       79   333.33
## Angola                            28    73.7       81  2037.27
## Cape Verde                        67    34.0       45  2000.00

Continuar con el gráfico y la tabla de estadísticos descriptivos

boxplot(evida_f~Region, data= mundo2005)

stripchart(evida_f~Region, data= mundo2005, vertical= TRUE, pch = 19, method = "jitter", add=TRUE)

tabla2 <- with(mundo2005, stby(data = evida_f, INDICES = Region,
FUN = descr))

tabla2
## Descriptive Statistics  
## evida_f by Region  
## Data Frame: mundo2005  
## N: 48  
## 
##                     Africa   America     Asia   Europa   Oceania
## ----------------- -------- --------- -------- -------- ---------
##              Mean    53.24     69.97    68.58    72.72     68.65
##           Std.Dev     9.07      3.72     5.94     5.22      8.87
##               Min    40.10     62.40    55.20    58.60     54.30
##                Q1    46.50     68.10    63.50    69.20     66.10
##            Median    50.90     69.40    68.95    74.95     67.65
##                Q3    58.70     72.70    73.60    76.70     77.70
##               Max    71.50     77.90    78.70    79.90     78.50
##               MAD     8.60      3.85     7.49     3.41      8.60
##               IQR    11.40      4.45     9.60     7.20      8.78
##                CV     0.17      0.05     0.09     0.07      0.13
##          Skewness     0.51      0.06    -0.13    -0.91     -0.30
##       SE.Skewness     0.35      0.43     0.40     0.38      0.85
##          Kurtosis    -0.76     -0.45    -0.91    -0.12     -1.42
##           N.Valid    47.00     30.00    34.00    38.00      6.00
##         Pct.Valid    97.92     90.91   100.00   100.00    100.00

Otros ejercicios importantes

Generación de histogramas con el código “hist”:

hist(mundo98$illiteracyFemale[mundo98$region=="Europe"])

Mejoramos el gráfico:

hist(mundo98$illiteracyFemale[mundo98$region=="Europe"], main="Europa 1998: Tasa de analfabetismo", ylab="Tasa de analfabetismo (%)",xlab ="")

Ejercicio sugerido