Resumen

En este articulo se presentan los resultados obtenidos al analizar las condiciones de 97 paises de las cuales se categorizaron por zona geográfica, en primera instancia se hace un análisis exploratorio de datos y por consiguiente un tratamiento, Luego se analizo estadísticamente la información obtenida, entre sus resultados se infirió que AFRICA tiene el mayor porcentaje de tasa de natalidad al igual que de tasa de mortalidad, este dato se ve reflejado en el PIB per capital registrando el nivel mas bajo de grupo de paises. El objetivo de este estudio consiste en comparar los diferentes indicadores por zona geográfica e inferír por medio de graficas la condiciones que están expuestas.

Abstract

This article presents the results obtained by analyzing the conditions of 97 countries, which were categorized by geographical area, in the first instance an exploratory analysis of data is made and therefore a treatment, then the information obtained was statistically analyzed, among its results it was inferred that AFRICA has the highest percentage of birth rate as well as mortality rate, this data is reflected in the GDP per capital registering the lowest level of group of countries. The objective of this study is to compare the different indicators by geographical area and infer through graphs the conditions that are exposed.

Tratamiento de los datos - Incosistencia y valores faltantes

En la siguiente base de datos se encontraron distintos datos faltantes e información que representaba inconsistencia, por ello se realizo diferentes pruebas, donde su objetivo era comprobar si la información suministrada era coherente con la distintas variables encuestadas.

Pais TN TM M_infantil Ev_hombre Ev_mujeres PBI Pob_miles Grupo
“Afganistán” 40.4 18.7 181.6 41.0 42 168 16000 “ASIA”
“Albania” 24.7 5.7 30.8 69.6 75.5 600 3204 “EUROPA ORIENTAL”
“Alemania (Oeste)” 11.4 11.2 7.4 71.8 78.4 22320 16691 “EO-NA_JAPON_AUSTR_NZ”
“Alemania Este” 12.0 12.4 7.6 69.8 75.9 NA 61337 “Europa Oriental”
“Algeria” 35.5 8.3 74.0 61.6 63.3 2060 24453 “Africa”
“Angola” 47.2 20.2 137.0 42.9 46.1 610 9694 “africa”
“Arabia Saudí” 42.1 7.6 71.0 61.7 65.2 NA 13562 “ORIENTE MEDIO”
“Argentina” 20.7 8.4 25.7 65.5 72.7 2370 31883 “iberoamerica”
“Austria” 14.9 7.4 8.0 73.3 79.6 17000 7598 “EO-NA_JAPON_AUSTR_NZ”
“Bahrein” 28.4 3.8 16.0 66.8 69.4 6340 459 “ORIENTE MEDIO”
“Bangladesh” 42.2 15.5 119.0 56.9 56 210 111590 “Asia”
“Bélgica” 12.0 10.6 7.9 70.0 76.8 15540 9886 “EO-NA_JAPON_AUSTR_NZ”
“Bielorusia” 15.2 9.0 13.1 66.4 75.9 NA NA “EUROPA ORIENTAL”
“Bolivia” 46.6 18.0 111.0 51.0 55.4 630 7110 “iberoamerica”
“Botswana” 48.5 11.6 67.0 52.3 59.7 2040 1217 “AFRICA”
“Brasil” 28.6 7.9 63.0 62.3 67.6 2680 147294 “IBEROAMERICA”
“Bulgaria” 12.5 11.9 14.4 68.3 74.7 2250 9001 “EUROPA ORIENTAL”
“Camboya” 41.4 16.6 130.0 47.0 49.9 NA 8250 “ASIA”
“Canadá” 14.5 7.3 7.2 73.0 79.8 20470 26302 “EO-NA_JAPON_AUSTR_NZ”
“Colombia” 27.4 6.1 40.0 63.4 69.2 1260 32335 “iberoamerica”
“Congo” 46.1 14.6 73.0 50.1 55.3 1010 2208 “AFRICA”
“Corea (Norte)” 23.5 18.1 25.0 66.2 72.7 400 21143 “asia”
“Checoslovaquia” 13.4 11.7 11.3 71.8 77.7 2980 15641 “EUROPA ORIENTAL”
“Chile” 23.4 5.8 17.1 68.1 NA 1940 12980 “IBEROAMERICA”
“China” 21.2 6.7 32.0 68.0 70.9 380 1105067 “Asia”
“Dinamarca” 12.4 11.9 7.5 71.8 77.7 22080 5132 “EO-NA_JAPON_AUSTR_NZ”
“Ecuador” 32.9 7.4 63.0 63.4 67.6 NA 10329 “Iberoamerica”
“Egipto” 38.8 9.5 49.4 57.8 60.3 NA 51390 “Africa”
“Emiratos Arabes” 22.8 3.8 26.0 68.6 72.9 19860 1544 “ORIENTE MEDIO”
“España” 10.7 8.2 8.1 72.5 78.6 11020 39161 “EO-NA_JAPON_AUSTR_NZ”
“Etiopía” 48.6 20.7 137.0 42.4 45.6 120 48861 “AFRICA”
“Filipinas” 33.2 7.7 45.0 62.5 66.1 730 61224 “ASIA”
“Finlandia” 13.2 10.1 5.8 70.7 78.7 26040 4974 “EO-NA_JAPON_AUSTR_NZ”
“Francia” 13.6 9.4 7.4 72.3 80.5 19490 56119 “EO-NA_JAPON_AUSTR_NZ”
“Gabón” 39.4 16.8 103.0 49.9 53.2 NA 1105 “africa”
“Gambia” 47.4 21.4 143.0 41.4 44.6 260 848 “AFRICA”
“Ghana” 44.4 13.1 90.0 52.2 55.8 390 14425 “AFRICA”
“Grecia” 10.1 9.2 11.0 65.4 74 5990 10039 “EO-NA_JAPON_AUSTR_NZ”
“Guayana” 28.3 7.3 56.0 60.4 66.1 330 95 “IBEROAMERICA”
“Holanda” 13.2 8.6 7.1 73.3 79.9 17320 14828 “EO-NA_JAPON_AUSTR_NZ”
“Hong_Kong” 11.7 4.9 6.1 74.3 80.1 14210 5735 “ASIA”
“Hungría” 11.6 13.4 14.8 65.4 73.8 2780 10587 “Europa Oriental”
“India” 30.5 10.2 91.0 52.5 52.1 350 832535 “Asia”
“Indonesia” 28.6 9.4 75.0 58.5 62 570 178211 “ASIA”
“Irán” 42.5 11.5 108.1 55.8 55 2490 50204 “ORIENTE MEDIO”
“Iraq” 42.6 7.8 69.0 63.0 64.8 3020 18271 “ORIENTE MEDIO”
“Irlanda” 15.1 9.1 7.5 71.0 76.7 9550 3537 “EO-NA_JAPON_AUSTR_NZ”
“Israel” 22.3 6.3 9.7 73.9 77.4 10920 4525 “ORIENTE MEDIO”
“Italia” 9.7 9.1 8.8 72.0 78.6 16830 57537 “EO-NA_JAPON_AUSTR_NZ”
“Japón” 9.9 6.7 4.0 75.9 81.8 25430 123045 “EO-NA_JAPON_AUSTR_NZ”
“Jordania” 38.9 6.4 44.0 64.2 67.8 1240 4041 “ORIENTE MEDIO”
“Kenya” 47.0 11.3 72.0 56.5 60.5 370 23277 “africa”
“Kuwait” 26.8 2.0 15.6 71.2 75.4 16150 2020 “ORIENTE MEDIO”
“Líbano” 31.7 8.7 48.0 63.1 67 NA 2900 “ORIENTE MEDIO”
“Libia” 44.0 9.4 82.0 59.1 62.5 5310 4395 “AFRICA”
“Malasia” 31.6 5.6 24.0 67.5 71.6 2320 17340 “ASIA”
“Malawi” 48.3 25.0 130.0 38.1 41.2 200 8230 “AFRICA”
“Marruecos” 35.5 9.8 82.0 59.1 62.5 NA 24567 “africa”
“México” 29.0 23.2 43.0 62.1 66 2490 85440 “IBEROAMERICA”
“Mongolia” 36.1 8.8 68.0 60.0 62.5 110 2128 “Asia”
“Mozambique” 45.0 18.5 141.0 44.9 48.1 80 15357 “AFRICA”
“Namibia” 44.0 12.1 135.0 55.0 NA 1030 1300 “Africa”
“Nepal” 39.6 14.8 128.0 50.9 48.1 170 18431 “asia”
“Nigeria” 48.5 15.6 105.0 48.8 52.2 360 113665 “AFRICA”
“Noruega” 14.3 10.7 7.8 67.2 75.7 NA 4215 “EO-NA_JAPON_AUSTR_NZ”
“Omán” 45.6 7.8 40.0 62.2 65.8 5220 1486 “ORIENTE MEDIO”
“Pakistán” 30.3 8.1 107.7 59.0 59.2 380 109950 “ASIA”
“Paraguay” 34.8 6.6 42.0 64.4 68.5 1110 4161 “IBEROAMERICA”
“Perú” 32.9 8.3 109.9 56.8 66.5 1160 21142 “iberoamerica”
“Polonia” 14.3 10.2 16.0 67.2 75.7 NA 38061 “EUROPA ORIENTAL”
“Portugal” 11.9 9.5 13.1 66.5 72.4 7600 10333 “EO-NA_JAPON_AUSTR_NZ”
“Rumania” 13.6 10.7 26.9 66.5 72.4 1640 23148 “Europa Oriental”
“Sierra Leona” 48.2 23.4 154.0 39.4 42.6 240 4040 “AFRICA”
“Singapur” 17.8 5.2 7.5 68.7 74 11160 2664 “ASIA”
“Somalia” 50.1 20.2 132.0 43.4 46.6 120 6089 “AFRICA”
“Sri_Lanka” 21.3 6.2 19.4 67.8 71.7 470 16779 “Asia”
“Sudáfrica” 32.1 9.9 72.0 57.5 63.5 2530 34925 “africa”
“Sudán” 44.6 15.8 108.0 48.6 51 480 24423 “AFRICA”
“Suecia” 14.5 11.1 5.6 74.2 80 23660 8485 “EO-NA_JAPON_AUSTR_NZ”
“Suiza” 12.5 9.5 7.1 73.9 NA 34064 6541 “EO-NA_JAPON_AUSTR_NZ”
“Swazilandia” 46.8 12.5 118.0 42.9 49.5 810 761 “AFRICA”
“Tailandia” 22.3 7.7 28.0 63.8 68.9 1420 55200 “asia”
“Tanzania” 50.5 14.0 106.0 51.3 54.7 110 25627 “Africa”
“Túnez” 31.1 7.3 52.0 64.9 66.4 1440 7988 “AFRICA”
“Turquía” 29.2 8.4 76.0 62.5 65.8 NA 54899 “ORIENTE MEDIO”
“U.K.” 13.6 11.5 8.4 72.2 77.9 16100 57270 “EO-NA_JAPON_AUSTR_NZ”
“U.S.A.” 16.7 8.1 9.1 71.5 78.3 21790 248243 “EO-NA_JAPON_AUSTR_NZ”
“Ucrania” 13.4 11.6 13.0 66.4 NA 1320 NA “EUROPA ORIENTAL”
“Uganda” 52.2 15.6 103.0 49.9 52.7 220 16722 “africa”
“Uruguay” 18.0 9.6 21.9 68.4 74.9 2560 3067 “Iberoamerica”
“URSS” 17.7 10.0 23.0 64.6 74 2242 287664 “Europa Oriental”
“Venezuela” 27.5 4.4 23.3 66.7 72.8 2560 19244 “IBEROAMERICA”
“Vietnam” 31.8 9.5 64.0 63.7 67.9 NA 65758 “asia”
“Yugoslavia” 14.0 9.0 20.2 68.6 74.5 NA 23707 “Europa Oriental”
“Zaire” 45.6 14.2 83.0 50.3 53.7 220 34442 “AFRICA”
“Zambia” 51.1 13.7 80.0 50.4 52.5 420 7837 “AFRICA”
“Zimbabwe” 41.7 10.3 66.0 56.5 60.1 640 9567 “africa”

Estas pruebas consistieron en :

*Visualizar la base de datos con las funciones en R

View(df.paises)
names(df.paises) 
dim(df.paises)
str(df.paises) 

*Se segmento la base de datos con la función

df.paises.1 <- select(df.paises, c(2,4:11)) 
names(df.paises.1)
#dim(df.paises.1)

*Se nombraron las variables con la función

df.paises<-data.frame(df.paises)
df.paises.2<- df.paises[,1]
df.paises.3<-df.paises[,3:10]
df.paises.1<-cbind(df.paises.2, df.paises.3)
names(df.paises.1)
## [1] "df.paises.2"              "X.Grupo."                
## [3] "X.Tasa.natalidad."        "X.Tasa.mortalidad."      
## [5] "X.Mortalidad.infantil."   "X.Esperanza.vida.hombre."
## [7] "X.Esperanza.vida.mujer."  "X.PNB."                  
## [9] "X.Población..miles.."
#dim(df.paises.1)
colnames(df.paises.1) <-c("Pais","TN","TM","M_infantil","Ev_hombre","Ev_mujeres",
                          "PBI","Pob_miles","Grupo")                                       
str(df.paises.1)
## 'data.frame':    97 obs. of  9 variables:
##  $ Pais      : chr  "\"1\"" "\"2\"" "\"3\"" "\"4\"" ...
##  $ TN        : int  5 1 3 1 6 6 4 2 3 4 ...
##  $ TM        : num  40.4 24.7 11.4 12 35.5 47.2 42.1 20.7 14.9 28.4 ...
##  $ M_infantil: num  18.7 5.7 11.2 12.4 8.3 20.2 7.6 8.4 7.4 3.8 ...
##  $ Ev_hombre : num  181.6 30.8 7.4 7.6 74 ...
##  $ Ev_mujeres: num  41 69.6 71.8 69.8 61.6 42.9 61.7 65.5 73.3 66.8 ...
##  $ PBI       : chr  "42" "75.5" "78.4" "75.9" ...
##  $ Pob_miles : chr  "168" "600" "22320" "NA" ...
##  $ Grupo     : chr  "16000" "3204" "16691" "61337" ...

*Se cambio el tipo de variable a numérico a las variables que lo requerían y se cambio a tipo factor a la variable Grupo. con la funcion en R

df.paises.1$Ev_mujeres = as.numeric(as.character(df.paises.1$Ev_mujeres))
df.paises.1$PBI = as.numeric(as.character(df.paises.1$PBI))
df.paises.1$Pob_miles = as.numeric(as.character(df.paises.1$Pob_miles))

*Observamos la etiquetas de las variables Grupo y pais y nos percatamos que la variable pais no tiene inconsistencia en cambio la variable Grupo tenia problemas de escritura lo cual provocaba que R reconoza esa etiqueta como unica. en esta seccion se utilizo la fucnion en R

table(df.paises.1$Pais)
table(df.paises.1$Grupo)

*Recodificar las etiquetas de la variable Grupo para ello se identifico como estaban registradas en el dataframe las etiquetas por medio de la función levels luego se realizo la declaración de los niveles correctos por medio de la fucnion en R

levels(df.paises.1$Grupo)

*Declaración de niveles correctos para las variables tipo Factor

level_grupo<- c("\"africa\""="Africa","\"Africa\""="Africa","\"AFRICA\""="Africa","\"asia\"" ="Asia","\"Asia\""="Asia","\"ASIA\""="Asia","\"EO-NA_JAPON_AUSTR_NZ\""="zona A","\"Europa Oriental\""="Europa O","\"EUROPA ORIENTAL\""="Europa O","\"iberoamerica\""="IbAme","\"Iberoamerica\"" ="IbAme","\"IBEROAMERICA\"" ="IbAme","\"ORIENTE MEDIO\""="Oriente M")
level_grupo

Modificamos los niveles correctos con la función en R
Modificación del formato y transformación de variables

df.paises.1 <- transform(df.paises.1, 
                         Grupo= dplyr::recode(Grupo,!!!level_grupo))
levels(df.paises.1$Grupo)

*Identificamos los datos faltantes con un 2,3 % ademas estan contenidos en tres variables esperanza de vida mujeres, PBI y población

Grafico de datos faltantes

*Estas pruebas nos permitieron realizar la imputación estadística, llamada manejo de datos faltantes que consiste en adecuar los datos por medio de diferentes métodos de imputación (sustitución de los valores no informados en una observación por otros ) para que estos sean consistente u coherente con la información suministrada, se utilizo la imputación por media la cual sustituyo los NA en las variable Ev mujeres, PBI y Población ,por las siguientes medias aritmeticas 65.90, 5838.00 y 51123.11 respectivamente.

attach(df.paises.1) 

mean(Ev_mujeres,na.rm =T)
mean(PBI,na.rm = T)
mean(Pob_miles,na.rm = T)
summary(df.paises.1)

imputM = mice::mice(df.paises.1, maxit = 1, method = "mean",seed = 2018,print=F)
df.paises.1_ImputM = mice::complete(imputM)
windows(height=10,width=15); visdat::vis_miss(df.paises.1_ImputM) 
Visualizar.AQ(df.paises.1_ImputM)

SI graficamos los datos faltantes obsevamos que ya se encuantran con el 100% de datos presentes

Grafico datos faltantes imputados

Visualización de datos

Análisis exploratorio univariado

Como esta conformada la muestra de paises segun su grupo

*Se presenta la distribución de la variable grupo por medio de un grafico de barra la cual nos muestra la cantidad de paises por zona geográfica. el mayor numero de paises estan contenido en africa y le sigue el conjunto de paIses denominado zona A.

Grafica de frecuencia de muestra de paises segun su grupo

Análisis exploratorio bivariado

Distribución de las variables Tasa de natalidad, tasa de mortalidad y mortalidad inantil según su grupo.

Africa y oriente medio presentan el mayor numero de tasa de natalidad en comparación a las otras zonas geográficas pero en contraste observamos que oriente medio tiene una tasa de mortalidad muy baja y africa en cambio su tasa de mortalidad es la mayor.

Graficas de los indicadores T. mortalidad, nataildad y Mor. infantil

*En esta situacion se presenta la distribucion de una variable que se creo PBI per capita(nivel economico) de las variables PBI sobre el numero de habitantes(Pobablocion en miles) observamos que Africa, Asia, Europa 0 y IbAme (Iberoamerica) tiene un nivel muy bajo en situaciones economicas y oriente medio tiene el mayor nivel economico que todas las zonas geograficas.

En cuanto a los niveles alto, medio alto, bajo y medio bajo nos dice que la distribucion de los paises en los cuales su PBI per capital por zonas geograficas nos muestran la cantidad de paises con su nivel economico en comparacion a las otraz zonas.

Grafica de distribucion del PBI per capital Graficas de niveles PBI per capital segun su zona