En este articulo se presentan los resultados obtenidos al analizar las condiciones de 97 paises de las cuales se categorizaron por zona geográfica, en primera instancia se hace un análisis exploratorio de datos y por consiguiente un tratamiento, Luego se analizo estadísticamente la información obtenida, entre sus resultados se infirió que AFRICA tiene el mayor porcentaje de tasa de natalidad al igual que de tasa de mortalidad, este dato se ve reflejado en el PIB per capital registrando el nivel mas bajo de grupo de paises. El objetivo de este estudio consiste en comparar los diferentes indicadores por zona geográfica e inferír por medio de graficas la condiciones que están expuestas.
This article presents the results obtained by analyzing the conditions of 97 countries, which were categorized by geographical area, in the first instance an exploratory analysis of data is made and therefore a treatment, then the information obtained was statistically analyzed, among its results it was inferred that AFRICA has the highest percentage of birth rate as well as mortality rate, this data is reflected in the GDP per capital registering the lowest level of group of countries. The objective of this study is to compare the different indicators by geographical area and infer through graphs the conditions that are exposed.
En la siguiente base de datos se encontraron distintos datos faltantes e información que representaba inconsistencia, por ello se realizo diferentes pruebas, donde su objetivo era comprobar si la información suministrada era coherente con la distintas variables encuestadas.
Pais | TN | TM | M_infantil | Ev_hombre | Ev_mujeres | PBI | Pob_miles | Grupo |
---|---|---|---|---|---|---|---|---|
“Afganistán” | 40.4 | 18.7 | 181.6 | 41.0 | 42 | 168 | 16000 | “ASIA” |
“Albania” | 24.7 | 5.7 | 30.8 | 69.6 | 75.5 | 600 | 3204 | “EUROPA ORIENTAL” |
“Alemania (Oeste)” | 11.4 | 11.2 | 7.4 | 71.8 | 78.4 | 22320 | 16691 | “EO-NA_JAPON_AUSTR_NZ” |
“Alemania Este” | 12.0 | 12.4 | 7.6 | 69.8 | 75.9 | NA | 61337 | “Europa Oriental” |
“Algeria” | 35.5 | 8.3 | 74.0 | 61.6 | 63.3 | 2060 | 24453 | “Africa” |
“Angola” | 47.2 | 20.2 | 137.0 | 42.9 | 46.1 | 610 | 9694 | “africa” |
“Arabia Saudí” | 42.1 | 7.6 | 71.0 | 61.7 | 65.2 | NA | 13562 | “ORIENTE MEDIO” |
“Argentina” | 20.7 | 8.4 | 25.7 | 65.5 | 72.7 | 2370 | 31883 | “iberoamerica” |
“Austria” | 14.9 | 7.4 | 8.0 | 73.3 | 79.6 | 17000 | 7598 | “EO-NA_JAPON_AUSTR_NZ” |
“Bahrein” | 28.4 | 3.8 | 16.0 | 66.8 | 69.4 | 6340 | 459 | “ORIENTE MEDIO” |
“Bangladesh” | 42.2 | 15.5 | 119.0 | 56.9 | 56 | 210 | 111590 | “Asia” |
“Bélgica” | 12.0 | 10.6 | 7.9 | 70.0 | 76.8 | 15540 | 9886 | “EO-NA_JAPON_AUSTR_NZ” |
“Bielorusia” | 15.2 | 9.0 | 13.1 | 66.4 | 75.9 | NA | NA | “EUROPA ORIENTAL” |
“Bolivia” | 46.6 | 18.0 | 111.0 | 51.0 | 55.4 | 630 | 7110 | “iberoamerica” |
“Botswana” | 48.5 | 11.6 | 67.0 | 52.3 | 59.7 | 2040 | 1217 | “AFRICA” |
“Brasil” | 28.6 | 7.9 | 63.0 | 62.3 | 67.6 | 2680 | 147294 | “IBEROAMERICA” |
“Bulgaria” | 12.5 | 11.9 | 14.4 | 68.3 | 74.7 | 2250 | 9001 | “EUROPA ORIENTAL” |
“Camboya” | 41.4 | 16.6 | 130.0 | 47.0 | 49.9 | NA | 8250 | “ASIA” |
“Canadá” | 14.5 | 7.3 | 7.2 | 73.0 | 79.8 | 20470 | 26302 | “EO-NA_JAPON_AUSTR_NZ” |
“Colombia” | 27.4 | 6.1 | 40.0 | 63.4 | 69.2 | 1260 | 32335 | “iberoamerica” |
“Congo” | 46.1 | 14.6 | 73.0 | 50.1 | 55.3 | 1010 | 2208 | “AFRICA” |
“Corea (Norte)” | 23.5 | 18.1 | 25.0 | 66.2 | 72.7 | 400 | 21143 | “asia” |
“Checoslovaquia” | 13.4 | 11.7 | 11.3 | 71.8 | 77.7 | 2980 | 15641 | “EUROPA ORIENTAL” |
“Chile” | 23.4 | 5.8 | 17.1 | 68.1 | NA | 1940 | 12980 | “IBEROAMERICA” |
“China” | 21.2 | 6.7 | 32.0 | 68.0 | 70.9 | 380 | 1105067 | “Asia” |
“Dinamarca” | 12.4 | 11.9 | 7.5 | 71.8 | 77.7 | 22080 | 5132 | “EO-NA_JAPON_AUSTR_NZ” |
“Ecuador” | 32.9 | 7.4 | 63.0 | 63.4 | 67.6 | NA | 10329 | “Iberoamerica” |
“Egipto” | 38.8 | 9.5 | 49.4 | 57.8 | 60.3 | NA | 51390 | “Africa” |
“Emiratos Arabes” | 22.8 | 3.8 | 26.0 | 68.6 | 72.9 | 19860 | 1544 | “ORIENTE MEDIO” |
“España” | 10.7 | 8.2 | 8.1 | 72.5 | 78.6 | 11020 | 39161 | “EO-NA_JAPON_AUSTR_NZ” |
“Etiopía” | 48.6 | 20.7 | 137.0 | 42.4 | 45.6 | 120 | 48861 | “AFRICA” |
“Filipinas” | 33.2 | 7.7 | 45.0 | 62.5 | 66.1 | 730 | 61224 | “ASIA” |
“Finlandia” | 13.2 | 10.1 | 5.8 | 70.7 | 78.7 | 26040 | 4974 | “EO-NA_JAPON_AUSTR_NZ” |
“Francia” | 13.6 | 9.4 | 7.4 | 72.3 | 80.5 | 19490 | 56119 | “EO-NA_JAPON_AUSTR_NZ” |
“Gabón” | 39.4 | 16.8 | 103.0 | 49.9 | 53.2 | NA | 1105 | “africa” |
“Gambia” | 47.4 | 21.4 | 143.0 | 41.4 | 44.6 | 260 | 848 | “AFRICA” |
“Ghana” | 44.4 | 13.1 | 90.0 | 52.2 | 55.8 | 390 | 14425 | “AFRICA” |
“Grecia” | 10.1 | 9.2 | 11.0 | 65.4 | 74 | 5990 | 10039 | “EO-NA_JAPON_AUSTR_NZ” |
“Guayana” | 28.3 | 7.3 | 56.0 | 60.4 | 66.1 | 330 | 95 | “IBEROAMERICA” |
“Holanda” | 13.2 | 8.6 | 7.1 | 73.3 | 79.9 | 17320 | 14828 | “EO-NA_JAPON_AUSTR_NZ” |
“Hong_Kong” | 11.7 | 4.9 | 6.1 | 74.3 | 80.1 | 14210 | 5735 | “ASIA” |
“Hungría” | 11.6 | 13.4 | 14.8 | 65.4 | 73.8 | 2780 | 10587 | “Europa Oriental” |
“India” | 30.5 | 10.2 | 91.0 | 52.5 | 52.1 | 350 | 832535 | “Asia” |
“Indonesia” | 28.6 | 9.4 | 75.0 | 58.5 | 62 | 570 | 178211 | “ASIA” |
“Irán” | 42.5 | 11.5 | 108.1 | 55.8 | 55 | 2490 | 50204 | “ORIENTE MEDIO” |
“Iraq” | 42.6 | 7.8 | 69.0 | 63.0 | 64.8 | 3020 | 18271 | “ORIENTE MEDIO” |
“Irlanda” | 15.1 | 9.1 | 7.5 | 71.0 | 76.7 | 9550 | 3537 | “EO-NA_JAPON_AUSTR_NZ” |
“Israel” | 22.3 | 6.3 | 9.7 | 73.9 | 77.4 | 10920 | 4525 | “ORIENTE MEDIO” |
“Italia” | 9.7 | 9.1 | 8.8 | 72.0 | 78.6 | 16830 | 57537 | “EO-NA_JAPON_AUSTR_NZ” |
“Japón” | 9.9 | 6.7 | 4.0 | 75.9 | 81.8 | 25430 | 123045 | “EO-NA_JAPON_AUSTR_NZ” |
“Jordania” | 38.9 | 6.4 | 44.0 | 64.2 | 67.8 | 1240 | 4041 | “ORIENTE MEDIO” |
“Kenya” | 47.0 | 11.3 | 72.0 | 56.5 | 60.5 | 370 | 23277 | “africa” |
“Kuwait” | 26.8 | 2.0 | 15.6 | 71.2 | 75.4 | 16150 | 2020 | “ORIENTE MEDIO” |
“Líbano” | 31.7 | 8.7 | 48.0 | 63.1 | 67 | NA | 2900 | “ORIENTE MEDIO” |
“Libia” | 44.0 | 9.4 | 82.0 | 59.1 | 62.5 | 5310 | 4395 | “AFRICA” |
“Malasia” | 31.6 | 5.6 | 24.0 | 67.5 | 71.6 | 2320 | 17340 | “ASIA” |
“Malawi” | 48.3 | 25.0 | 130.0 | 38.1 | 41.2 | 200 | 8230 | “AFRICA” |
“Marruecos” | 35.5 | 9.8 | 82.0 | 59.1 | 62.5 | NA | 24567 | “africa” |
“México” | 29.0 | 23.2 | 43.0 | 62.1 | 66 | 2490 | 85440 | “IBEROAMERICA” |
“Mongolia” | 36.1 | 8.8 | 68.0 | 60.0 | 62.5 | 110 | 2128 | “Asia” |
“Mozambique” | 45.0 | 18.5 | 141.0 | 44.9 | 48.1 | 80 | 15357 | “AFRICA” |
“Namibia” | 44.0 | 12.1 | 135.0 | 55.0 | NA | 1030 | 1300 | “Africa” |
“Nepal” | 39.6 | 14.8 | 128.0 | 50.9 | 48.1 | 170 | 18431 | “asia” |
“Nigeria” | 48.5 | 15.6 | 105.0 | 48.8 | 52.2 | 360 | 113665 | “AFRICA” |
“Noruega” | 14.3 | 10.7 | 7.8 | 67.2 | 75.7 | NA | 4215 | “EO-NA_JAPON_AUSTR_NZ” |
“Omán” | 45.6 | 7.8 | 40.0 | 62.2 | 65.8 | 5220 | 1486 | “ORIENTE MEDIO” |
“Pakistán” | 30.3 | 8.1 | 107.7 | 59.0 | 59.2 | 380 | 109950 | “ASIA” |
“Paraguay” | 34.8 | 6.6 | 42.0 | 64.4 | 68.5 | 1110 | 4161 | “IBEROAMERICA” |
“Perú” | 32.9 | 8.3 | 109.9 | 56.8 | 66.5 | 1160 | 21142 | “iberoamerica” |
“Polonia” | 14.3 | 10.2 | 16.0 | 67.2 | 75.7 | NA | 38061 | “EUROPA ORIENTAL” |
“Portugal” | 11.9 | 9.5 | 13.1 | 66.5 | 72.4 | 7600 | 10333 | “EO-NA_JAPON_AUSTR_NZ” |
“Rumania” | 13.6 | 10.7 | 26.9 | 66.5 | 72.4 | 1640 | 23148 | “Europa Oriental” |
“Sierra Leona” | 48.2 | 23.4 | 154.0 | 39.4 | 42.6 | 240 | 4040 | “AFRICA” |
“Singapur” | 17.8 | 5.2 | 7.5 | 68.7 | 74 | 11160 | 2664 | “ASIA” |
“Somalia” | 50.1 | 20.2 | 132.0 | 43.4 | 46.6 | 120 | 6089 | “AFRICA” |
“Sri_Lanka” | 21.3 | 6.2 | 19.4 | 67.8 | 71.7 | 470 | 16779 | “Asia” |
“Sudáfrica” | 32.1 | 9.9 | 72.0 | 57.5 | 63.5 | 2530 | 34925 | “africa” |
“Sudán” | 44.6 | 15.8 | 108.0 | 48.6 | 51 | 480 | 24423 | “AFRICA” |
“Suecia” | 14.5 | 11.1 | 5.6 | 74.2 | 80 | 23660 | 8485 | “EO-NA_JAPON_AUSTR_NZ” |
“Suiza” | 12.5 | 9.5 | 7.1 | 73.9 | NA | 34064 | 6541 | “EO-NA_JAPON_AUSTR_NZ” |
“Swazilandia” | 46.8 | 12.5 | 118.0 | 42.9 | 49.5 | 810 | 761 | “AFRICA” |
“Tailandia” | 22.3 | 7.7 | 28.0 | 63.8 | 68.9 | 1420 | 55200 | “asia” |
“Tanzania” | 50.5 | 14.0 | 106.0 | 51.3 | 54.7 | 110 | 25627 | “Africa” |
“Túnez” | 31.1 | 7.3 | 52.0 | 64.9 | 66.4 | 1440 | 7988 | “AFRICA” |
“Turquía” | 29.2 | 8.4 | 76.0 | 62.5 | 65.8 | NA | 54899 | “ORIENTE MEDIO” |
“U.K.” | 13.6 | 11.5 | 8.4 | 72.2 | 77.9 | 16100 | 57270 | “EO-NA_JAPON_AUSTR_NZ” |
“U.S.A.” | 16.7 | 8.1 | 9.1 | 71.5 | 78.3 | 21790 | 248243 | “EO-NA_JAPON_AUSTR_NZ” |
“Ucrania” | 13.4 | 11.6 | 13.0 | 66.4 | NA | 1320 | NA | “EUROPA ORIENTAL” |
“Uganda” | 52.2 | 15.6 | 103.0 | 49.9 | 52.7 | 220 | 16722 | “africa” |
“Uruguay” | 18.0 | 9.6 | 21.9 | 68.4 | 74.9 | 2560 | 3067 | “Iberoamerica” |
“URSS” | 17.7 | 10.0 | 23.0 | 64.6 | 74 | 2242 | 287664 | “Europa Oriental” |
“Venezuela” | 27.5 | 4.4 | 23.3 | 66.7 | 72.8 | 2560 | 19244 | “IBEROAMERICA” |
“Vietnam” | 31.8 | 9.5 | 64.0 | 63.7 | 67.9 | NA | 65758 | “asia” |
“Yugoslavia” | 14.0 | 9.0 | 20.2 | 68.6 | 74.5 | NA | 23707 | “Europa Oriental” |
“Zaire” | 45.6 | 14.2 | 83.0 | 50.3 | 53.7 | 220 | 34442 | “AFRICA” |
“Zambia” | 51.1 | 13.7 | 80.0 | 50.4 | 52.5 | 420 | 7837 | “AFRICA” |
“Zimbabwe” | 41.7 | 10.3 | 66.0 | 56.5 | 60.1 | 640 | 9567 | “africa” |
Estas pruebas consistieron en :
*Visualizar la base de datos con las funciones en R
View(df.paises)
names(df.paises)
dim(df.paises)
str(df.paises)
*Se segmento la base de datos con la función
df.paises.1 <- select(df.paises, c(2,4:11))
names(df.paises.1)
#dim(df.paises.1)
*Se nombraron las variables con la función
df.paises<-data.frame(df.paises)
df.paises.2<- df.paises[,1]
df.paises.3<-df.paises[,3:10]
df.paises.1<-cbind(df.paises.2, df.paises.3)
names(df.paises.1)
## [1] "df.paises.2" "X.Grupo."
## [3] "X.Tasa.natalidad." "X.Tasa.mortalidad."
## [5] "X.Mortalidad.infantil." "X.Esperanza.vida.hombre."
## [7] "X.Esperanza.vida.mujer." "X.PNB."
## [9] "X.Población..miles.."
#dim(df.paises.1)
colnames(df.paises.1) <-c("Pais","TN","TM","M_infantil","Ev_hombre","Ev_mujeres",
"PBI","Pob_miles","Grupo")
str(df.paises.1)
## 'data.frame': 97 obs. of 9 variables:
## $ Pais : chr "\"1\"" "\"2\"" "\"3\"" "\"4\"" ...
## $ TN : int 5 1 3 1 6 6 4 2 3 4 ...
## $ TM : num 40.4 24.7 11.4 12 35.5 47.2 42.1 20.7 14.9 28.4 ...
## $ M_infantil: num 18.7 5.7 11.2 12.4 8.3 20.2 7.6 8.4 7.4 3.8 ...
## $ Ev_hombre : num 181.6 30.8 7.4 7.6 74 ...
## $ Ev_mujeres: num 41 69.6 71.8 69.8 61.6 42.9 61.7 65.5 73.3 66.8 ...
## $ PBI : chr "42" "75.5" "78.4" "75.9" ...
## $ Pob_miles : chr "168" "600" "22320" "NA" ...
## $ Grupo : chr "16000" "3204" "16691" "61337" ...
*Se cambio el tipo de variable a numérico a las variables que lo requerían y se cambio a tipo factor a la variable Grupo. con la funcion en R
df.paises.1$Ev_mujeres = as.numeric(as.character(df.paises.1$Ev_mujeres))
df.paises.1$PBI = as.numeric(as.character(df.paises.1$PBI))
df.paises.1$Pob_miles = as.numeric(as.character(df.paises.1$Pob_miles))
*Observamos la etiquetas de las variables Grupo y pais y nos percatamos que la variable pais no tiene inconsistencia en cambio la variable Grupo tenia problemas de escritura lo cual provocaba que R reconoza esa etiqueta como unica. en esta seccion se utilizo la fucnion en R
table(df.paises.1$Pais)
table(df.paises.1$Grupo)
*Recodificar las etiquetas de la variable Grupo para ello se identifico como estaban registradas en el dataframe las etiquetas por medio de la función levels luego se realizo la declaración de los niveles correctos por medio de la fucnion en R
levels(df.paises.1$Grupo)
*Declaración de niveles correctos para las variables tipo Factor
level_grupo<- c("\"africa\""="Africa","\"Africa\""="Africa","\"AFRICA\""="Africa","\"asia\"" ="Asia","\"Asia\""="Asia","\"ASIA\""="Asia","\"EO-NA_JAPON_AUSTR_NZ\""="zona A","\"Europa Oriental\""="Europa O","\"EUROPA ORIENTAL\""="Europa O","\"iberoamerica\""="IbAme","\"Iberoamerica\"" ="IbAme","\"IBEROAMERICA\"" ="IbAme","\"ORIENTE MEDIO\""="Oriente M")
level_grupo
Modificamos los niveles correctos con la función en R
Modificación del formato y transformación de variables
df.paises.1 <- transform(df.paises.1,
Grupo= dplyr::recode(Grupo,!!!level_grupo))
levels(df.paises.1$Grupo)
*Identificamos los datos faltantes con un 2,3 % ademas estan contenidos en tres variables esperanza de vida mujeres, PBI y población
Grafico de datos faltantes
*Estas pruebas nos permitieron realizar la imputación estadística, llamada manejo de datos faltantes que consiste en adecuar los datos por medio de diferentes métodos de imputación (sustitución de los valores no informados en una observación por otros ) para que estos sean consistente u coherente con la información suministrada, se utilizo la imputación por media la cual sustituyo los NA en las variable Ev mujeres, PBI y Población ,por las siguientes medias aritmeticas 65.90, 5838.00 y 51123.11 respectivamente.
attach(df.paises.1)
mean(Ev_mujeres,na.rm =T)
mean(PBI,na.rm = T)
mean(Pob_miles,na.rm = T)
summary(df.paises.1)
imputM = mice::mice(df.paises.1, maxit = 1, method = "mean",seed = 2018,print=F)
df.paises.1_ImputM = mice::complete(imputM)
windows(height=10,width=15); visdat::vis_miss(df.paises.1_ImputM)
Visualizar.AQ(df.paises.1_ImputM)
SI graficamos los datos faltantes obsevamos que ya se encuantran con el 100% de datos presentes
Grafico datos faltantes imputados
*Se presenta la distribución de la variable grupo por medio de un grafico de barra la cual nos muestra la cantidad de paises por zona geográfica. el mayor numero de paises estan contenido en africa y le sigue el conjunto de paIses denominado zona A.
Grafica de frecuencia de muestra de paises segun su grupo
Distribución de las variables Tasa de natalidad, tasa de mortalidad y mortalidad inantil según su grupo.
Africa y oriente medio presentan el mayor numero de tasa de natalidad en comparación a las otras zonas geográficas pero en contraste observamos que oriente medio tiene una tasa de mortalidad muy baja y africa en cambio su tasa de mortalidad es la mayor.
Graficas de los indicadores T. mortalidad, nataildad y Mor. infantil
*En esta situacion se presenta la distribucion de una variable que se creo PBI per capita(nivel economico) de las variables PBI sobre el numero de habitantes(Pobablocion en miles) observamos que Africa, Asia, Europa 0 y IbAme (Iberoamerica) tiene un nivel muy bajo en situaciones economicas y oriente medio tiene el mayor nivel economico que todas las zonas geograficas.
En cuanto a los niveles alto, medio alto, bajo y medio bajo nos dice que la distribucion de los paises en los cuales su PBI per capital por zonas geograficas nos muestran la cantidad de paises con su nivel economico en comparacion a las otraz zonas.