INTRODUCCIÓN

En este laboratorio en R se analizará una base de datos (países), se depuraran estos datos utilizando algunos de los métodos de imputación aprendidos a lo largo del curso, y obteniendo ya los datos depurados, se realizarán algunos gráficos (barras, cajas, etc.) para facilitar la comprensión y el análisis de los mismos.

A lo largo de la realización de este trabajo se realizaron algunos cambios dentro de la base de datos, como por ejemplo, modificar los nombres de los grupos e imputar los N/A de esta misma base.

Primero antes de comenzar con la imputación, con el mando “vis_miss” se puede visualizar una grafica en la que se pueden apreciar de color mas oscuro los datos N/A o dtos faltantes. Con ayuda de este gráfico ya se podría comenzar a realizar los métodos de imputación en cada una de las variables donde hayan estos N/A. 

En esta oportunidad, se hizo el método de imputación por media, ya que era uno de los más fáciles y el que más se acomodaba a la necesidad de estos datos. Una vez realizada la imputación de datos se puede ver esta misma gráfica ya limpia.

Después de corregida cada una de las inconsistencias encontradas en la base de datos, se pide encontrar cómo está conformada la muestra de países en cada grupo, como se puede apreciar en la siguiente gráfica.

Según la gráfica se puede decir que la variable con países que más predomina se encuentra en el grupo de “África” y las dos más bajas en frecuencia de países son “Europa Oriental” y “Oriente Medio”.

En el punto 2 se pedía realizar un esquema gráfico realizando la tasa de mortalidad, tasa de natalidad y mortalidad infantil. Para los grupos que conforman los diferentes países.

De acuerdo con el conjunto de gráficos anterior, se puede concluir que en la tasa de mortalidad es mayor en áfrica y el que menor tasa de mortalidad es en oriente medio. En la tasa de natalidad se puede observar que el grupo con mayor tasa de natalidad es áfrica y el de menor tasa de natalidad es central. Ya en la última gráfica se puede observar que el grupo de mayor tasa de mortalidad infantil también es áfrica y el grupo con la menor tasa de mortalidad infantil es central.

A continuación se crea una nueva variable llamada PNB_PER_CAPITA la cual se obtuvo a través de la división de PNB y población (miles). Y a partir de ello se obtiene un gráfico de cajas que se muestra a continuación.

En este gráfico se puede observar que el grupo con mayor PB es áfrica y el de menor PNB le pertenece a central.

Calculada la variable anterior, se realiza el análisis de los cuartiles 25, 50 y 75. Donde cada uno de ellos lleva una condición sea bajo, medio bajo, medio alto y alto. Una vez calculado esto, con ayuda de los grupos es generado un gráfico el cual nos informa las condiciones o niveles de cada uno de los grupos.

De esta gráfica se puede observar que en la concion alto el mayor es central y el más bajo es europa oriental. En la condición de bajo, el mayor es África y el menor es iberoamérica. En la condición de medio alto, se observa que el mayor es central y el más bajo es asia. Por último en la condición medio baja hay dos mayores los cuales son iberoamérica y áfrica y el menor es central.

CONCLUSIÓN

A lo largo de la realización de este laboratorio, se ha podido poner en práctica todo lo aprendido a lo largo de este curso en R, como lo son, imputaciones, gráficas, visualización de datos y datos N/A; con este programa se ha logrado una buen manipulación de los datos y se ha logrado obtener una buena base de datos y comprensión de estos.