Untitled

2023-12-02

Carga de datos

Cargamos los datos para generar las estadisticas basica del conjunto de datos que se genera despues de procesar y unir los datos.

Datos:

General

IPM

Tasa de Homicidio

Cultivos

Limpieza de las variables.

Se cambian el nombre de las variables que perdieron su nombre.

Cambiamos los nombre para que el codigo de municipio se convierta en el atributo que permita unir los distintos dataframes.

Se realiza el join para unir en un solo dataframe para el analisis de exploratorio de los datos.

Estadistica Descriptiva

Se analizaran las estadisticas basicas del conjunto de variables genrados en el join de las seccion anterior.

El resumen nos muestra la distribucion cuantilica de cada una de las variabkes continuas que se encuentra en el dataset.

Analisis Grafico.

Se reaizara una analisis grafico para la describir las varaibles que se encuentran en el datset.

Se reaizara una analisis grafico para la describir las varaibles que se encuentran en el datset.

El histograma del IPM nacional muestra que la distribución de los datos es asimétrica a la derecha. Esto significa que hay más municipios con un IPM bajo que con un IPM alto.

La media del IPM nacional es de 43.97729, la mediana es de 43.6 y la moda es de 43.6. Esto significa que la mayoría de los municipios tienen un IPM entre 43.6 y 43.97729.

El rango intercuartílico (RIC) es de 24.8, lo que significa que el 50% de los municipios tienen un IPM entre 43.6 - 24.8 = 18.8 y 43.6 + 24.8 = 68.4.

En general, el histograma del IPM nacional muestra que la distribución de los datos es asimétrica a la derecha, con una media, mediana y moda cercanas.

El gráfico de densidad del IPM nacional confirma los hallazgos del histograma. La distribución de los datos es asimétrica a la derecha, con una mayor concentración de datos en los valores más bajos.

En el caso del IPM nacional, la caja del boxplot está centrada en 43.6, con el primer cuartil en 31.2 y el tercer cuartil en 56.0. El bigote inferior está en 18.8 y el bigote superior está en 68.4. Hay dos puntos fuera de los bigotes, uno en 92.6 y otro en 0.0.

El boxplot de los IPM para grupos étnicos y no étnicos muestra que la distribución de los datos es similar. La caja del boxplot está centrada en 43.6 para ambos grupos, con el primer cuartil en 31.2 y el tercer cuartil en 56.0. El bigote inferior está en 18.8 y el bigote superior está en 68.4.

Sin embargo, hay algunas diferencias notables entre los dos grupos. El IPM para grupos étnicos tiene una mayor dispersión, como se puede ver por el rango intercuartílico (RIC) más grande. Esto significa que hay más grupos étnicos con IPMs muy altos o muy bajos.

El diagrama de violín confirma los hallazgos de los otros métodos gráficos que hemos utilizado. La distribución de los datos del IPM nacional es asimétrica a la derecha, con una mayor dispersión que la distribución normal.

En general, los diagramas de violín muestran que la distribución de los datos para los IPM para grupos étnicos y no étnicos es similar. Sin embargo, hay algunas diferencias notables en la dispersión de los datos y la presencia de valores atípicos.

Calculo de los momentos para las variable (IPM Indice de Pobreza Multidimensional, DisBogota, ind_rur: indice de ruralidad)

el valor de asimetría del IPM nacional indica que la distribución de los datos es asimétrica a la derecha. Esto significa que hay más municipios con un IPM bajo que con un IPM alto.

El valor de la Kurtosis es un valor negativo y eso puede deberse a que hay una dispersion menor de los datos.

lo que sugiere que el anterior resultado es que la distribución de datos de disbogota tiene una cola derecha más larga o pesada_; lo que indica que asimetria positiva

El valor de la Kurtosis nos indica que no hay simetria en los datos.

lo que sugiere que el anterior resultado es que la distribución de los valores de indice de ruralidad son relativamente caragados hacia valores bajos es una asimetria negativa.

El valor de la Kurtosis nos indica que los valores se encuentran cercanos a la media por lo cual se infiere que en la zonas rurales remotas vive muy poca gente.

Realicemos ahora una exploración multivariada. Esto nos permitiría tener algunas evidencias sólidas para proponer un modelo de regresión lineal. Vamos a crear una variable más, la densidad poblacional.

En resumen, la variable densidad tiene una media de 159,15, una desviación estándar de 733,01 y una mediana de 45,57. La distribución está sesgada hacia la derecha, con una cola muy pesada. Esto significa que hay muchos valores que son mucho más altos que la media, y muy pocos valores que son mucho más bajos que la media.

Este resultado podría deberse a una serie de factores, como:

Analisis grafico para encontrar relaciones entre variables

Aqui observaremso el comportamiento de nuestras varables de estudio y como se relaciona entre ellas a partir de un analisis grafivo

El gráfico muestra que, en general, los municipios más cercanos a Bogotá tienen un IPM más bajo que los municipios más alejados de Bogotá. Esto sugiere que la distancia a Bogotá está relacionada con la pobreza multidimensional.

Para realizar un analisis ma profundo a paritr de las regiones crearemos una variable dummie y realizaremos el mismo grafico frente a las regisones:

El gráfico muestra que, en general, los municipios más cercanos a Bogotá tienen un IPM más bajo que los municipios más alejados de Bogotá. Esta relación es más pronunciada para los municipios con una mayor proporción de población rural.

La línea de tendencia también intersecta la línea horizontal que representa la media del IPM en el punto donde la distancia a Bogotá es de 314.4 kilómetros. Esto sugiere que los municipios que se encuentran a una distancia de 314.4 kilómetros de Bogotá tienen un IPM que es igual a la media nacional.

En general, el gráfico muestra que la distancia a Bogotá y la proporción de población rural son dos factores que están relacionados con la pobreza multidimensional en Colombia.

Analisis de medidas de asociacion.

-Matriz de Covarianzas

En este caso, la matriz de covarianzas muestra que el IPM nacional tiene una correlación negativa con la distancia a Bogotá, la distancia a la capital departamental y la densidad de población. Esto significa que los municipios con mayor pobreza multidimensional tienden a estar más lejos de Bogotá, la capital departamental y tener menor densidad de población.

-Matriz de correlaciones

En este caso, la matriz de correlaciones muestra que el IPM nacional tiene una correlación negativa con la distancia a Bogotá, la distancia a la capital departamental y la densidad de población. La correlación es más fuerte con la distancia a Bogotá, con un valor de -0,67

-Grafico:

Este gráfico de dispersión muestra que, en general, los municipios más cercanos a Bogotá tienen un IPM más bajo que los municipios más alejados de Bogotá. Esta relación es más pronunciada para los municipios con una mayor proporción de población rural.

La línea de tendencia muestra que la relación entre el IPM y la distancia a Bogotá es lineal. La pendiente de la línea de tendencia es de -0,56, lo que indica que una disminución de 1 kilómetro en la distancia a Bogotá está asociada con un aumento de 0,56 puntos en el IPM.

La correlación entre el IPM y la distancia a Bogotá es de 0,56, lo que indica que existe una relación moderada entre estas dos variables.

Analisis de confirmatorio (Regresion mutivariada)

Para confirma nuestro analisis anteriore pasamos a la fase de modelamiento con esta confirmaremos los analisis ante hecho y podemos estimar un modelo que permita medir el idice de pobreza multidimensional en funcion de la distancia a bogota la region y demas variables.

El modelo tiene un R-cuadrado de 0,5313, lo que significa que explica el 53,13% de la variabilidad del IPM, con respecto a el R-cuadrado-ajustado tenemos un valor de 0.5279, esto indica que los datos solo permiten ajustan en 52.79% los cual noes tan bueno para modelar el indice de pobreza multidimensional. Los resultados del modelo sugieren que los siguientes factores están relacionados con el IPM:

Validamos los supuestos del modelo clasico

En este caso, el valor p es ligeramente mayor que 0,05, lo que significa que no hay una evidencia fuerte para rechazar la normalidad.

En este caso, el valor p es extremadamente pequeño, lo que significa que hay una evidencia muy fuerte de heteroscedasticidad. Esto significa que la varianza de los residuos no es constante en todos los niveles de las variables independientes.