Este informe, tiene como objetivo presentar los resultados obtenidos frente a La distribución del acceso internet y su influencia en la reproducción de desigualdad socioeconómica en la ciudad de Bogotá en el año 2021. Esta investigación, surgió con la hipótesis de establecer la relación entre desigualdad socioeconómica y la cobertura de internet en las diferentes localidades de Bogotá.
Para esto, se utilizaron las bases de datos que el DANE proporciona respecto a los temas aquí mencionados. En un principio de usaron dos variables:
Encuesta multipropósito , de la cuál se extrajo la variable de Cobertura Internet (Secretaria Distrital de Planeación)
Coeficiciente Gini, del cual se tomó el coeficiente GINI por localidad, teniendo en cuenta que este mide la desigualdad en el nivel de ingresos por localidad.
Pobreza monetaria, que también se extrajo de la base de datos del coeficiente GINI.Con el fin de hallar una mejor correlación de variables, debido a que el coeficiente GINI solo toma en cuenta la desiagualdad de ingresos por localidad.
Link:https://datosabiertos.bogota.gov.co/dataset/pobreza-y-desigualdad-en-bogota-d-c
Para formar nuestra base de datos tomamos como fuente principal el anexo de los hogares con acceso a internet por localidades de la Encuesta Multipropósito Bogotá- Cundinamarca (EM 2021) y el coeficiente de Gini del mismo año, y las juntamos en una tabla de excel. Tomamos las variables que nos indican la relación directa entre localidad, porcentaje de acceso y el Gini que nos permitiera analizar la desigualdad por localidad. La base de datos subida en un primer momento se llamó “BASE INTERNET.csv”, posteriormente se creó el objeto con el nombre “BASE.INTERNET” que es la tabla con la que creamos el subconjunto. Se construyó el subconjunto tomando 5 variables: “Total_Hogares” , “Total_ Internet” , “Porcentaje_ Internet” “ Gini” y “Pobreza_Monetaria”.
Las observaciones se encuentran en la columna de “Localidad”-; no aplicamos filtros porque todos los valores de las variables son necesarios.
Internet <- subset(BASE.INTERNET, select=c(Localidad,Total_Hogares,Total_Internet,Porcentaje_Internet,Gini,Porcentaje_Pobreza_monetaria))
En un primer momento, la base datos original cuenta con un índice de hojas, que describe la estructura de la información, indicando la disponibilidad urbana y rural sobre las condiciones socioeconómicas de los hogares en Bogotá, de las cuales se seleccionaron dos hojas de datos, que contienen los cuadros: 205A Hogares por acceso a internet. Bogotá localidad urbana y 205C Hogares por acceso a internet Bogotá localidad rural.
Asimismo, los cuadros presentan los datos desagregados por localidad, mostrando el número y porcentaje de hogares según el número de personas que lo integran.
205A - Hogares por acceso a internet: Presenta la cantidad y el porcentaje de hogares que tienen o no acceso a internet por cada localidad urbana en Bogotá. Tiene como estructura, la información del total de hogares por localidad (urbana), porcentaje de hogares con y sin acceso a internet e indicadores como el coeficiente de variación (CVE) y el intervalo de confianza (IC+)
205C Hogares por acceso a internet Bogotá localidad rural: Sigue la misma estructura que el cuadro 205A, pero esta vez especifica en las zonas rurales, se realiza un censo y se nos presentan las localidades rurales de: Usaquén, Chapinero, Santa fe, San Cristóbal, Usme, Suba, Ciudad Bolívar y Sumapaz.
Coeficiente de GINI(2021) para crear subconjunto: BASE INTERNET.csv:
La base de datos utilizada para sacar el coficiente GINI, llamada obs_demografia-giniypobreza.csv, la cual contiene información socioeconómica y demografica de Bogotá por localidades,con registros desde 2003 hasta 2023. Los datos están distribuidos en columnas por: año, localidad, indicador, sexo y medición (porcentaje y coeficientes).
En este caso, tomamos el indicador denominado “Coeficiente de Gini” correspondiente al año 2021, desagregado localidades en Bogotá(ademas, no distingue género)
Pobreza monetaria(2021): Fue la ultima variable incluida con el fin de encontrar mayor relación entre la pobreza y el acceso a internet, es decir qué tanta relación puede haber entre las dos variables, posteriormente, se realiza una tabla de convergencia y la prueba chi2.
Manejamos en total 27 observaciones y 6 variables.
str(Internet)
## 'data.frame': 27 obs. of 6 variables:
## $ Localidad : chr "Usaquen" "Chapinero" "Santa Fe" "San Cristobal" ...
## $ Total_Hogares : int 229931 77652 38729 135654 125760 70432 233693 365084 146777 297273 ...
## $ Total_Internet : int 206640 72471 28286 95014 88462 52019 175069 293239 128093 250618 ...
## $ Porcentaje_Internet : num 89.9 93.3 73 70 70.3 73.9 74.9 80.3 87.3 84.3 ...
## $ Gini : num 0.5 0.5 0.7 0.5 0.4 0.5 0.5 0.5 0.5 0.5 ...
## $ Porcentaje_Pobreza_monetaria: num 16 12.8 47.7 48.5 57.8 ...
| Total_Hogares (int) | Cantidad de hogares que hay por localidad. |
| Total_Internet (int) | Cantidad de hogares que sí tienen acceso a internet por localidad, con respecto al total. |
| Porcentaje_Internet(num) | Porcentaje de hogares que sí tienen acceso a internet por localidad, con respecto al total. |
| Gini (num) | Medida estadística que representa la desigualdad en la distribución del ingreso o riqueza por localidades. Su valor va de 0 a 1; donde 0 es igualdad perfecta y 1 igualdad total. |
| Pobreza_Monetaria (num) | Medidad que representa, el ingreso corriente de la unidad de gasto dividido por el total de integrantes de esta. Este valor se compara con el costo monetario de adquirir una canasta de alimentos con el costo monetario de adquirir una canasta de bienes alimentarios y no alimentarios mínimos para la subsistencia. (DANE) Entre más alto sea su porcentaje, indica mayor nivel de pobreza, y viceversa; entre más bajo sea su porcentaje indica menor nivel de pobreza. |
Para el análisis, se utilizaron las siguientes técnicas:
Análisis descriptivo univariado: Se realizó con el fin de categorizar individualmente cada variable mediante:
round(mean(Internet$Porcentaje_Internet))
## [1] 68
b . Mediana
median(Internet$Gini, na.rm=T)
## [1] 0.5
sd(Internet$Total_Hogares)
## [1] 121402Técnicas de análisis estadístico bivariado
a. Cor: En R, la función cor() se utiliza para calcular el coeficiente de correlación de dos o más va variables numéricas. Esta, por defecto, aplica el coeficiente de Pearson. Su valor oscila entre 1 y -1, donde un valor cercano a 1 indica una relación positiva muy fuerte(directamente proporcional) mientras que un valor cercano a menos 1, indica una relación negativa muy fuerte. Adicionalmente un valor cercano a 0, sugiere que no existe una relación lineal significativa entre las variables.
b. Chi2: Mide la correlación entre dos variables categóricas en una tabla de contngencia. Su fórmula se basa en la diferencia entre frecuencias observadas y esperadas. Se interpreta a partir de X”2, los grados de libertar y p value; si este último es menor a 0.05, se concluye que hay una asociación estadíticamente significativa.
Para el análsis se reemplazaron los valores faltantes (NA) en dos variables: ‘Gini’ y ‘Porcentaje_pobreza_monetaria’. Para hacerlo, se tomó como referencia el promedio de las localidades rurales (filas 20 a 27 de la base), ya que son estas en las que faltaban los datos. En el caso de la variable ‘Gini’, se imputó el promedio de 0.5, y para la pobreza monetaria, un promedio de 38.67.
Internet$Gini[is.na(Internet$Gini)]<-0.5
Internet$Porcentaje_Pobreza_monetaria[is.na(Internet$Porcentaje_Pobreza_monetaria)]<-38.67
Cabe aclarar que esta sustitución se realizó únicamente con fines prácticos para el desarrollo de la actividad, ya que en un análisis riguroso no es adecuado asignar valores a datos que no se tienen con certeza. No obstante, esta estrategia permitió completar el conjunto de datos sin eliminar casos, facilitando así la continuidad del análisis.
Medidas |
Total_Hogares |
Total_Internet |
Porcentaje_Internet |
Gini |
Pobreza Monetaria |
|---|---|---|---|---|---|
Media |
104.087 |
83.805 |
68 |
0,507 |
35,22 |
Mediana |
70.432 |
52.019 |
73,6 |
0,5 |
38,67 |
Max |
445.104 |
381.260 |
96,1 |
0,7 |
57,81 |
Min |
17 |
3 |
18,2 |
0,4 |
7,9 |
SD |
121.402 |
100.540,3 |
22 |
0.054 |
13.15 |
Se calcularon las medidas tendencia central y dispersión para las variables ‘total hogares’, ‘total interntet’, ‘porcentaje internet’ y ‘Gini’. La media –que es el valor promedio– y la mediana –valor del centro con los datos ordenados– permiten observar una distribución general de los datos de la base; mientras que los valores mínimo y máximo nos muestran los rangos en los que oscilan las observaciones.
También, para entender la variabilidad de los datos se calculó la desviación estándar (SD), la cual indica cuánto se alejan, en promedio, los valores respecto a su media correspondiente. En este caso, ‘total hogares’ y ‘total internet’ presentan desviaciones estándar elevadas. Al ser esta dispersión tan alta, se puede afirmar que hay zonas con muchos más hogares (e internet) que otras. Por el contrario, la variable ‘Gini’ presenta una desviación baja, con lo que se podría decir que la desigualdad entre localidades vendría siendo similar.
Visualización gráficas
a. Para la primera gráfica se hizo un diagrama de barras únicamente con los datos del porcentaje de acceso a internet por localidad.
barplot(Internet$Porcentaje_Internet, names.arg = Internet$Localidad,
main = "Porcentaje De Acceso a Internet Por Localidad",
col = "skyblue", las = 2)
El gráfico de barras muestra el porcentaje de acceso a internet en las distintas localidades de Bogotá, tanto urbanas como rurales. En el eje horizontal (X) se listan las localidades, mientras que en el eje vertical (Y) se presenta el porcentaje de cobertura de internet, que va de 0% a 100%. Observaciones importantes:
Localidades con mayor acceso a internet (por encima del 85%):
Usaquén, Chapinero, Suba, Fontibón y Teusaquillo se destacan por tener los niveles más altos de acceso, superando el 85%.
Localidades con acceso medio (entre 60% y 85%):
Localidades como Engativá, Bosa, Kennedy, Tunjuelito, y Santa Fe tienen una cobertura intermedia, entre el 70% y 85%.
Localidades con bajo acceso (menor al 60%):
Las localidades rurales presentan los niveles más bajos de acceso a internet. Particularmente, Sumapaz, Usme rural, Ciudad Bolívar rural y San Cristóbal rural muestran porcentajes inferiores al 40%, lo cual indica una brecha digital significativa respecto a las zonas urbanas.
b. El segundo gráfico de barras muestra cuántas localidades de Bogotá se encuentran en cada uno de tres niveles de cobertura de internet, clasificados según su porcentaje de acceso.
Para llegar a esto, primero se tuvieron que definir tres categorías con base en los rangos de porcentaje de acceso a internet:
Mala: menos del 55%
Regular: 55% a menos de 75%
Buena: 75% a 100%
#definir límites de cobertura
limites_cobertura <- c(-0.1,55,75,100.1)
categorias <- cut(Internet$Porcentaje_Internet,
breaks = limites_cobertura,
labels = c( "Mala", "Regular", "Buena"), right = F)
Gráfica
Internet$Cobertura_Internet<- categorias
barplot(table(Internet$Cobertura), main = "Frecuencia De Cobertura De Internet", col = "skyblue", ylab = "Número de localidades",xlab = "Nivel de cobertura")
Análisis Bivariado
Primero, se calculó la correlación entre ‘porcentaje internet’ y ‘Gini’, ambas variables numéricas. Esta medida permite identificar si existe una relación lineal entre desigualdad y acceso a internet. Un valor de correlación negativo sugeriría que a mayor desigualdad, menos cobertura.
cor(Internet$Porcentaje_Internet, Internet$Gini)
## [1] 0.02641388
El valor 0.026 nos indica una correlación positiva extremadamente débil entre ambas variables. Esto significa que: A mayor desigualdad no necesariamente aumenta o disminuye la cobertura a internet.
Aún así, decidimos hacer esta misma comparación con Chi2, para poner el práctica el ejercicio.
Para ello fue necesario crear la variable categórica: ‘Desigualdad_Gini’ .
Se creó una tabla de contingencia con las variables y luego se aplicó la prueba Chi2.
#Definir los límites para la nueva variable:"Desigualdad_Gini", donde 0 es baja desigualdad y 1 alta desigualdad
limites_gini <- c(-Inf, 0.35, 0.55, 1)
#Establecer categorías para "limites_gini" a partir de la variable "Gini"
Categorías_Gini <- cut( Internet$Gini,
breaks =limites_gini,
labels =c("Baja", "Moderada", "Alta"), right=F)
#Agregar la nueva variable categórica al subconjunto Internet
Internet$ Desigualdad_Gini<- Categorías_Gini
tabla1<- table(Internet$Cobertura_Internet, Internet$Desigualdad_Gini)
print(tabla1)
##
## Baja Moderada Alta
## Mala 0 6 0
## Regular 0 9 1
## Buena 0 9 2
Chi2. Convertimos la tabla de contingencia en proporciones para facilitar los gráficos más adelante.
Proptabla<-prop.table(tabla1)
print(Proptabla)
##
## Baja Moderada Alta
## Mala 0.00000000 0.22222222 0.00000000
## Regular 0.00000000 0.33333333 0.03703704
## Buena 0.00000000 0.33333333 0.07407407
pruebachi<-chisq.test(tabla1)
## Warning in chisq.test(tabla1): Chi-squared approximation may be incorrect
print(pruebachi)
##
## Pearson's Chi-squared test
##
## data: tabla1
## X-squared = NaN, df = 4, p-value = NA
En base a esto, optamos por evaluar una segunda correlación con la variable previamente usada: ‘Cobertura_Internet’ y la variable ‘Pobreza_monetaria’ que representa la capacitad de adquisitiva y de ingresos en necesidades básicas. La intención con la cual se realiza este segundo análisis es verificar una posible variación, diferencia o similitud entre la correlación de Cobertura_Internet/Pobreza_monetaria y las anteriormente evaluadas Cobertura_Internet/Desigualdad_Gini.
Para llegar a probar la relación de estas dos variables fue necesario convertir la ‘Pobreza_monetaria’ de numérica a categórica.
limites_pobreza <- c(-Inf, 20, 40, 100)
Categorías_pobreza<- cut( Internet$Porcentaje_Pobreza_monetaria,
breaks=limites_pobreza,
labels=c("Baja Pobreza","Media Pobreza","Alta Pobreza"), right =F)
#Agregar la nueva variable categórica al subconjunto Internet
Internet$ Nivel_Pobreza_monetaria<-Categorías_pobreza
Al igual que en la primera parte, creamos una tabla de contingencia, se convierte en proporciones, y se aplica la prueba Chi2.
tabla2<-table(Internet$Cobertura_Internet, Internet$Nivel_Pobreza_monetaria)
print(tabla2)
##
## Baja Pobreza Media Pobreza Alta Pobreza
## Mala 0 6 0
## Regular 0 3 7
## Buena 4 7 0
Convertimos la tabla de contingencia en tabla de proporciones para facilitar los gráficos más adelante.
PROPORCI2<-prop.table(tabla2)
print(PROPORCI2)
##
## Baja Pobreza Media Pobreza Alta Pobreza
## Mala 0.0000000 0.2222222 0.0000000
## Regular 0.0000000 0.1111111 0.2592593
## Buena 0.1481481 0.2592593 0.0000000
pruebachi2<-chisq.test(tabla2)
## Warning in chisq.test(tabla2): Chi-squared approximation may be incorrect
print(pruebachi2)
##
## Pearson's Chi-squared test
##
## data: tabla2
## X-squared = 20.879, df = 4, p-value = 0.0003347Gráficas finales del análisis
Gráfica relación ‘Cobertura_Internet’ y ‘Desigualdad_Gini’
#cargar paquete ggplot2
library(ggplot2)
#Convertir tabla de proporciones en dataframe
grafica3<-as.data.frame(Proptabla)
#Asignar nombres a las variables
colnames(grafica3)<-c("Cobertura","Desigualdad","Proporción")
#Crear gráfico de barras agrupadas con ggplot2
ggplot(grafica3, aes(x =Cobertura, y=Proporción, fill=Desigualdad)) +
geom_bar(stat = "identity", position=position_dodge()) +labs(title="Distribución de Gini por nivel de cobertura de internet",
y = "Proporción", x ="Cobertura de Internet") +
scale_y_continuous(labels = scales::percent) +scale_fill_brewer(palette="Dark2")
Gráfica segunda relación
#Convertir tabla de proporciones en dataframe
grafica4<-as.data.frame(PROPORCI2)
#Asignar nombres a las variables
colnames(grafica4) <- c("Cobertura","Pobreza","Proporción")
#Crear gráfico de barras agrupadas con ggplot2
ggplot(grafica4,aes(x =Cobertura, y=Proporción, fill=Pobreza)) +
geom_bar(stat="identity", position =position_dodge())+ labs(title="Distribución de pobreza por cobertura de internet",
y="Proporción", x="Cobertura de Internet")+scale_y_continuous(labels=scales::percent)+scale_fill_manual(values=c("#8B4513", "#A9A979", "#D2691E"))
Se hizo gráfica de ambos análisis bivariados, con el objetivo de comparar sus resultados.
¿Qué podemos sacar de ésto?
Análisis sociológico
A. Interpretación critica
Entendiendo que la desigualdad no tiene una afectación clara sobre los niveles de cobertura -con relación al mínimo de observaciones que fueron usadas- demuestra que, no fue suficiente la recolección estadística para demostrar y desarrollar nuestra hipótesis. Sin embargo, sí hay una serie de hallazgos que integran una característica común que tiene Bogotá: La relación que hay entre los niveles de pobreza monetaria y el porcentaje de cobertura en la ciudad.
Como se evidenciará en los hallazgos, existen sectores de la ciudad que reflejan una estructura de dominación y privilegio frente a otros de subordinación y desventaja, configurada por una lógica centro-periferia. Esta dinámica se hace visible al analizar la relación entre las variables de pobreza monetaria y cobertura de internet, especialmente al contrastar los sectores rurales y urbanos de la ciudad.
Consideramos pertinente aclarar que, más allá de hacer el ejercicio y de hacer uso de las herramientas vistas en clase, se imposibilita hacer un análisis crítico sin una hipótesis que refleje una correlación entre nuestras variables; no obstante, si se encontró una serie de hallazgos que pueden ser dicientes para una aproximación del problema de la desigualdad y el acceso a la infraestructura digital.
B. Principales hallazgos
La hipótesis inicial tenía como premisa la relación entre los niveles de desigualdad y el nivel de cobertura que se podrían dar en la ciudad de Bogotá. Sin embargo, como lo muestra el ejercicio estadístico, sería necesario lograr una recolección de datos más grande para obtener una mejor asociación categórica (positiva) entre dos variables. Eso no significa que no se puedan hallar patrones que determinen distribuciones desiguales en algunos de los datos recogidos o, incluso, algunas contradicciones. Por ejemplo: - Localidades como Usaquén, chapinero y Teusaquillo su pobreza monetaria oscila entre 16% y 7% que, precisamente, son las localidades de mayor cobertura de Bogotá.
Por otro lado, las localidades de mayor pobreza monetaria como Ciudad bolívar, Bosa y Usme oscila entre 57% y 53% con coberturas del 70%, sin contar las rurales que referencia una cobertura inferior al 52%.
Comenzando por una de las localidades más singulares, Sumapaz presenta una cobertura de internet “baja”, pero al mismo tiempo registra niveles de desigualdad “moderados”. Esto sugiere que la baja cobertura no está necesariamente relacionada con altos niveles de desigualdad, sino que podría deberse a una condición de homogeneidad social en la precariedad, es decir, una comunidad donde, aunque todos tienen bajos recursos, no existen grandes brechas internas.
En este contexto, la falta de acceso a internet no estaría explicada por la desigualdad, sino por otras variables estructurales, como el aislamiento territorial o la baja densidad poblacional. Este ejemplo, como también el del análisis grupal entre el centro-periferia de la ciudad, ampliaría la claridad para demostrar patrones que evidencian una distribución desigual en la cobertura del eje rural-urbano. Por ejemplo: Localidades como Chapinero, Usaquén y Teusaquillo tiene una cobertura mayor del 90% encontrándose ubicados en el sector Nor-oriental de la ciudad de Bogotá.
Por otro lado, en la zona sur, las localidades como Sumapaz, Usme y Ciudad Bolívar rurales tienen una cobertura menor o igual a 36%. Esto evidencia que el problema trasciende la desigualdad interna de cada localidad y responde a procesos más profundos de abandono estructural por parte de la ciudad, especialmente en lo que respecta a las dinámicas centro-periferia en el desarrollo económico, político y social.
–Relación entre Pobreza Monetaria y Acceso a Internet
En este caso, se pueden evidenciar que, existe una marginación espacial de acuerdo con lo ya expuesto con anterioridad frente al acceso digital entre norte-sur y rural- urbano de la ciudad de Bogotá. Por ejemplo: localidades como san Cristóbal y Usme concentran índices altos de pobreza con un nivel de cobertura ínfimo. En contraste, localidades como Teusaquillo (96.1% acceso, 7.9% pobreza) tienen niveles de conectividad bastante altos con índices de pobreza material bajos. Sin duda, hay unos factores de clase que determinan las demandas y acceso a infraestructura tecnológica que excluye otros sectores de la ciudad. Aclarando que no es un desarrollo homogéneo, si se puede aproximar, como hipótesis, que la población que vive en localidades como Teusaquillo y chapinero es, en su gran mayoría, poseedores de capital social, cultural y económico de acuerdo con los indicadores de pobreza material que se encuentran allí.
–Relación entre Desigualdad (Gini) y Acceso a Internet
Este análisis es fundamental porque rompe con la asociación hipotética de establecer variables de desigualdad con exclusión de infraestructura digital. El ejemplo de la localidad de Santa fe vuelve a ser más claro. Tiene un coeficiente Gini de 0.7, pero, aun así, tiene mejores coberturas que localidades con un Gini inferior como Usme con un 0.4. Una posible explicación es que la distribución de ingreso que se concentra en una minoría posee una cobertura muy buena que compensa la faltante en el resto de la localidad.
C. Posibles líneas futuras de investigación
Respecto a las posibles líneas futuras, pueden ser diversas, pero proponemos tres que puedan establecer una mayor cantidad de datos y variables que nos puedan lanzar correlaciones más dicientes para el desarrollo de la investigación.
a. Se podría hacer una investigación interseccional donde se refleje la brecha digital. Un ejemplo de ello sería darle un enfoque con variables de género y edad combinada con variables de pobreza y desigualdad.
b. Otra posible línea sería la de investigar la movilidad social que se puede dar en ciertas localidades de Bogotá y su influencia con las variables de conectividad.
c. Hacer una geografía sobre la Infraestructura digital en la ciudad de Bogotá con el fin de establecer, por ejemplo, por medio los estratos socioeconómicos su cobertura. Un ejemplo podría ser las relaciones que hay entre inversión privada y pública respecto al acceso y la calidad del internet.