Determinar e interpretar las diferentes medidas descriptivas locales de las variables Lung Rate (tasa de cáncer de pulmón), PM2.5 (material particulado, tamaño 2.5 micrómetros), pov (pobreza) que se encuentran en la base de datos espaciales.
# Librerias
library(GWmodel)
Desarrollo
El primer paso de esta tarea, consiste en leer el archivo COUNTY_ATLANTIC.shp, conociendo este formato (shp), deducimos automáticamente que es un archivo informático propio de datos espaciales. Para ello utilizamos la función readShapeSpatial y escogemos el archivo en el directorio.
COUNTY_ATLANTIC.shp: Este archivo contiene 666 datos y 12 variables. De las cuales reconocemos las coordenadas (\(x\), \(y\)) correspondientes a las 13 colonias que tenía Reino Unido en la costa este de América del Norte. Para estas coordenadas se incluyen su perteneciente:
REGION: Sur ó noreste.
DIVISION: Atlántico medio o Atlántico sur.
STATE: 11 Estados. (Thirteen Colonies)
COUNTY: 521 condados.
Condado = readShapeSpatial(file.choose())
Luego, leemos el archivo de datos espaciales STATE_ATLANTIC.shp.
STATE_ATLANTIC.shp: Este archivo contiene 11 datos y 9 variables. De las cuales reconocemos:
REGION: Sur ó noreste.
DIVISION: Atlántico medio o Atlántico sur.
STATE: 11 Estados. (Thirteen Colonies)
STATE_AB: 11 abreviaciones de los estados.
Estado = readShapeSpatial(file.choose())
Leemos la base de datos data_atlantic_1998_2012.csv, mediante la función read.csv, y escogemos el archivo en el directorio.
data_atlantic_1998_2012.csv: Este archivo contiene 666 datos y 9 variables. De las cuales reconocemos las coordenadas (\(x\), \(y\)) con la siguiente información:
Rate: Tasa de cáncer de pulmón.
POV: Pobreza
PM25: Indicador de la contaminación urbana.
NO2: El dióxido de nitrógeno como consecuencia del tráfico rodado.
SO2: El dióxido de azufre como gas contaminante del aire.
Datos = read.csv(file.choose(), header=T)
Unimos los DataFrames: Condado y Datos y lo guardamos en la variable SPDF. Utilizamos la función merge para ello uniendo por la columna “FIPS” de estos datos.
Nota: El FIPS: Federal Information Processing Standard Publication (Publicación estándar de procesamiento de información federal) era un código de estándares de procesamiento de información federal de cinco dígitos que identificaba de manera única a los condados.
SPDF = merge(Condado, Datos, by = "FIPS")
names (SPDF) #nombres del objeto SPDF
[1] "FIPS" "ID" "x.x" "y.x"
[5] "REGION_ID" "DIVISION_I" "STATE_ID" "COUNTY_ID"
[9] "REGION" "DIVISION" "STATE" "COUNTY"
[13] "x.y" "y.y" "Rate" "POV"
[17] "SMOK" "PM25" "NO2" "SO2"
- Calculamos medidas estadísticas descriptivas del conjunto de datos geográficamente ponderadas mediante la función gwss. Esto incluye para cada variable: Rate, PM2.5, pov, la media, desviación estándar, varianza, asimetría, coeficiente de variación, covarianza y correlación entre las mismas, locales.
Estadisticos = gwss(SPDF,
vars = c("Rate", "PM25", "POV"),
kernel = "bisquare", # Funcion kernel
adaptive = TRUE, # Bw es adaptativo (variable)
bw = 48) # Ancho de banda
Estadisticos
***********************************************************************
* Package GWmodel *
***********************************************************************
***********************Calibration information*************************
Local summary statistics calculated for variables:
Rate PM25 POV
Number of summary points: 666
Kernel function: bisquare
Summary points: the same locations as observations are used.
Adaptive bandwidth: 48 (number of nearest neighbours)
Distance metric: Euclidean distance metric is used.
************************Local Summary Statistics:**********************
Summary information for Local means:
Min. 1st Qu. Median 3rd Qu. Max.
Rate_LM 60.719 66.421 70.614 72.207 76.842
PM25_LM 10.165 11.186 11.489 11.864 12.427
POV_LM 10.779 12.453 15.266 16.509 20.584
Summary information for local standard deviation :
Min. 1st Qu. Median 3rd Qu. Max.
Rate_LSD 9.05700 10.64575 11.07438 11.73020 15.2284
PM25_LSD 0.54993 0.94388 1.12628 1.23341 1.6819
POV_LSD 3.73408 4.73953 5.12185 5.39749 5.8609
Summary information for local variance :
Min. 1st Qu. Median 3rd Qu. Max.
Rate_LVar 82.02917 113.33210 122.64193 137.59767 231.9056
PM25_LVar 0.30243 0.89091 1.26851 1.52131 2.8288
POV_LVar 13.94337 22.46319 26.23332 29.13289 34.3497
Summary information for Local skewness:
Min. 1st Qu. Median 3rd Qu. Max.
Rate_LSKe -0.071523 0.216442 0.386823 0.598824 0.8325
PM25_LSKe -1.456352 -0.890750 -0.410189 -0.102092 0.4324
POV_LSKe -0.434795 0.205608 0.400079 0.584543 0.9860
Summary information for localized coefficient of variation:
Min. 1st Qu. Median 3rd Qu. Max.
Rate_LCV 0.135837 0.149828 0.159503 0.173521 0.2031
PM25_LCV 0.044980 0.080001 0.098187 0.110133 0.1637
POV_LCV 0.255187 0.304386 0.331298 0.379579 0.4472
Summary information for localized Covariance and Correlation between these variables:
Min. 1st Qu. Median
Cov_Rate.PM25 -3.1528683 -1.1347505 -0.6292969
Cov_Rate.POV 8.6548252 18.7118199 22.1321511
Cov_PM25.POV -2.0831025 -1.2793668 -0.8609368
Corr_Rate.PM25 -0.2213778 -0.1009946 -0.0569110
Corr_Rate.POV 0.1752022 0.3354824 0.3999972
Corr_PM25.POV -0.3563237 -0.2314432 -0.1609050
Spearman_rho_Rate.PM25 -0.2001301 -0.0743685 -0.0125142
Spearman_rho_Rate.POV 0.2501326 0.3686766 0.4001836
Spearman_rho_PM25.POV -0.3639950 -0.2338469 -0.1655752
3rd Qu. Max.
Cov_Rate.PM25 -0.0801118 0.8349
Cov_Rate.POV 26.0467903 47.7038
Cov_PM25.POV -0.4255488 0.2914
Corr_Rate.PM25 -0.0064755 0.0680
Corr_Rate.POV 0.4623835 0.6018
Corr_PM25.POV -0.0810170 0.0495
Spearman_rho_Rate.PM25 0.0456275 0.1341
Spearman_rho_Rate.POV 0.4476783 0.5721
Spearman_rho_PM25.POV -0.0897677 0.0403
************************************************************************
- A continuación se definen diferentes características para generar una función que grafique cada estadístico para cada variable.
# Atributo que dibuja las delimitaciones de los estados.
polys = list("sp.lines",
as(Estado, "SpatialLines"),
col = "black", lwd=1, lty=2)
# Creando una paleta de colores.
col.palette = colorRampPalette(
c("blue", "sky blue", "green", "yellow", "red"),
space = "rgb",
interpolate = "linear")
# Funcion que grafica las variables
grafica <- function(vble, title) {
spplot(Estadisticos$SDF,
vble,
main = title,
sp.layout = polys,
col = "transparent",
col.regions = col.palette(100))
}
Desviación estándar local
x=grafica("Rate_LSD","Tasa de cancer DeL")
y=grafica("PM25_LSD","PM2.5 DeL")
z=grafica("POV_LSD","Pobreza DeL")
grid.arrange(x,y,z, nrow=1, ncol=3)

Análisis:
La primera gráfica indica que en el centro, al oeste, hubo mayor dispersión en la tasa de cáncer, es decir, la tasa de cáncer varió mucho en esa zona. Mietras que en los lugares donde se ve azul, hubo menor dispersión, es decir, que la tasa de cáncer fue similar.
Para la segunda gráfica, hubo mayor dispersión en el norte del mapa, es decir que el diámetro de la materia particulada 2.5 varió mucho, mientras que en el sur fue más similar.
Y en la gráfica de la pobreza, se observa que hubo mayor dispersión en el sur, eso indica que es probable que exista mayor desigualdad económica que en el norte del mapa, que es donde se presenta el menor valor de dispersión y por ende mayor similaridad.
Coeficiente de variación local
library(gridExtra)
x=grafica("Rate_LCV","Tasa de cancer CvL")
y=grafica("PM25_LCV","PM2.5 CvL")
z=grafica("POV_LCV","Pobreza CvL")
grid.arrange(x,y,z, nrow=1, ncol=3)

En estadística, mientras mayor sea el valor del coeficiente de variación hay mayor heterogeneidad de los valores de la variable; y a menor C.V., mayor homogeneidad en los valores de la variable. La interpretación puede ser similar a la de la desviación estándar, solo que aquí se puede explicar con cantidades cuán dispersos realmente son los datos, por ejemplo, en la gráfica de la pobreza, se puede decir que en el sureste dónde se presenta la mayor dispersión con un coeficiente de variación aproximadamente de 0.45 indica una cantidad considerable de que realmente hay desigualdad económica o simplemente no se tomó una muestra significativa en esa zona.
También, por ejemplo, el PM2.5, la zona más alta presenta un coeficiente de variación de 0.16, y esto indica que a pesar de tener una alta dispersión en los datos, el comportamiento de la concentración de este material puede seguir comportándose de forma similar.
Correlación geográficamente ponderada entre la tasa de cáncer y el PM2.5
x=grafica("Corr_Rate.PM25","Corr Tasa de cáncer y PM2.5")
y=grafica("Corr_Rate.POV","Corr Tasa de cáncer y Pobreza")
grid.arrange(x,y, nrow=1, ncol=2)

Según la primera gráfica, dado que el mayor valor es 0.05 y este se aproxima a cero, prácticamente no existe una relación entre estas dos variables en las zonas dónde los colores varían de rojo a verde, mientras que el menor valor es -0.2 y esto indica que es posible que exista una relación inversa, es decir, donde mayor tasa de cáncer hay, menor concentración de PM2.5, pero igualmente, el coeficiente de correlación sigue siento bajo y por ende, una relación muy débil. En general, se puede concluir que no hay relación entre estas dos variables.
En la segunda gráfica, todos los números son positivos por lo que puede existir una relación directa entre la pobreza y la tasa de cáncer, de modo que a mayor tasa de cáncer, mayor es la pobreza que se puede presentar en la zona y viceversa. Dado que, el mayor valor es aproximadamente 0.6, existe una relación fuerte de estas variables en la zona centro-oeste, mientras que la relación es prácticamente nula donde el color es azul, es decir, al sur y al noreste del mapa.
Significancia de los valores de la correlación:
Esta función implementa pruebas de Monte Carlo (aleatorización) para las estadísticas de resumen de GW que se encuentran en gwss.
DM<-gw.dist(dp.locat=coordinates(SPDF))
test<-gwss.montecarlo(data=SPDF,
vars=c("Rate","PM25", "POV"), bw=48,
kernel ="bisquare", dMat=DM,
nsim=99, adaptive = TRUE)
t <- as.data.frame(test)
Estadisticos$SDF$test.Corr_Rate.PM25 = t$Corr_Rate.PM25
Estadisticos$SDF$test.Corr_Rate.POV = t$Corr_Rate.POV
A continuación se muestra la significancia de la correlación entre la tasa de cáncer y la pobreza.
Nota: La función gwss.montecarlo arroja la probabilidad de las estadísticas de prueba geográficamente ponderadas, para este caso la correlación. Luego, si p<0.025 o si p>0.975, entonces se puede decir que la verdadera correlación local es significativamente diferente (en el nivel de 0.95) a la correlación local encontrada por casualidad.
Esto indica que en las zonas azules de las siguientes gráficas, la correlación local encontrada es significativamente diferente a la correlación verdadera local.


