El Rpbs presenta un resumen de las actividades propuestas como temas de consulta del curso de Fundamentación II.
#1. Tarea pendiente
#2. Comentar y comprender el codigo visto en clase
#3. Realizar los siguientes ejercicios:
# Estudiar el paquete GeoXp del R (ver artículo) Realizar un análisis exploratorio para datos puntuales en R (puede ser puntos del estado de Atlanta, ver carpeta Ejemplo_GWSS)
Se propone con el objetivo de tomar las definiciones y conceptos claros sobre un breve resumen: Intervalo de confianza, Pruebas de hipotesis, Metodos univariados, Procesos estocasticos
# a un par o varios pares de números entre los cuales se estima que estará cierto valor desconocido respecto de un parámetro poblacional con un determinado nivel de confianza. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. El nivel de confianza representa el porcentaje de intervalos que tomados de 100 muestras independientes distintas contienen en realidad el valor desconocido.
Ver imagen (https://ekuatio.com/intervalo-de-confianza-que-es-y-como-se-calcular-ejercicios-resueltos/)
Revisar notas:
http://www.learningaboutelectronics.com/Articulos/Calculadora-de-intervalo-de-confianza.php
https://rpubs.com/acatania/396921#:~:text=Cuando%20estimo%20la%20media%20poblacional,%CE%B1%2F2%CF%83%E2%88%9An.
#Una prueba de hipótesis es una regla que especifica si se puede aceptar o rechazar una afirmación acerca de una población dependiendo de la evidencia proporcionada por una muestra de datos.
#Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la hipótesis nula y la hipótesis alternativa. La hipótesis nula es el enunciado que se probará. Por lo general, la hipótesis nula es un enunciado de que "no hay efecto" o "no hay diferencia". La hipótesis alternativa es el enunciado que se desea poder concluir que es verdadero de acuerdo con la evidencia proporcionada por los datos de la muestra.
Tipos de pruebas ** Prueba del valor Z de la distribución normal Prueba T de Student para datos relacionados (muestras dependientes) Prueba F (análisis de varianza o ANOVA)
** Prueba binomial Prueba chi 2 de Pearson Prueba de probabilidad exacta de Fischer y Yates Prueba de McNemar para muestras dependientes Prueba Q de Cochran para tres o más muestras dependientes
Prueba de Kolmogorov-Smirnov para una muestra Prueba de U Mann-Whitney para dos muestras independientes Prueba de Wilcoxon de rangos señalados y pares igualados para dos muestras dependientes Análisis de varianza de una entrada de Kruskal-Wallis para más de dos muestras independientes Análisis de varianza de doble entrada por rangos de Friedman para más de dos muestras dependientes
Es un conjunto de variables aleatorias que depende de un parámetro o de un argumento, es aquel que no se puede predecir. Se mueve al azar
Ejemplo: Terremotos, El clima, El segundo concreto de un partido en el que un jugador anota un gol, Número de personas que dicen una palabra concreta alrededor del mundo
La segunda actividad consiste en comentar el codigo visto en clase. El script tiene como objetivo la lectura de datos espaciales y sobre el procesar y analizar los datos tomando la base de datos “measure”:
Cargamos la libreria sp, disponible para el tratamiento de datos espaciales
library(sp) #Libraria para el tratamiento de datos espaciales
Se implementa la base de datos “meuse”, la observamos y vemos sus dimensiones, meuse es una base de datos de las sustancias del suelo con 155 obsv. 14variables
data(meuse) #Carga la base de datos "meuse"
View(meuse) # Observar la base de datos
class(meuse) #clase de objetos que estamos leyendo (un dataframe)
## [1] "data.frame"
str(meuse) #permite conocer la estructura de los datos data.frame 155 obs. 14 variables y presenta el nombre y clase de cada variable, con una previsualización de su contenido.
## 'data.frame': 155 obs. of 14 variables:
## $ x : num 181072 181025 181165 181298 181307 ...
## $ y : num 333611 333558 333537 333484 333330 ...
## $ cadmium: num 11.7 8.6 6.5 2.6 2.8 3 3.2 2.8 2.4 1.6 ...
## $ copper : num 85 81 68 81 48 61 31 29 37 24 ...
## $ lead : num 299 277 199 116 117 137 132 150 133 80 ...
## $ zinc : num 1022 1141 640 257 269 ...
## $ elev : num 7.91 6.98 7.8 7.66 7.48 ...
## $ dist : num 0.00136 0.01222 0.10303 0.19009 0.27709 ...
## $ om : num 13.6 14 13 8 8.7 7.8 9.2 9.5 10.6 6.3 ...
## $ ffreq : Factor w/ 3 levels "1","2","3": 1 1 1 1 1 1 1 1 1 1 ...
## $ soil : Factor w/ 3 levels "1","2","3": 1 1 1 2 2 2 2 1 1 2 ...
## $ lime : Factor w/ 2 levels "0","1": 2 2 2 1 1 1 1 1 1 1 ...
## $ landuse: Factor w/ 15 levels "Aa","Ab","Ag",..: 4 4 4 11 4 11 4 2 2 15 ...
## $ dist.m : num 50 30 150 270 380 470 240 120 240 420 ...
head(meuse) #permite previsualizar los primeros 6 datos de la tabla.
Además se tiene en cuenta que al agregar el simbolo ? se puede consultar su definición y utilidad en R
#?sp
#?meuse
#?plot
Se convierten las columnas (x,y) de la base de datos meuse en un objeto espacial (punto)
coordinates(meuse) = c("x", "y") # Convierte el data.frame a un objeto espacial de tipo SPACIAPOINTDATAFRAME
class(meuse) #clase de objetos que estamos leyendo y vemos que cambia a un objeto espacial spatialPointsDATAFRAME tipo punto
## [1] "SpatialPointsDataFrame"
## attr(,"package")
## [1] "sp"
Lugo, se diagrama la base de datos meuse
plot(meuse,main="Dato espacial: Cruz") # Diagrama la base de datos en forma de cruz
plot(meuse, pch=1, main="Dato espacial: Punto") # Diagrama la base de datos con forma de puntos pch
Para el tratamiento de datos espaciales, al querer unir los datos en forma de linea se debe ejecutar las siguientes líneas:
#title("Puntos")
cc = coordinates(meuse)
?coordinates(meuse)
m.sl = SpatialLines(list(Lines(list(Line(cc)), "line1")))
plot(m.sl)
title("Líneas")
Se diagrama la distribución espacial del rio meuse (Poligono)
data(meuse.riv)
meuse.lst = list(Polygons(list(Polygon(meuse.riv)), "meuse.riv"))
meuse.pol = SpatialPolygons(meuse.lst)
plot(meuse.pol, col = "grey")
title("Polígono")
En las siguientes lineas se diagrama la distribución espacial del poligono (RIO MEUSE) Y las muestras espaciales
plot(meuse,pch=1,main="Poligono vs Muestras")
plot(meuse.pol, col = "grey", add = TRUE)
Diagrama la distrbución espacial de la variable Zinc, por medio de la libreria “laticce” (Es un sistema de visualización de datos de alto nivel)
library(lattice)
spplot(meuse, c("zinc"),main="Distribución variable ZINC")
Diagramamos la distrbución espacial conlas coordenadas (x,y)
library(ggplot2)
methods(fortify)
## [1] fortify.cld* fortify.confint.glht*
## [3] fortify.data.frame* fortify.default*
## [5] fortify.formula* fortify.function*
## [7] fortify.glht* fortify.grouped_df*
## [9] fortify.Line* fortify.Lines*
## [11] fortify.lm* fortify.map*
## [13] fortify.NULL* fortify.Polygon*
## [15] fortify.Polygons* fortify.sfc*
## [17] fortify.sfg* fortify.SpatialLinesDataFrame*
## [19] fortify.SpatialPolygons* fortify.SpatialPolygonsDataFrame*
## [21] fortify.summary.glht* fortify.tbl*
## [23] fortify.tbl_df*
## see '?methods' for accessing help and source code
m = as(meuse, "data.frame")
ggplot(m, aes(x, y)) + geom_point() + coord_equal()
RESUMEN DEL ARTICULO:
El articulo ilustra el uso de estas técnicas exploratorias basadas en el acoplamiento entre un gráfico estadístico y un mapa, donde definen que es GeoDa y GeoXp explicando su utilidad de la siguiente forma:
#*GeoDa es un software gratuito especializado para el análisis de datos espaciales desarrollado por Anselin (2003) y combina mapas con gráficos estadísticos de forma dinámica
GeoDa es una “caja cerrada” que no se beneficia de la tremenda expansión de la R y debe considerarse como una herramienta introductoria al análisis de datos espaciales.
La necesidad de una herramienta más adaptable, integral y unificada nos motivó a iniciar eldesarrollo de un conjunto de rutinas estadísticas adaptadas a la exploración de datos georreferenciados llamado GeoXp. GeoXp ahora está disponible en Comprehensive R Archive Network (CRAN) en http://CRAN.R-project.org/package=GeoXp.
Estudiar el paquete GeoXP
#GeoXp es un paquete independiente. Sus funciones permiten el acoplamiento entre gráficos estadísticos y mapas elementales como se definió anteriormente.
GeoXp combina mapas con diagramas de dispersión de Moran, nubes de variogramas, curvas de Lorenz y otras herramientas gráficas. Para aprovechar al máximo la multidimensionalidad de los datos, GeoXp incluye técnicas de reducción de dimensiones como como análisis de componentes principales y análisis de conglomerados cuyos resultados también están vinculados a la mapa El énfasis en GeoXp es en la implementación de herramientas de estadísticas espaciales como numerosos y lo más actualizados posible.
library("GeoXp") #Carga la libreria "GeoXP"
data("mp.school") #Carga la base de datos "mp.school"
names (mp.school) #nombres
## [1] "longitude" "latitude" "name.city"
## [4] "index.rurality" "Nb.students" "Occupancy.rate"
## [7] "Cost.per.student" "Nb.students.per.class" "Freq.certifies"
## [10] "Freq.agreges" "Freq.rep.stud" "Nb.specialties"
## [13] "Teachers.age"
?mp.school #Este marco de datos contiene información sobre las escuelas de la región Midi-Pyrénées. La escuela es el nivel de la unidad espacial
Ahora #crear primero un objeto SpatialPoints que solo contiene las coordenadas del unidades espaciales
mp.school_coord <- cbind(mp.school$longitude, mp.school$latitude)
mp.school_sp <- SpatialPoints(mp.school_coord)
mp.school_spdf <- SpatialPointsDataFrame(mp.school_sp, mp.school) #creación de un objeto SpatialPointsDataFrame que contiene tanto el objeto SpatialPoints y el data.frame
luego explican para el formato: cualquier formato que se pueda importar en R se puede utilizar siempre que contiene las coordenadas geográficas
shp.file <- system.file("shapes/school.shp", package = "GeoXp")
mp_map <- rgdal::readOGR(shp.file) #importar un formato de archivo de forma desde ArcView
## OGR data source with driver: ESRI Shapefile
## Source: "C:\Users\asus\Documents\R\win-library\4.0\GeoXp\shapes\school.shp", layer: "school"
## with 8 features
## It has 2 fields
mp.contour <- spdf2list(mp_map) #permiten convertir algún objeto espacial en el formato de los contornos de GeoXp
Su funcionamiento depende de paquetes Algunos: spdep contiene clases de peso espacial matrices que se utilizan en GeoXp para sus funciones econométricas. spdep depende de los paquetes sp y maptools descritos anteriormente, necesarios para la definición de clase espacial y para importar archivos de formato espacial como shapefiles. La función qsreg del paquete de campos (Furrer, Nychka y Sain 2012) es necesario para dibujar una regresión de spline de cuantiles que es una opción común para gráficos de diagrama de dispersión. La función bkde del paquete KernSmooth (Wand 2011) se utiliza para el diagrama de densidad de distribución. Finalmente, la función inout de los splancs paquete (Rowlingson, Diggle y Bivand 2012) se utiliza para la selección, para probar la inclusión de puntos en un polígono.
Funciones Descriptivas Las funciones geoestadísticas son llamadas:
#barmap, boxplotmap, histomap, densitymap, histobarmap, dblehistomap, dbledensitymap, polyboxplotmap, ginimap, plot3dmap and scattermap.
Funciones geoestadísticas Las funciones geoestadísticas son llamadas:
#angleplotmap, driftmap and variocloudmap
Funciones econométricas Las Funciones econométricas son llamadas:
#moranplotmap and neighbourmap
Funciones multivariadas Las Funciones multivariadas son llamadas:
#kmeans o agrupamiento jerárquico de la función R hclust) al mapa.
#clustermap y pcamap.La función pcamap implementa el generalizado análisis de componentes principales