Dr. Marco Auerlio González Tagle
19 de agosto de 2015
La asignatura esta diseñada para llevar al alumno al manejo y uso a nivel principiante e intermedio del software R. Para ello se trabaja con tareas sencillas, pero relevantes, relacionadas con el manejo y análisis de datos en el contexto estadístico y de la carrera de Ingeniero Forestal.
Los documentos de esta clase en extenso pueden descargarlos en el siguiente link: Descargar documentos de la Clase 1
Regresión lineal y correlación
Análisis de varianza
Para registrar exitosamente sus tareas en evernote favor de seguir las siguientes instrucciones:
Ejemplo Asunto: Marco A. González Tagle Matrícula 1213458 @xxxxxxx.
La base de datos se puede descargar del siguiente link: www.mgtagle.wordpress.com
blog personal para los cursos
R es un lenguaje de alto nivel y un entorno para el análisis de datos y gráficos más potente y profesional que existe actualmente para realizar tareas estadísticas de todo tipo, desde las más elementales, hasta las más avanzadas.
Sitio http://cran.r-project.org para la descarga de R
Cuatro paneles de trabajo en Rtudio
Las paqueterias se encuentran publicadas en “Comprehensive R Archive Network (CRAN)”, pero en Rstudio podemos instalarlas directamente siguiendo los siguientes pasos.
En el panel inferior derecho de la pantalla de Rstudio se encuentra la pestaña Packages se da click en esa pestaña y luego en Install y aparecera una ventana donde podemos enlistar las paqueterías o liberias que necesitamos, en este caso ocuparemos para el desarrollo de nuestro curso el paquete knitr (Figura ).
Ventana para especificar e instalar la paqueteria deseada directamente del repositorio CRAN
Es una buena idea iniciar el curso con la creación de un proyecto para guardar nuestros scripts. Un script son archivos que contienen el código para ingresar nuestros datos, visualizarlos mediante gráficas y generar el análisis que necesitamos. Los scripts que se generen en el proyecto, estarán siempre disponibles para consultarlo en cualquier momento que el usuario así lo desee. Para crear un projecto, vamos a la pestaña superior derecha de Rstudio y damops click en crear un proyecto.
Un script son archivos que contienen el código para ingresar nuestros datos, visualizarlos mediante gráficas y generar el análisis que necesitamos. Para crear uno nuevo vamos a la barra Archivo -> Nuevo Archivo -> RScript.
R es un lenguaje Orientado a Objetos: bajo este complejo término se esconde la simplicidad y flexibilidad de R. Orientado a Objetos significa que las variables, datos, funciones, resultados, etc., se guardan en la memoria activa del computador en forma de objetos con un nombre específico. El usuario puede modificar o manipular estos objetos con operadores (aritméticos, lógicos, y comparativos) y funciones (que a su vez son objetos).
n <- 10
n
## [1] 10
A continuación se explicará brevemente la manera de importar datos que proviene de una base de datos desarrollaad en Excel a R. La importación es muy simple y se realiza mediante la función read.csv. El formato del archivo excel debe estar guardado en formato csv.
Cuatro paneles de trabajo en Rtudio
Después de tener los datos guardados en el formato y nombre deseado en este caso DBH_1.csv se procede a la importación usando el comando read.csv. Es importante informar a R en que directorio se encuentra la base de datos disponible para la importación, Podemos utilizar el comando setwd. La base de datos se debe guardar como un objeto en la memoria de R para el siguiente ejemplo lo llamaremos trees.
setwd("/Volumes/TOSHIBA/GitHub/Analisis_Estadistico/Data")
trees <- read.csv("DBH_1.csv", header=TRUE)
Ahora hemos creado el objeto trees que podemos observar solamente escribiendo nuevamente en la línea de comando de Rstudio
trees
## Tree dbh parcela
## 1 1 16.5 1
## 2 2 25.3 1
## 3 3 22.1 1
## 4 4 17.2 1
## 5 5 16.1 1
## 6 6 8.1 1
## 7 7 34.3 1
## 8 8 5.4 1
## 9 9 5.7 1
## 10 10 11.2 1
## 11 11 24.1 2
## 12 12 14.5 2
## 13 13 7.7 2
## 14 14 15.6 2
## 15 15 15.9 2
## 16 16 10.0 2
## 17 17 17.5 2
## 18 18 20.5 2
## 19 19 7.8 2
## 20 20 27.3 2
## 21 21 9.7 3
## 22 22 6.5 3
## 23 23 23.4 3
## 24 24 8.2 3
## 25 25 28.5 3
## 26 26 10.4 3
## 27 27 11.5 3
## 28 28 14.3 3
## 29 29 17.2 3
## 30 30 16.8 3
De manera alternativa es teclear los datos de forma manual en el programa Rstudio de la siguiente manera: Supongamos que tenemos 30 mediciones de árboles de la especie Pinus pseudostrobus realizado mediante un inventario en campo, los datos son los siguientes:
| Trees | dbh | Trees | dbh | Trees | dbh |
|---|---|---|---|---|---|
| 1 | 16.5 | 11 | 24.1 | 21 | 9.7 |
| 2 | 25.3 | 12 | 14.5 | 22 | 6.5 |
| 3 | 22.1 | 13 | 7.7 | 23 | 23.4 |
| 4 | 17.2 | 14 | 15.6 | 24 | 8.2 |
| 5 | 16.1 | 15 | 15.9 | 25 | 28.5 |
| 6 | 8.1 | 16 | 10 | 26 | 10.4 |
| 7 | 34.3 | 17 | 17.5 | 27 | 11.5 |
| 8 | 5.4 | 18 | 20.5 | 28 | 14.3 |
| 9 | 5.7 | 19 | 7.8 | 29 | 17.2 |
| 10 | 11.2 | 20 | 27.3 | 30 | 16.8 |
En el lenguaje R podemos ingresar este conjunto de datos de la siguiente forma:
dbh <- c(16.5, 25.3, 22.1, 17.2, 16.1, 8.1, 34.3, 5.4, 5.7, 11.2,
24.1, 14.5, 7.7, 15.6, 15.9, 10, 17.5, 20.5, 7.8, 27.3,
9.7, 6.5, 23.4, 8.2, 28.5, 10.4, 11.5, 14.3, 17.2, 16.8)
¿Como podemos revisar los datos de dbh recién ingresados?
dbh
## [1] 16.5 25.3 22.1 17.2 16.1 8.1 34.3 5.4 5.7 11.2 24.1 14.5 7.7 15.6
## [15] 15.9 10.0 17.5 20.5 7.8 27.3 9.7 6.5 23.4 8.2 28.5 10.4 11.5 14.3
## [29] 17.2 16.8
Ahora hemos creado dos objetos llamados 1. trees
mean(trees$dbh) # El signo de $ sirve para informar que necesitamos la columna dbh
## [1] 15.64333
sd(trees$dbh)
## [1] 7.448892
dbhmean(dbh)
## [1] 15.64333
sd(dbh)
## [1] 7.448892
El uso de restricciones sirve para obtener una muestra de la base de datos trees y es por ejemplo una operación útil en el manejo de información de los invetarios forestales.
Los restrictores más empleados son:
igual o mayor (>=), mayor que (>), igual que (==)
igual o menor (<=), menor que (<), no igual (!=)
Para mostrar como funcionan las restricciones podemos realizar las siguientes preguntas: Cuantos individuos tiene un diámetro menor (<) a 10 cm.
sum(trees$dbh < 10)
## [1] 8
Otro ejemplo de la utilidad de los restrictores es: Excluir los diámetros que se encuentran en la parcela 2. El objeto resultante se puede grabar como trees.13. El simbolo ! indica NO.
trees.13 <- trees[!(trees$parcela=="2"),]
trees.13
## Tree dbh parcela
## 1 1 16.5 1
## 2 2 25.3 1
## 3 3 22.1 1
## 4 4 17.2 1
## 5 5 16.1 1
## 6 6 8.1 1
## 7 7 34.3 1
## 8 8 5.4 1
## 9 9 5.7 1
## 10 10 11.2 1
## 21 21 9.7 3
## 22 22 6.5 3
## 23 23 23.4 3
## 24 24 8.2 3
## 25 25 28.5 3
## 26 26 10.4 3
## 27 27 11.5 3
## 28 28 14.3 3
## 29 29 17.2 3
## 30 30 16.8 3
Una submuestra se puede obtener de cualquier base de datos que este disponible en R mediante el comando subset. Por ejemplo queremos obtener solo los diametros iguales o menores a 10 cm y deseamos guardarla en una base de datos que se denominara trees.1.
trees.1 <- subset(trees, dbh <= 10)
head(trees.1)
## Tree dbh parcela
## 6 6 8.1 1
## 8 8 5.4 1
## 9 9 5.7 1
## 13 13 7.7 2
## 16 16 10.0 2
## 19 19 7.8 2
La base de datos trees.1 contiene 9 observaciones obtenidas mediante la restricción (subset(trees, dbh <= 10)) de los diámetros iguales o menores a 10 cm de la base de datos original trees.
Ahora tenemos dos base de datos: trees y trees.1 diponibles en R y con ambas podemos realizar las operaciones aprendidas durante la clase.
mean(trees$dbh)
## [1] 15.64333
mean(trees.1$dbh)
## [1] 7.677778
No se apuren si no funciona la primera vez