MCF-202 Análisis Estadístico

Dr. Marco Auerlio González Tagle

19 de agosto de 2015

Introducción

La asignatura esta diseñada para llevar al alumno al manejo y uso a nivel principiante e intermedio del software R. Para ello se trabaja con tareas sencillas, pero relevantes, relacionadas con el manejo y análisis de datos en el contexto estadístico y de la carrera de Ingeniero Forestal.

Trabajamos con R y Rstudio Trabajamos con R y Rstudio

Los documentos de esta clase en extenso pueden descargarlos en el siguiente link: Descargar documentos de la Clase 1

Objetivos

Contenido

  1. Introducción al lenguaje R
  2. Estadísticas descriptivas de datos provenientes de inventarios forestales
    • Ejercicio de estadísticas descriptivas
  3. Contraste de hipótesis
    • Pruebas de t
    • muestra única
    • muestras independientes
    • muestras dependientes
  4. Regresión lineal y correlación

  5. Análisis de varianza

Entrega de tareas

Para registrar exitosamente sus tareas en evernote favor de seguir las siguientes instrucciones:

  1. Email: mgtagle01.5730fe4@m.evernote.com
  2. En el Asunto del email se debe incluir su nombre, número de matrícula seguido de las siguiente indicación: @xxxxxx.

Ejemplo Asunto: Marco A. González Tagle Matrícula 1213458 @xxxxxxx.

Base de datos para ejercicio

La base de datos se puede descargar del siguiente link: www.mgtagle.wordpress.com

blog personal para los cursos

blog personal para los cursos

Introducción a R y RStudio

Descripción de R

R es un lenguaje de alto nivel y un entorno para el análisis de datos y gráficos más potente y profesional que existe actualmente para realizar tareas estadísticas de todo tipo, desde las más elementales, hasta las más avanzadas.

Sitio http://cran.r-project.org para la descarga de R

Sitio http://cran.r-project.org para la descarga de R

RStudio

Descripción

Cuatro paneles de trabajo en Rtudio

Cuatro paneles de trabajo en Rtudio

Instalar paquetes en RStudio

Las paqueterias se encuentran publicadas en “Comprehensive R Archive Network (CRAN)”, pero en Rstudio podemos instalarlas directamente siguiendo los siguientes pasos.

En el panel inferior derecho de la pantalla de Rstudio se encuentra la pestaña Packages se da click en esa pestaña y luego en Install y aparecera una ventana donde podemos enlistar las paqueterías o liberias que necesitamos, en este caso ocuparemos para el desarrollo de nuestro curso el paquete knitr (Figura ).

Ventana para especificar e instalar la paqueteria deseada directamente del repositorio CRAN

Ventana para especificar e instalar la paqueteria deseada directamente del repositorio CRAN

Crear un proyecto en RStudio

Es una buena idea iniciar el curso con la creación de un proyecto para guardar nuestros scripts. Un script son archivos que contienen el código para ingresar nuestros datos, visualizarlos mediante gráficas y generar el análisis que necesitamos. Los scripts que se generen en el proyecto, estarán siempre disponibles para consultarlo en cualquier momento que el usuario así lo desee. Para crear un projecto, vamos a la pestaña superior derecha de Rstudio y damops click en crear un proyecto.

Crear un nuevo proyecto para nuestra sesión del curso

Crear un Script

Un script son archivos que contienen el código para ingresar nuestros datos, visualizarlos mediante gráficas y generar el análisis que necesitamos. Para crear uno nuevo vamos a la barra Archivo -> Nuevo Archivo -> RScript.

Crear un nuevo Script para nuestro proyecto

Manipulación de datos con R

Facilidad de R

R es un lenguaje Orientado a Objetos: bajo este complejo término se esconde la simplicidad y flexibilidad de R. Orientado a Objetos significa que las variables, datos, funciones, resultados, etc., se guardan en la memoria activa del computador en forma de objetos con un nombre específico. El usuario puede modificar o manipular estos objetos con operadores (aritméticos, lógicos, y comparativos) y funciones (que a su vez son objetos).

n <- 10
n
## [1] 10

Importar datos a R

A continuación se explicará brevemente la manera de importar datos que proviene de una base de datos desarrollaad en Excel a R. La importación es muy simple y se realiza mediante la función read.csv. El formato del archivo excel debe estar guardado en formato csv.

Cuatro paneles de trabajo en Rtudio

Cuatro paneles de trabajo en Rtudio

Declarar el archivo de trabajo

Después de tener los datos guardados en el formato y nombre deseado en este caso DBH_1.csv se procede a la importación usando el comando read.csv. Es importante informar a R en que directorio se encuentra la base de datos disponible para la importación, Podemos utilizar el comando setwd. La base de datos se debe guardar como un objeto en la memoria de R para el siguiente ejemplo lo llamaremos trees.

setwd("/Volumes/TOSHIBA/GitHub/Analisis_Estadistico/Data")
trees <- read.csv("DBH_1.csv", header=TRUE)

Revisar los datos

Ahora hemos creado el objeto trees que podemos observar solamente escribiendo nuevamente en la línea de comando de Rstudio

trees
##    Tree  dbh parcela
## 1     1 16.5       1
## 2     2 25.3       1
## 3     3 22.1       1
## 4     4 17.2       1
## 5     5 16.1       1
## 6     6  8.1       1
## 7     7 34.3       1
## 8     8  5.4       1
## 9     9  5.7       1
## 10   10 11.2       1
## 11   11 24.1       2
## 12   12 14.5       2
## 13   13  7.7       2
## 14   14 15.6       2
## 15   15 15.9       2
## 16   16 10.0       2
## 17   17 17.5       2
## 18   18 20.5       2
## 19   19  7.8       2
## 20   20 27.3       2
## 21   21  9.7       3
## 22   22  6.5       3
## 23   23 23.4       3
## 24   24  8.2       3
## 25   25 28.5       3
## 26   26 10.4       3
## 27   27 11.5       3
## 28   28 14.3       3
## 29   29 17.2       3
## 30   30 16.8       3

Alternativa para ingresar los datos

De manera alternativa es teclear los datos de forma manual en el programa Rstudio de la siguiente manera: Supongamos que tenemos 30 mediciones de árboles de la especie Pinus pseudostrobus realizado mediante un inventario en campo, los datos son los siguientes:

Datos proveniente de 30 árboles inventariados de la especie Pinus pseudostrobus
Trees dbh Trees dbh Trees dbh
1 16.5 11 24.1 21 9.7
2 25.3 12 14.5 22 6.5
3 22.1 13 7.7 23 23.4
4 17.2 14 15.6 24 8.2
5 16.1 15 15.9 25 28.5
6 8.1 16 10 26 10.4
7 34.3 17 17.5 27 11.5
8 5.4 18 20.5 28 14.3
9 5.7 19 7.8 29 17.2
10 11.2 20 27.3 30 16.8

Ingresar datos manualmente

En el lenguaje R podemos ingresar este conjunto de datos de la siguiente forma:

dbh <- c(16.5, 25.3, 22.1, 17.2, 16.1, 8.1, 34.3, 5.4, 5.7, 11.2, 
         24.1, 14.5, 7.7, 15.6, 15.9, 10, 17.5, 20.5, 7.8, 27.3, 
         9.7, 6.5, 23.4, 8.2, 28.5, 10.4, 11.5, 14.3, 17.2, 16.8)

¿Como podemos revisar los datos de dbh recién ingresados?

Revisar datos

dbh
##  [1] 16.5 25.3 22.1 17.2 16.1  8.1 34.3  5.4  5.7 11.2 24.1 14.5  7.7 15.6
## [15] 15.9 10.0 17.5 20.5  7.8 27.3  9.7  6.5 23.4  8.2 28.5 10.4 11.5 14.3
## [29] 17.2 16.8

Operaciones con un conjunto de datos

Ahora hemos creado dos objetos llamados 1. trees

mean(trees$dbh) # El signo de $ sirve para informar que necesitamos la columna dbh
## [1] 15.64333
sd(trees$dbh)
## [1] 7.448892
  1. dbh
mean(dbh) 
## [1] 15.64333
sd(dbh)
## [1] 7.448892

Selección mediante restricciones

El uso de restricciones sirve para obtener una muestra de la base de datos trees y es por ejemplo una operación útil en el manejo de información de los invetarios forestales.

Los restrictores más empleados son:

igual o mayor (>=), mayor que (>), igual que (==)
igual o menor (<=), menor que (<), no igual (!=)

Ejemplo

Para mostrar como funcionan las restricciones podemos realizar las siguientes preguntas: Cuantos individuos tiene un diámetro menor (<) a 10 cm.

sum(trees$dbh < 10)
## [1] 8

Restricciones

Otro ejemplo de la utilidad de los restrictores es: Excluir los diámetros que se encuentran en la parcela 2. El objeto resultante se puede grabar como trees.13. El simbolo ! indica NO.

trees.13 <- trees[!(trees$parcela=="2"),]
trees.13
##    Tree  dbh parcela
## 1     1 16.5       1
## 2     2 25.3       1
## 3     3 22.1       1
## 4     4 17.2       1
## 5     5 16.1       1
## 6     6  8.1       1
## 7     7 34.3       1
## 8     8  5.4       1
## 9     9  5.7       1
## 10   10 11.2       1
## 21   21  9.7       3
## 22   22  6.5       3
## 23   23 23.4       3
## 24   24  8.2       3
## 25   25 28.5       3
## 26   26 10.4       3
## 27   27 11.5       3
## 28   28 14.3       3
## 29   29 17.2       3
## 30   30 16.8       3

Selección de una submuestra

Una submuestra se puede obtener de cualquier base de datos que este disponible en R mediante el comando subset. Por ejemplo queremos obtener solo los diametros iguales o menores a 10 cm y deseamos guardarla en una base de datos que se denominara trees.1.

trees.1 <- subset(trees, dbh <= 10)
head(trees.1)
##    Tree  dbh parcela
## 6     6  8.1       1
## 8     8  5.4       1
## 9     9  5.7       1
## 13   13  7.7       2
## 16   16 10.0       2
## 19   19  7.8       2

La base de datos trees.1 contiene 9 observaciones obtenidas mediante la restricción (subset(trees, dbh <= 10)) de los diámetros iguales o menores a 10 cm de la base de datos original trees.

Ahora tenemos dos base de datos: trees y trees.1 diponibles en R y con ambas podemos realizar las operaciones aprendidas durante la clase.

mean(trees$dbh)
## [1] 15.64333
mean(trees.1$dbh)
## [1] 7.677778

Dudas

No se apuren si no funciona la primera vez

No se apuren si no funciona la primera vez