Análisis Estadístico

Dr. Marco Aurelio González Tagle
Agosto 2014

Clase 1: Manipulación de datos en R

Importar datos a R

Importar base de datos creada en Excel. El documento se debe encontra en formato csv en una carpeta establecida para almacenar las bases de datos. Ejemplo: C:/MCF202/Data

  • Utilizar el comando read.cvs

Importar datos a R (cont...)

Ejemplo para importar datos

CedroRojo <- read.csv("/Volumes/TOSHIBA/Rstudio/Principios_estadistica/Data/cedrorojo.csv", header=T)

Revisar los datos

Usando R

Los datos en la matriz CedroRojo se encuentran ya disponibles. para revisar solamente los primeras seis filas empleamos el comando:

head(CedroRojo)
  diametro altura
1    12.97  22.64
2    12.37  20.44
3    12.37  19.94
4    12.67  14.94
5    10.67  15.84
6    10.07  16.34

Determinar la media de la variable altura

Revisar: la media de la variable altura de la base de datos CedroRojo es: 18.9101 y la media para el diámetro es 12.524

mean(CedroRojo$altura)
[1] 18.91

Es importante utilizar el simbolo $ para especificar el lugar donde se encuentra.

mean(CedroRojo$diametro)
[1] 12.52

Coeficiente de variación:

¿Cuál es el coeficiente de variación de las observaciones en altura?

sd(CedroRojo$altura)/mean(CedroRojo$altura)*100
[1] 15.91

Selección específica

Determinar cuantos individuos existen por debajo de la media o un valor establecido

  • igual o mayor (>=)
  • igual o menor (<=)
  • mayor que (>)
  • menor que (<)
  • igual que (==)
  • no igual (!=)

Crawley, J. (2012) The R Book, Chapter 1, pp. 27

Ejemplo

¿Cuántos individuos poseen un diámetro mayor o igual a 2 cm?

sum(CedroRojo$diametro >=2)
[1] 167

Ejemplo

¿Cuántos individuos poseen un diámetro menor a 10 cm?

sum(CedroRojo$diametro < 10)
[1] 7

Ejemplo

¿Qué valor obtenemos aplicando el siguiente comando?

sum(CedroRojo$diametro < 12)
[1] 71

Respuesta: Obtenemos la sumatoria de las plántulas de Cedro rojo que tiene un diametro menor a 12 cm.

Ejemplo

¿Qué valor obtenemos aplicando el siguiente comando?

sum(CedroRojo$diametro[CedroRojo$diametro < 12])
[1] 785.8

Respuesta: Obtenemos la sumatoria de todos los 71 diametros de las plántulas de Cedro rojo que tiene un diametro menor a 12 cm.

Selección de datos

Para obtener una muestra de los datos colectados en campo bajo un criterio específico utilzamos el comando subset:

cedro.2 <-subset(CedroRojo, diametro < 12)
head(cedro.2)
   diametro altura
5     10.67  15.84
6     10.07  16.34
7     10.67  15.14
8     10.77  14.24
9     10.97  12.44
11    11.55  18.63

Agregar una nueva variable

Para agregar una nueva variable (compuesta) a una base de datos aplicamos el comando transform.

cedro.3 <-transform(cedro.2, diam2=(diametro^2))
head(cedro.3)
   diametro altura diam2
5     10.67  15.84 113.9
6     10.07  16.34 101.4
7     10.67  15.14 113.9
8     10.77  14.24 116.0
9     10.97  12.44 120.4
11    11.55  18.63 133.5

Selección de datos agrupados

Si tenemos una base de datos con datos agrupados por tratamientos, podemos seleccionar una muestra de un solo tratamiento. Ejemplo:

TEMP HR PB TEMPCOMB HUMCOMB HUMSUBS TEMPSUBS Sitio
19.6 52 929.9 22.5 18 2 21.9 S1
20.6 49 929.9 23.8 18 2 21.9 S1
21.5 46 929.8 25.3 18 3 21.9 S1
22.6 40 929.8 26.8 17 3 21.9 S1
23.5 36 929.7 28.0 17 2 21.9 S1
24.1 38 929.6 28.9 16 3 21.9 S1

Selección de datos agrupados

Seleccionar los datos del sitio 1 S1

inventarioS1 <-subset(inventario, Sitio=="S1") 
kable(head(inventarioS1))
TEMP HR PB TEMPCOMB HUMCOMB HUMSUBS TEMPSUBS Sitio
19.6 52 929.9 22.5 18 2 21.9 S1
20.6 49 929.9 23.8 18 2 21.9 S1
21.5 46 929.8 25.3 18 3 21.9 S1
22.6 40 929.8 26.8 17 3 21.9 S1
23.5 36 929.7 28.0 17 2 21.9 S1
24.1 38 929.6 28.9 16 3 21.9 S1

Selecionar los datos del Sitio 2

Por favor seleccione los datos del sitio 2 y realice las siguientes actividades

  1. Determinar la media de temperatura para el S2
  2. determinar la media de HR
  3. Determinar la media de HUMCOMB

Selecionar los datos del Sitio 2

Por favor seleccione los datos del sitio 2 y realice las siguientes actividades

inventarioS2 <-subset(inventario, Sitio=="S2") 
kable(head(inventarioS2))
TEMP HR PB TEMPCOMB HUMCOMB HUMSUBS TEMPSUBS Sitio
70 26.4 48 928.4 26.1 12 3 26.3 S2
71 26.1 50 928.6 25.5 12 2 26.4 S2
72 25.8 50 928.7 25.3 12 2 26.4 S2
73 25.4 51 928.8 24.8 13 2 26.4 S2
74 25.7 48 928.8 25.2 13 2 26.4 S2
75 25.9 48 928.9 25.3 13 3 26.4 S2

Estadísticas básicas para el sitio 2

  1. Determinar la media de temperatura para el S2: 18.3884
  2. determinar la media de HR: 80.7246
  3. Determinar la media de HUMCOMB: 16.1159