Material de referencia

Notas sobre R

Biometría

Tipos de datos

Escala proporcional y de intervalos

0+++++++++++12.5++++17.5++++22.5

500 AC+++++0+++++500 DC+++++1000 DC

Nota: para otras escalas de años, el año cero es: 622 DC en calendario musulmán, y 3761 AC en calendario judío

Datos continuos y discretos

11.2+++11.5++++++++12.3++12.5

[1] - - - [4] [5] - - - [9]

Escala ordinal y datos nominales categóricos

[infantes]- -[niños]- -[jóvenes]- -[adultos]- -[viejos]

[rojo]- -[azul]- -[amarillo]- -[verde]

Tabla de frecuencias

Table 1. Location of sparrow nests

# crear data.frame de vectores
co <- c("A","B","C","D")
ns <- c("Vines","Building","Low tree","High tree")
fn <- c(56,60,46,49)
data1 <- data.frame(code=co,
                    Nest_sites=ns,
                    N.Nests=fn)
data1
##   code Nest_sites N.Nests
## 1    A      Vines      56
## 2    B   Building      60
## 3    C   Low tree      46
## 4    D  High tree      49

¿qué tipo de datos son estos?

Gráfica de barras para las frecuencias

Figura 1. Gráficas de barras del número de nidos, en cada categoría de lugar.
¿cuál es la diferencia principal entre ambas?

Otra tabla de frecuencias

Tabla 2. Número de “sunfishes” de acuerdo a su coloración.

Clase_Pigm Cantidad_Pigm N_peces
0 Nada_Pigm 13
1 Manchas_debil 68
2 Manchas_media 44
3 Manchas_osc 21
4 Pigm_total 8

¿qué tipo de datos son estos?

Y otra más!

Tabla 3. Frecuencia de ocurrencia de camadas de diferentes tamaños, en zorros.

Tam_camada Frecuencia
3 10
4 27
5 22
6 4
7 1

¿qué tipo de datos son estos?

Datos no agrupados

Melocactus intortus

Melocactus intortus

melodata <- read.csv("melocactus.csv")
melodata[1:20,]
##    azimuto distancia alturatotal longinflo estado
## 1        0     12.01          20         5      S
## 2        0     11.59          47        10      S
## 3        0     17.79          27        16      X
## 4        2      2.75          48        29      S
## 5        3      2.71          23         0      S
## 6        3      2.71          16         0      S
## 7        4     12.53          49        23      S
## 8        8     18.50          27         5      S
## 9        9     18.48          10         0      S
## 10      10     20.32          17         0      S
## 11      10     13.54          42        16      S
## 12      14     15.72          15         0      X
## 13      14      4.62          48        20      S
## 14      14      4.62          18         0      S
## 15      14      4.62          18         0      S
## 16      14      4.62          13         0      S
## 17      15     12.98          37         8      S
## 18      15     12.98          20         8      X
## 19      15     12.98          47        24      X
## 20      15     12.98          57        21      E

¿cuáles son datos continuos proporcionales?

Gráfica de barras para frecuencia de datos continuos (histograma)

library("ggplot2")
hist.melodata <- ggplot(melodata, aes(alturatotal)) + 
  geom_histogram(stat="bin", binwidth = 5, center = 2.5, colour="white", fill="green") +
  labs(x="Altura total de la planta,cm", y = "Frecuencia")
hist.melodata

¿cuál es el ancho, en cm, de cada barra?

Frecuencia acumulada de los datos

hist.melodata <- ggplot(melodata, aes(alturatotal)) + 
  geom_histogram(aes(y = cumsum(..count..)), binwidth = 5, center = 2.5, colour="white", fill="green") +
  labs(x="Altura total de la planta,cm", y = "Frecuencia")
hist.melodata

Algunas definiciones importantes

Población y muestra

En estadística, el conjunto total de mediciones (no los individuos) acerca de las cuales queremos obtener información y sacar conclusiones, se denomina población (también se le llama universo).

Usualmente la población es muy grande y entonces se obtiene un subconjunto de la población para el análisis estadístico. Esto constituye una muestra de la población.

Muestreo aleatorio

Para que una muestra sea representativa de la población, y se puedan aplicar correctamente los procedimientos de análisis estadístico, dicha muestra debe ser obtenida al azar.

Todo miembro de la población debe seleccionarse de manera igual e independiente. Es decir que cada uno debe tener la misma probabilidad de ser seleccionado, y que además, la selección de un miembro no debe influir en la selección de otro u otros.

Ver código R más adelante

Parámetros y estadísticos

Algunas medidas nos ayudan a caracterizar una problación de manera sintética (por ejemplo el próximo tema sobre la “tendencia central”). Las cantidades que miden estas características de las poblaciones, se denominan parámetros.

Sin embargo, como dijimos antes, usualmente no podemos analizar a todos los miembros de una población para obtener sus parámetros, pero podemos obtener muestras con las cuales estimamos esos parámetros; a estos estimados de los parámetros poblacionales se les denomina estadísticos.

moRdizco: generadores de números al azar

NOTA: moRdizco son códigos de R para complementar el tema. No es parte de los objetivos requeridos.

#generador de números al azar
numazar <- runif(4, min = 0, max = 30)
#enteros al azar
enterazar1 <- floor(runif(4, min=0, max=30))
#otra forma sin reemplazo o con reemplazo (TRUE)
enterazar2 <- sample(1:30, 4, replace=FALSE)
paste("4 números al azar con decimales: ", list(numazar))
## [1] "4 números al azar con decimales:  c(22.762859899085, 3.67812243523076, 14.8723716312088, 0.50959006883204)"
paste("4 enteros al azar: ", list(enterazar1))
## [1] "4 enteros al azar:  c(22, 16, 16, 12)"
paste("4 enteros al azar: ", list(enterazar2))
## [1] "4 enteros al azar:  c(16, 5, 22, 2)"