1. EL ENTORNO DE SOFTWARE ESTADÍSTICO R

R es un entorno de programación orientado a analizar datos estadísticamente:
- R Console: terminal de comandos donde se ejecutan los programas escritos en el lenguaje de programación R.
  - En rojo: comandos de entrada (>)
  - En azul: resultados de salida (texto)
- Plot: ventanas graficas (aparecen al pedirlas con comandos)
- Help: ventanas de ayuda (aparecen al pedirlas con comandos)

2. EL ENTORNO RSTUDIO

RStudio es un entorno construido alrededor de una instalación de R que integra muchas utilidades.
Facilita la redacción de trabajos de investigación, mezclando R con HTML.
Admite editar textos matemáticos con $\LaTeX$ (si está previamente instalado algún programa como MikTeX)
Permite gestionar proyectos con Git o CVS

3. EL LENGUAJE DE PROGRAMACIÓN DE R

Es un lenguaje más, orientado a objetos, e interpretado (no compilado)

4. CONSTANTES Y VARIABLES EN R

Constantes lógicas: TRUE y FALSE (no confundir con otros lenguajes)
Operadores lógicos: &, |, ! (no confundir con otros lenguajes)
Operador de asignación: = o bien <-.
Comparaciones: ==, !=, <, <=, etc.
Vectores:
- De números consecutivos: por ejemplo 1:10
- Concatenando: por ejemplo c(1, 5, 6) o c('edad', 'altura', 'grado')
- Subvectores: indexar con corchetes, comenzando en 1 (es decir, la primera componente del vector v es v[1], no v[0])
  - Usando condiciones: v[ v < 4 ] selecciona datos del vector v que son menores a 4
Matrices:
- Se definen con matrix(data, ncol, byrow) donde:
  - data: vector con los datos,
  - ncol: número de columnas,
  - byrow: ¿se completa por filas? TRUE o FALSE.
- Indexación de matrices: corchetes con dos argumentos, fila y columna. Por ejemplo m[3, 5] o m[3,] o m[ , 5]
Hojas de datos: como hoja de cálculo con columnas de números o texto
- Acceso a UNA columna de hojas de datos: hoja$etiquetaColumna o bien hoja[, numeroColumna] o bien hoja[, 'etiquetaColumna'] (como si fuera matriz)
- Acceso a VARIAS columnas de hojas de datos: hoja[, vectorNumerosColumnas] o hoja[, vectorEtiquetasColumnas].
Listas: útil para juntar objetos de distintos tipos en un solo objeto.
- Declaración: list(comp1, comp2, ...)
- Acceso a las componentes de la lista l:
  - l$etiquetaComponente
  - l[[numeroComponente]]
- Muchas funciones devuelven varios objetos unidos en una lista (regresión lineal, contrastes de hipótesis, etc.).

5. FUNCIONES ÚTILES

5.1. Generales

ls(): lista los nombres de variables definidas en la sesión de R
str(x): estructura del objeto contenido en la variable x.
summary(x): resumen del contenido de la variable x.
length(x): longitud del objeto (componentes del vector o la lista, columnas de la hoja de datos, etc.).
dim(x): dimensiones (filas, columnas).
sum(x): suma valores.
sort(x): ordena valores.
table(x): tabla de frecuencias.
plot(x): gráfica (según la naturaleza de la variable x).

5.2. Estadísticas de 1 variable

Datos en un vector numérico x definido en R:

mean(x) y median(x): media y mediana
min(x) y max(x): mínimo y máximo
quantile(x, prob): cuantil de orden prob
sd(x) y var(x): CUASIdesviación típica y CUASIvarianza
hist(x) y boxplot(x): histograma y diagrama de caja

Datos en un vector numérico o de texto x definido en R:

table(x): tabla de frecuencias
boxplot(...) y pie(...): diagramas de barras y sectores (el argumento no son los datos sino una tabla de frecuencias)

5.3. Estadísticas de 2 variables

Datos en dos vectores numéricos x e y de R, o bien en dos columnas v1 y v2 de una hoja de datos z:

cov(x,y), cov(z[,c('v1', 'v2')]) y cor(x,y), cor(z[,c('v1', 'v2')]): (CUASI)covarianza y correlación.

Datos numéricos o de texto:

table(x,y) y table(z[,c('v1','v2')]): tabla de frecuencias conjuntas.
plot(x,y) y plot(z[,c('v1','v2')]): gráfica de relación entre ambas (depende del tipo de las variables).
lm(y ~ x) y lm(formula=v2~v1, data=z): estudio de la regresión lineal de y sobre x (o de v2 sobre v1).

5.4. Cálculo de probabilidades y simulaciones

set.seed(numeroEntero): establece semilla para simulaciones repetibles
sample(x, size, replace, prob): muestreo de tamaño size, con o sin remplazo (replace), de componentes de un vector x bajo ciertas probabilidades prob.
Funciones de probabilidad en modelos conocidos: prefijo + nombre modelo + argumento tipo + parámetros
- Prefijo:
  - d para $f(x)$,
  - p para $F(x)$,
  - q para cuantiles y
  - r para simulaciones.
- Nombre de algunos modelos: binom, pois, exp, norm, unif, etc.
- Argumento específico para cada función:
  - x para $f(x)$,
  - q para $F(x)$,
  - p para los cuantiles y
  - n para simulaciones.
- Parámetros de cada modelo: ejemplos
  - dbinom(x, size, prob): $f$ del modelo binomial
  - ppois(q, lambda): $F$ del modelo de Poisson
  - qexp(p, rate): cuantiles del modelo exponencial
  - rnorm(n, mean, sd): simulaciones del modelo normal

5.5. Intervalos de confianza y contrastes de hipótesis paramétricos

t.test(x,y,alternative,mu,paired,var.equal,conf.level): intervalo y contraste sobre la media de una o dos normales (o no normales pero gran muestra).
var.test(x,y,ratio,alternative,conf.level): intervalo y contraste sobre la varianza de dos normales.
prop.test(x,n,p,alternative,conf.level,correct): intervalo y contraste sobre la proporción de una o dos pruebas de Bernoulli.

5.6. Contrastes no paramétricos:

shapiro.test(x): contraste sobre la normalidad de una muestra
chisq.test(x,p): contraste sobre la bondad de ajuste de una muestra a una tabla de probabilidades
chisq.test(x,y): contraste sobre la independencia entre dos variables cualitativas.

6. EJERCICIOS

Escribe data(iris) y tendrás la variable iris definida.

Escribe un resumen de todas las columnas de iris usando una única función

# Escribe aquí tu codigo y compila con RStudio CTRL+SHIFT+K
# verás la salida de R

Calcula la media y cuasidesviación típica de cada columna numérica.

# Escribe aquí tu codigo y compila con RStudio CTRL+SHIFT+K
# verás la salida de R

Dibuja un histograma de la variable Petal.Length

# Escribe aquí tu codigo y compila con RStudio CTRL+SHIFT+K
# verás la salida de R

Dibuja un diagrama de caja comparativo sobre la variable Petal.Length para cada especie de flor.

# Escribe aquí tu codigo y compila con RStudio CTRL+SHIFT+K
# verás la salida de R

Suponiendo que los datos de la variable Petal.Length siguen el modelo normal en cada especie de flor, realiza un contraste de hipótesis para ver si se puede descartar que la media de longitud de pétalos sea igual en las flores setosa y en las versicolor.

# Escribe aquí tu codigo y compila con RStudio CTRL+SHIFT+K
# verás la salida de R

¿Cuánto vale exactamente el $p$-valor del contraste anterior? (Ayuda: asigna el contraste a una variable, luego usa str() sobre esa variable, y después usa el operador $ para acceder a ese valor).

# Escribe aquí tu codigo y compila con RStudio CTRL+SHIFT+K
# verás la salida de R

MT1021 Ampl. Estad. e Invest. Oper.

Pablo Gregori - UJI

Práctica 0: repaso de R y algo más