Introduccion a R

Diplomado en Software Estadistico

Introduccion a R

0. Limpiar el espacio de trabajo

Antes de iniciar a trabajar en R conviene limpiar el entorno de trabajo

ls()              # Lista de objetos actuales
rm(list=ls())     # Borrar objetos actuales
graphics.off()    # Limpia el espacio para las graficas
options(warn=-1)  # Omite mostrar los warnings
# Ctrl + L        # Limpia la consola

Asi como un artista selecciona sus colores de acuerdo al cuadro que va a pintar, en R se deben elegir los paquetes que se van a utilizar de acuerdo con el analisis que se va a llevar a cabo

1. Instalar paquetes

A diferencia de otros softwares en donde ya se tienen todas las funciones al abrir los paquetes, en R hay que instalar los paquetes que contienen a las funciones que se van a utilizar.

Para instalar los paquetes se utiliza la funcion install.packages

install.packages("foreign")
install.packages("ggplot2")
search()                        # Si se desconoce cuales paquetes ya estan instalados

Algunos de los paquetes mas útiles son data.table, foreign, questionr.

La intencion es hacer uso de las funciones, las cuales son una relacion entre un conjunto de entrada y uno de salida. Sin embargo, no basta con tener instaladas las librerias. Cada vez que uno se dispone a trabajar en R hay que cargarlas. Para ello se usa el comando library()

library(base)         # Funciones basicas
library(foreign)      # Manipular diferentes formatos cvs, dta, dbf
## Warning: package 'foreign' was built under R version 3.5.2
library(questionr)    # Tabulados
library(readxl)  

2. Directorio de trabajo

Es importante que al iniciar se defina el directorio de trabajo, el cual corresponde a la carpeta en donde se encuentran los archivos que se van a utilizar. Hay que utilizar \ o / para definir el entorno de trabajo

getwd()                   # Directorio actual
setwd("C:/abajo/")        # Cambio de directorio
list.files()              # Lista de archivos

3. Tipos de datos

El programa acepta diferentes tipos de datos. Es importante tener en cuenta el tipo

c('a','b','c')            # Caracter
1:7                       # Entero
40<80                     # Valor logico
2+2 == 5                  # Valor logico
T == TRUE                 # T expresion corta de verdadero
x <- 24                   # Asignacion de valor 24 a la variable x 
x/2                       # Uso posterior de variable u objeto x
x                         # Imprime en pantalla el valor de la variable u objeto
y <- TRUE                 # Valor logico
y
sum (10,20,30)            # Funcion suma
rep('R', times=3)         # Repite la letra R el numero de veces que se indica
sqrt(9)                   # Raiz cuadrada de 9
help(sum)                 # Ayuda sobre funcion sum
example(min)              # Ejemplo de funcion min

4. Vectores

Un vector es una coleccion ordenada de objetos, los cuales pueden ser: números, letras, valores logicos.

y <- c('A', 'B','A', 'B')           # Vector caracteres
y[2]                                # Acceder a lo que tiene el vector en la posicion 2
y[5] <- 'Prepa'                     # Agregar un valor en lugar 5
y

5. Matrices

Las matrices son arreglos de vectores que se encuentran unidos y forman parte de un mismo conjunto de datos ordenados.

m <- matrix (nrow=2, ncol=3, 1:6)   # Matrices Ejemplo 1
m
##      [,1] [,2] [,3]
## [1,]    1    3    5
## [2,]    2    4    6

Tambien se puede seleccionar solo columnas:

O bien, solo filas:

Para acceder a un solo valor, hay que decirle a R su ubicacion:

6. Funciones

Hay dos tipos de funciones en R, aquellas que ya estan definidas dentro de los paquetes y las que pueden ser creadas por los usuarios.

as.numeric(c('-.1','2.7','B'))        # Funcion as.* (ya definida)
yo<-function(x){print("Hola R !!!")}  # Funcion "yo" (creada)
yo(ww)

7. Missing values

Algunas veces aparecen valores perdidos llamados missings NA por lo que es necesario identificarlos para darle un tratamiento particular

y <- c(1, 2, NA, 10, 3)         # Missing values
is.na(y)                        # Es missimg?
## [1] FALSE FALSE  TRUE FALSE FALSE

8. Data Frame

El termino "dataframe" se refiere a una matriz de datos para organizar los datos.

x <- data.frame(id=1:4, sex=c('F', 'F', 'M', 'M'))  # Data Frames
x
nrow(x)                                             # Numero de renglones
ncol(x)                                             # Numero de columnas
x <- 1:2                                            # Etiquetas para cualquier objeto en R
names(x)

Datos reales