INTRODUCCION A R

Objetivo:

Introducir al estudiante con el uso del software R y revisar las funciones fundamentales asociadas al uso de la estadística descriptiva

Procedimiento metodológico:

Este laboratorio es una introducción muy breve al programa R. Estos primeros pasos en R se darán utilizando las herramientas básicas para el manejo de bases de datos y las funciones útiles para aplicar estadística descriptiva.

El dominio de R se logra mediante un proceso paciente de acumular conocimiento a medida que se utilizan las funciones y herramientas que ofrece el programa y los paquetes publicados.

Los ejercicios parten de bases de datos, contenidos en archivos Excel. Los cuales deben ser transformados a archivos tipo texto.

Primeros pasos en R

Operaciones matemáticas simples en R para empezar a familiarizarse con el programa.

Los commandos a ejecutar en la consola de R se presentan en letra de ancho fijo.

Operaciones matemáticas simples

log(42/7.3)

2+354+1001

Pueden hacer varias operaciones al mismo tiempo (en una misma línea) si las separan con el símbolo “;”. Por ejemplo:

2+3; 5*7; 3-7

Asignación de variables

Dato=5 ó Dato <- 5

Visualización de variables:

print(Dato) ó Dato

Manejo de Datos en R Abrir los archivos en Excel y crear archivos tipo texto: *.txt. Los decimales deben estar separados por punto.

Cargar los datos

función: read.table()

Forma sencilla de lectura de datos: Data <- read.table(file.choose(),h=T) Se desplegara una ventana donde se puede seleccionar la carpeta y elegir el archivo Forma compleja de lectura de datos (uso de ruta de localización de archivos) Data <- read.table(“/Users/Folder/Filename.txt”,h=T)

Ayuda para definir la ruta de localización de archivos: Cambiar directorio de trabajo: en el menú

seleccionar la carpeta donde esta el archivo luego en la consola introducir la instrucción: getwd() en la consola se imprimirá: “/Users/User/Folder” luego adicionar nombre del archivo “/Users/User/Folder/filename.txt”

Verificación, visualización y manejo de los Datos en R Para visualizar las variables de la base de datos y su estructura es útil observar los nombres de las variables o descriptores, las primeras filas y últimas filas de los datos: names(Data) head(Data) tail(Data)

Selección de Variables o variables en R

La forma más lógica y conveniente de procesar y utilizar los datos en R es a travÈs de matrices rectangulares donde las filas son los objetos y las columnas son los descriptores o variables: Si se desea visualizar una columna especifica : Data[,2]

Si se desea visualizar una fila especifica : Data[5,]

Si se desea visualizar un dato especifico : Data[5,2]

Puesto que la estadística descriptiva se realiza sobre los descriptores o variables, en general se requiere extraer la información de las columnas. Para ello se invoca la información ya sea por la posición de la columna o por el nombre del descriptor o variable:

Data[,2]

ó Data$Variable

Descriptivos básicos de las variables en R

Descriptivos fundamentales: mínimo y máximo

min_Data=min(Data$Variable)

min_Data max_Data=max(Data$Variable) max_Data

Promedio (mean):

Mean_Data <- mean(Data$Variable)

Mediana (median):

Median_Data=median(Data$Variable)

ó

Median_Data <- quantile(Data$Variable, .5)

Moda: Es necesario contar los casos y luego identificar el que presenta mayor frecuencia

contCases <- data.frame(table(Data $Variable))

contCases[contCases[,2]==max(contCases[,2]),]

Medidas de dispersión

Rango_Data <- range(Data\(Variable) Var_Data <- var(Data\)Variable) sd_Data <- sd(Data$Variable)

Resumen de los descriptivos

summary(Data$Variable)

Visualización grafica de la información de las variables en R

Histograma

hist(Data$Variable, main=“Mi Histograma”)

abline(v= Mean_Data, col=“red”, lw d=2)

abline(v= Median_Data, col=“blue”, lwd=2) Boxplot

boxplot(Data$Variable)

q25 <- quantile(Data$Variable, .25) abline(h=q25, col=“red”)

q50 <- quantile(Data$Variable, .5)

abline(h=q50, col=“blue”)

q75 <- quantile(Data$Variable, .75) abline(h=q75, col=“red”)

abline(h=min(Data\(Variable), col="orange") abline(h=max(Data\)Variable), col=“orange”)

Exploración grafica de los datos Visualización de conteo de casos (Exploración de variables categóricas)

contCases2 <- data.frame(table(Data$Vcategorica))

pie(c(contCases2[1,2], contCases2[ 2,2]), labels=c(“cat1”, “cat2”))

Visualización de discriminación de variable continua por variable categórica

boxplot(Data\(Variable_continua ~ D ata\)Variable_categorica)

Visualización de relación entre variable continuas

plot(Data\(Variable1,Data\)Variable2 … argumentos*)

  • APLICAR LOS ARGUMENTOS QUE REVISARON INDIVIDUALMENTE LA SEMANA ANTERIOR EJERCICIO

Usando la base de datos suministrada en el archivo de Excel (Ejercicio_taller1.xls), responda: 1. Cuantas variables hay. Indique los nombres de las variables. Cuáles de ellas son continuas y cuales categóricas ?

  1. Aplique estadística descriptiva a cada una de las variables.

  2. Ilustre gráficamente la relación entre las variables categóricas y las continuas

  3. Ilustre gráficamente la relación entre las variables continuas

summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

You can also embed plots, for example:

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.