Introducir al estudiante con el uso del software R y revisar las funciones fundamentales asociadas al uso de la estadística descriptiva
Este laboratorio es una introducción muy breve al programa R. Estos primeros pasos en R se darán utilizando las herramientas básicas para el manejo de bases de datos y las funciones útiles para aplicar estadística descriptiva.
El dominio de R se logra mediante un proceso paciente de acumular conocimiento a medida que se utilizan las funciones y herramientas que ofrece el programa y los paquetes publicados.
Los ejercicios parten de bases de datos, contenidos en archivos Excel. Los cuales deben ser transformados a archivos tipo texto.
Operaciones matemáticas simples en R para empezar a familiarizarse con el programa.
Los commandos a ejecutar en la consola de R se presentan en letra de ancho fijo
.
log(42/7.3)
2+354+1001
Pueden hacer varias operaciones al mismo tiempo (en una misma línea) si las separan con el símbolo “;”. Por ejemplo:
2+3; 5*7; 3-7
Asignación de variables
Dato=5 ó Dato <- 5
Visualización de variables:
print(Dato) ó Dato
Manejo de Datos en R Abrir los archivos en Excel y crear archivos tipo texto: *.txt. Los decimales deben estar separados por punto.
Cargar los datos
función: read.table()
Forma sencilla de lectura de datos: Data <- read.table(file.choose(),h=T) Se desplegara una ventana donde se puede seleccionar la carpeta y elegir el archivo Forma compleja de lectura de datos (uso de ruta de localización de archivos) Data <- read.table(“/Users/Folder/Filename.txt”,h=T)
Ayuda para definir la ruta de localización de archivos: Cambiar directorio de trabajo: en el menú
seleccionar la carpeta donde esta el archivo luego en la consola introducir la instrucción: getwd() en la consola se imprimirá: “/Users/User/Folder” luego adicionar nombre del archivo “/Users/User/Folder/filename.txt”
Verificación, visualización y manejo de los Datos en R Para visualizar las variables de la base de datos y su estructura es útil observar los nombres de las variables o descriptores, las primeras filas y últimas filas de los datos: names(Data) head(Data) tail(Data)
Selección de Variables o variables en R
La forma más lógica y conveniente de procesar y utilizar los datos en R es a travÈs de matrices rectangulares donde las filas son los objetos y las columnas son los descriptores o variables: Si se desea visualizar una columna especifica : Data[,2]
Si se desea visualizar una fila especifica : Data[5,]
Si se desea visualizar un dato especifico : Data[5,2]
Puesto que la estadística descriptiva se realiza sobre los descriptores o variables, en general se requiere extraer la información de las columnas. Para ello se invoca la información ya sea por la posición de la columna o por el nombre del descriptor o variable:
Data[,2]
ó Data$Variable
Descriptivos básicos de las variables en R
Descriptivos fundamentales: mínimo y máximo
min_Data=min(Data$Variable)
min_Data max_Data=max(Data$Variable) max_Data
Promedio (mean):
Mean_Data <- mean(Data$Variable)
Mediana (median):
Median_Data=median(Data$Variable)
ó
Median_Data <- quantile(Data$Variable, .5)
Moda: Es necesario contar los casos y luego identificar el que presenta mayor frecuencia
contCases <- data.frame(table(Data $Variable))
contCases[contCases[,2]==max(contCases[,2]),]
Medidas de dispersión
Rango_Data <- range(Data\(Variable) Var_Data <- var(Data\)Variable) sd_Data <- sd(Data$Variable)
Resumen de los descriptivos
summary(Data$Variable)
Visualización grafica de la información de las variables en R
Histograma
hist(Data$Variable, main=“Mi Histograma”)
abline(v= Mean_Data, col=“red”, lw d=2)
abline(v= Median_Data, col=“blue”, lwd=2) Boxplot
boxplot(Data$Variable)
q25 <- quantile(Data$Variable, .25) abline(h=q25, col=“red”)
q50 <- quantile(Data$Variable, .5)
abline(h=q50, col=“blue”)
q75 <- quantile(Data$Variable, .75) abline(h=q75, col=“red”)
abline(h=min(Data\(Variable), col="orange") abline(h=max(Data\)Variable), col=“orange”)
Exploración grafica de los datos Visualización de conteo de casos (Exploración de variables categóricas)
contCases2 <- data.frame(table(Data$Vcategorica))
pie(c(contCases2[1,2], contCases2[ 2,2]), labels=c(“cat1”, “cat2”))
Visualización de discriminación de variable continua por variable categórica
boxplot(Data\(Variable_continua ~ D ata\)Variable_categorica)
Visualización de relación entre variable continuas
plot(Data\(Variable1,Data\)Variable2 … argumentos*)
Usando la base de datos suministrada en el archivo de Excel (Ejercicio_taller1.xls), responda: 1. Cuantas variables hay. Indique los nombres de las variables. Cuáles de ellas son continuas y cuales categóricas ?
Aplique estadística descriptiva a cada una de las variables.
Ilustre gráficamente la relación entre las variables categóricas y las continuas
Ilustre gráficamente la relación entre las variables continuas
summary(cars)
## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
You can also embed plots, for example:
Note that the echo = FALSE
parameter was added to the code chunk to prevent printing of the R code that generated the plot.