Data Frame

Crear el vector Nombre

Nombre<-c("José Santos","Angela Díaz","Adriana Sosa","Mayra Costa","Laura López","Nícolás Barrios")

Crear el vector Edad

Edad<-c(17,17,16,15,15,13)

Crear el vector Género

Genero<-factor(c("M","F","F","F","F","M"))

Crear el vector de Nota final NF

NF<-c(92,75,81,87,90,88)

Creaer el Data Frame Escuela

Escuela<-data.frame(Nombre,Edad,Genero,NF)

Para visualizar Escuela

Escuela

Mostrar los atributos de Escuela

attributes(Escuela)

Para nombrar las filas se crea un nuevo vector

row.names(Escuela)<-c("linea 1","linea 2","linea 3","linea 4","linea 5","linea 6")

Escuela

Índices de los Data Frames

Elemento de la fila 2, columna 1

Escuela[2,1]

Visualizar toda la fila 2

Escuela[2,]

Visualizar toda la columa 1

Escuela[,1]

Para adicionar una columna se utiliza la función cbind. Su uso combina vector, matriz o marco de datos por columnas.

Escuela<-cbind(Escuela,Categoria=c("A","C","B","B","A","B"))

Escuela

Regresión lineal simple

Para iniciar se importa el archivo “regres.txt” desde la ubicación elegida por el analista de datos, de la siguiente manera:

regres <- read.table(file.choose(),header=T, sep="\t", dec=".")

Para visualizar el contenido de los primeros seis registros del archivo “regres” se ejecuta:

print(head(regres))

Diagrama de dispersión utilizando la función pairs

pairs(regres)

Diagrama de dispesión utilizando la función plot

plot(regres)

Correlación entre las variables, utilizando la función cor

cor(regres)

Es deseable contar con los valores de “p”, además de los coeficientes de correlación.

El Lenguaje R funciona mediante la adición de paquetes elaborados por diferentes usuarios. Cada paquete realiza operaciones o cálculos específicos. La biblioteca Hmisc contiene funciones útiles para análisis de datos, como ofrecer una matriz de correlaciones de Pearson

install.packages(Hmisc)

Se invoca para su uso el paquete “Hmisc”

library(Hmisc)

Se genera una matriz con los datos, se ha identificado como reg

reg<-as.matrix(regres)

Matriz de correlación de Pearson, utilizando la función rcorr

rcorr(reg, type="pearson")

Análisis de varianza usando la función modelo lineal (lm)

regresion <- lm(Altura ~ DAP,data=regres)

summary(regresion)

Gráfico de dispersión y recta de regresión

plot(regres$DAP, regres$Altura, xlab = "Diámetro a la altura del pecho", ylab = "Altura")
abline(regresion)

Análisis de varianza

anova(regresion)

Prueba de normalidad Shapiro-Wilk para los residuos

shapiro.test(regresion$res)

para verificar la normalidad se constuye el gráfico QQ plot mediante la instalación del paquete car

install.packages('car')

Se invoca para su uso el paquete “car”

library(car)

Gráfico de QQ plot

qqPlot(regresion)

Gráfico de predichos vs residuos estandarizados

Se evalúa los supuestos de homogeneidad de varianzas e independencias, analizando los predichos y residuos.

Valores predichos

fit <- fitted(regresion)

Resíduos Estandarizados

res_standard <- rstandard(regresion)

Gráfico de predichos contra resíduos estandarizados

plot(fit,res_standard,xlab="Valores predichos", ylab="Resíduos estandarizados",abline(h=0))

Fundamentos del Lenguaje R

Parte 2

Dr. Ezequiel López, Dr. Byron González, P. Agr.Isidro Chex, Br. Gustavo Samayoa

Centro de Telemática (CETE) http://cete.fausac.gt

Data Frame

Índices de los Data Frames

Regresión lineal simple

Gráfico de dispersión y recta de regresión