Download datasets from: GitHub. or “https://github.com/geraldmoreno993/RStats”

Primera pregunta

Utilice el conjunto de datos ans.csv. Considere que todas las variables se ajustan a una distribución normal (utilice el coeficiente de correlación de Pearson). • Utilice el comando cor.test y extraiga: (1) el coeficiente de correlación, (2) el intervalo de confianza y (3) el valor de P considerando las variables: x1 y y1 x2 y y2 x3 y y3 x4 y y4 • ¿Qué puede decir en relación a los resultados del punto anterior? (ayuda, compare los cuatro coeficientes de correlación, intervalos de confianza y valores de P). Si piensa que es necesario hacer algo que no se menciona en el enunciado, hágalo (cual Jedi, utilice la fuerza).

ans <- read.csv("ans.csv")
class(ans)

## [1] "data.frame"

str(ans)

## 'data.frame':    11 obs. of  8 variables:
##  $ x1: int  10 8 13 9 11 14 6 4 12 7 ...
##  $ x2: int  10 8 13 9 11 14 6 4 12 7 ...
##  $ x3: int  10 8 13 9 11 14 6 4 12 7 ...
##  $ x4: int  8 8 8 8 8 8 8 19 8 8 ...
##  $ y1: num  8.04 6.95 7.58 8.81 8.33 ...
##  $ y2: num  9.14 8.14 8.74 8.77 9.26 8.1 6.13 3.1 9.13 7.26 ...
##  $ y3: num  7.46 6.77 12.74 7.11 7.81 ...
##  $ y4: num  6.58 5.76 7.71 8.84 8.47 7.04 5.25 12.5 5.56 7.91 ...

names(ans)

## [1] "x1" "x2" "x3" "x4" "y1" "y2" "y3" "y4"

r1 <- cor.test(ans$y1, ans$x1, method="pearson")
p1  <- r1$p.value
coef1 <- r1$estimate 
ic1 <- r1$conf.int

print(paste("p-valor1=",p1,  "coef-Pearson1=", coef1,"IC1=",ic1[1],"-",ic1[2]))

## [1] "p-valor1= 0.00216962887307879 coef-Pearson1= 0.81642051634484 IC1= 0.424391213393217 - 0.950693253786561"

r2 <- cor.test(ans$y2, ans$x2, method="pearson")

p2  <- r2$p.value
coef2 <- r2$estimate 
ic2 <- r2$conf.int

print(paste("p-valor2=",p2,  "coef-Pearson2=", coef2,"IC2=",ic2[1],"-",ic2[2]))

## [1] "p-valor2= 0.00217881623691079 coef-Pearson2= 0.816236506000243 IC2= 0.423938873953989 - 0.950640173995772"

r3 <- cor.test(ans$y3, ans$x3, method="pearson")

p3  <- r3$p.value
coef3 <- r3$estimate 
ic3 <- r3$conf.int

print(paste("p-valor3=",p3,  "coef-Pearson3=", coef3,"IC3=",ic3[1],"-",ic3[2]))

## [1] "p-valor3= 0.00217630527922803 coef-Pearson3= 0.816286739489598 IC3= 0.424062339921775 - 0.950654665174249"

r4 <- cor.test(ans$y4, ans$x4, method="pearson")

p4  <- r4$p.value
coef4 <- r4$estimate 
ic4 <- r4$conf.int

print(paste("p-valor4=",p4,  "coef-Pearson4=", coef4,"IC4=",ic4[1],"-",ic4[2]))

## [1] "p-valor4= 0.00216460234719722 coef-Pearson4= 0.816521436888503 IC4= 0.424639382244513 - 0.950722362078142"

Respuesta: En general los p valores son muy similaress, si nos remitimos al coeficiente de Pearson, vemos que también son similares al igual que los IC son similares (van de 0.45 a 0.95), y ese intervalo es muy amplio, lo cual no genera verdadera confianza ya que el intervalo compromete el 0.5 lo cual significa que cada par podría tener una asociación moderada y no fuerte como indica el coef. de Pearson. Grafiquemos

#Modelos de regresion
modelo1 <- lm(y1 ~ x1, data = ans)
modelo2 <- lm(y2 ~ x2, data = ans)
modelo3 <- lm(y3 ~ x3, data = ans)
modelo4 <- lm(y4 ~ x4, data = ans)

plot(y1~x1, data=ans)
abline(modelo1, col = "red", lwd = 2)

plot(y2~x2, data=ans)
abline(modelo2, col = "red", lwd = 2)

plot(y3~x3, data=ans)
abline(modelo3, col = "red", lwd = 2)

plot(y4~x4, data=ans)
abline(modelo1, col = "red", lwd = 2)

Oh sorpresa, solamente la primera comparacion cumple los requisitos de la correlación y regresión, que es la linealidad de la relación, a y2~x2 hay que hacerle una transformación, la tercera y3~x3 tiene un outlier, y la cuarta y4~x4 no tiene ningún tipo de correlación, es y constante, y tiene un outlier.

Segunda pregunta

setwd("/home/gerald/Documentos/maestria/2do_ciclo/graficos_R/ulrima_tarea")
getwd()

## [1] "/home/gerald/Documentos/maestria/2do_ciclo/graficos_R/ulrima_tarea"

regis <- read.csv("registro.csv")



model <- lm(puntaje2~intensidad2,data=regis)

summary(model)

## 
## Call:
## lm(formula = puntaje2 ~ intensidad2, data = regis)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -5.800 -5.623 -3.036  8.666  8.828 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept) -68.0681    62.5635  -1.088   0.2964  
## intensidad2   1.7309     0.7011   2.469   0.0282 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.724 on 13 degrees of freedom
## Multiple R-squared:  0.3192, Adjusted R-squared:  0.2668 
## F-statistic: 6.095 on 1 and 13 DF,  p-value: 0.02819

plot(regis)
abline(model, col = "red", lwd = 2)

model2 <- lm(puntaje2~intensidad2+ I(intensidad2^3), data =regis)
k <- coef(model2)
model3 <- lm(puntaje2~intensidad2+ I(intensidad2^2), data =regis)
k2 <- coef(model3)

curve(k[1] + k[2]*x + k[3]*x^3, col = "red", lwd = 2, add = TRUE)

curve(k2[1] + k2[2]*x + k2[3]*x^2, col = "red", lwd = 2, add = TRUE)

#Para saber por que no hay diferencia entre modelo cubico y cuadratico
cor(regis$intensidad2^2, regis$intensidad2^3)

## [1] 0.9999648

La expresión k[1] + k[2]*x + k[3]*x^3 corresponde a la ecuación cúbica y = b0 + b1 x + b2 x^3 la cual es más versatil que una cuadrática, por ello se puede ajustar a relaciones más complejas de tus datos

Lo que se observa es que ante una intensidad moderada (88-99) el puntaje en el examen es máximo, luego el puntaje baja cuando la intensidad es mayor a >92.

Ejercicios correlación y regresión lineal

Gerald Moreno

2024-12-01

Primera pregunta

Segunda pregunta