```{r message=FALSE, warning=FALSE} library(ggplot2) library(readr) library(dplyr) library(knitr) library(DT) library(mosaic) library(PerformanceAnalytics) # Para coorelaciones gráficas
## **Cargar funciones preparadas**
```{r}
source("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2023/funciones/funciones%20para%20dispersion%20correlacion%20regresion.R", encoding = "UTF-8")
datos_bruto <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2023/datos/universidades_clean.csv", encoding = "UTF-8", stringsAsFactors = TRUE)
str(datos_bruto)
datos <- select(datos_bruto, publications, rank)
str(datos)
set.seed(315)
muestra <- datos[sample(x = 1:nrow(datos), size = round(nrow(datos) * 0.20), replace = FALSE), ]
muestra
n <- nrow(datos)
numerador <- sum((datos$publications - mean(datos$publications)) * (datos$rank - mean(datos$rank)))
# numerador ; sum(tabla$prod)
denominador <- n - 1
covarianza <- numerador / denominador
covarianza
prod.dispersion = sd(datos$publications) * sd(datos$rank)
prod.dispersion
r <- covarianza / prod.dispersion
r
f_diag.dispersion(datos )
ggplot(data = datos, aes(x = publications, y = rank)) +
geom_point(colour = 'blue')
modelo <- lm(data = muestra, formula = rank ~ publications)
summary(modelo)
¿Cuál es el valor del estadístico R Square en el modelo de regresión construído y cómo se interpreta?
El valor de R Square es 0.263 significa que el valor representa el 26.3 % del rango de publicaciones.
modelo <- lm(data = datos, formula = publications~rank)
modelo
summary(modelo)
a <- modelo$coefficients[1]
b <- modelo$coefficients[2]
a ; b
f_linea_tendencia_reg_lineal(datos , modelo )
x <- c(4, 3.5, 2, 0, 1)
prediccions <- predict(modelo, newdata = data.frame(publications = x))
prediccions
x = 15000
pred1 <- predict(object = modelo, newdata = data.frame(publications = x))
paste("La predicción para un valor de x igual a ", x, " es: ", round(pred1, 4))
x = 20000
pred1 <- predict(object = modelo, newdata = data.frame(publications = x))
paste("La predicción para un valor de x igual a ", x, " es: ", round(pred1, 4))
x = 25000
pred1 <- predict(object = modelo, newdata = data.frame(publications = x))
paste("La predicción para un valor de x igual a ", x, " es: ", round(pred1, 4))
#Interpretacion Este programa realiza varias tareas relacionadas con análisis de datos y regresión lineal. En resumen, este programa carga datos, realiza análisis exploratorio, ajusta un modelo de regresión lineal y hace predicciones basadas en dicho modelo. También incluye visualizaciones de datos y cálculos estadísticos para evaluar la relación entre las variables y la calidad del modelo de regresión.
¿El modelo es eficiente por encima del 60% en Multiple R Suqare? , ¿se acepta o se descarta?
Se descarta porque es de 26.3 %
Se cargaron los datos de universidades con 300 observaciones de las cuales se extrae una muestra el 20% que equivale a 60 observaciones El valor de la covarianza es …-1890357 El valor de la correlación es …-0.5706275 El valor de los coeficientes en la regresión son … Las predicciones fueron …. Rank 147.3456 Publications -0.0004941592