0.1 Cargar librerías

```{r message=FALSE, warning=FALSE} library(ggplot2) library(readr) library(dplyr) library(knitr) library(DT) library(mosaic) library(PerformanceAnalytics) # Para coorelaciones gráficas


## **Cargar funciones preparadas**

```{r}
source("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2023/funciones/funciones%20para%20dispersion%20correlacion%20regresion.R", encoding = "UTF-8")

0.2 Cargar datos

datos_bruto <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2023/datos/universidades_clean.csv", encoding = "UTF-8", stringsAsFactors = TRUE)
str(datos_bruto)

0.3 Transformar datos

datos <- select(datos_bruto, publications, rank)
str(datos)

0.4 Determinar una muestra del 20%

set.seed(315)
muestra <- datos[sample(x = 1:nrow(datos), size = round(nrow(datos) * 0.20), replace = FALSE), ]
muestra

0.5 Determinar la covarianza de muestra

n <- nrow(datos)
numerador <- sum((datos$publications - mean(datos$publications))  * (datos$rank - mean(datos$rank)))
# numerador ; sum(tabla$prod)
denominador <- n - 1
covarianza <- numerador / denominador
covarianza
prod.dispersion = sd(datos$publications) * sd(datos$rank)
prod.dispersion

0.6 Determinar la correlación de muestra

r <- covarianza / prod.dispersion
r

0.7 Diagrama de dispresión de muestra

f_diag.dispersion(datos )

0.8 Regresión de muestra


ggplot(data = datos, aes(x = publications, y = rank)) +
  geom_point(colour = 'blue')
modelo <- lm(data = muestra, formula = rank ~ publications)
summary(modelo)

0.9 Valor del R Square

¿Cuál es el valor del estadístico R Square en el modelo de regresión construído y cómo se interpreta?

El valor de R Square es 0.263 significa que el valor representa el 26.3 % del rango de publicaciones.

0.10 Coeficientes a y b

modelo <- lm(data = datos, formula = publications~rank)
modelo
summary(modelo)
a <- modelo$coefficients[1]
b <- modelo$coefficients[2]
a ; b

0.11 Linea de tendencia

f_linea_tendencia_reg_lineal(datos , modelo )
x <- c(4, 3.5, 2, 0, 1)
prediccions <- predict(modelo, newdata = data.frame(publications = x))
prediccions
x = 15000
pred1 <- predict(object = modelo, newdata = data.frame(publications = x))
paste("La predicción para un valor de x igual a ", x, " es: ", round(pred1, 4))
x = 20000
pred1 <- predict(object = modelo, newdata = data.frame(publications = x))
paste("La predicción para un valor de x igual a ", x, " es: ", round(pred1, 4))
x = 25000
pred1 <- predict(object = modelo, newdata = data.frame(publications = x))
paste("La predicción para un valor de x igual a ", x, " es: ", round(pred1, 4))

#Interpretacion Este programa realiza varias tareas relacionadas con análisis de datos y regresión lineal. En resumen, este programa carga datos, realiza análisis exploratorio, ajusta un modelo de regresión lineal y hace predicciones basadas en dicho modelo. También incluye visualizaciones de datos y cálculos estadísticos para evaluar la relación entre las variables y la calidad del modelo de regresión.

¿El modelo es eficiente por encima del 60% en Multiple R Suqare? , ¿se acepta o se descarta?

Se descarta porque es de 26.3 %

Se cargaron los datos de universidades con 300 observaciones de las cuales se extrae una muestra el 20% que equivale a 60 observaciones El valor de la covarianza es …-1890357 El valor de la correlación es …-0.5706275 El valor de los coeficientes en la regresión son … Las predicciones fueron …. Rank 147.3456 Publications -0.0004941592