Objetivo del Proyecto: 🎯

El objetivo de esta guía es construir, interpretar y comunicar un modelo de regresión lineal en R. Utilizaremos el dataset de viviendas de California para predecir el valor mediano de una vivienda basándonos en sus características. Todo el análisis se documentará en un informe de R Markdown que finalmente publicaremos en RPubs.

#Conceptos Estadísticos Clave: 🧠

Análisis Exploratorio de Datos (EDA) con tidyverse

Aprenderemos a usar dplyr para manipular datos y ggplot2 para crear visualizaciones de alta calidad que nos ayuden a entender la estructura y las relaciones en nuestros datos.

Regresión Lineal Simple y Múltiple

Utilizaremos la función lm() de R para modelar la relación entre una variable dependiente (median_house_value) y uno o más predictores.

Interpretación del summary() del Modelo

: Desglosaremos la salida del modelo en R para entender los coeficientes, el R-cuadrado ajustado, los p-valores y su significado práctico.

R Markdown y Reproducibilidad

Entenderemos cómo combinar texto narrativo, código R y sus salidas (tablas, gráficos) en un único documento profesional

Carga de Datos y Librerías

# cargando los paquetes tidyverse y corrplot
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.2
## ✔ ggplot2   3.5.2     ✔ tibble    3.3.0
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.1.0     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(corrplot)
## corrplot 0.95 loaded
# 2. cargr el conjunto de datos 
# se asume que el archivo "housing.csv" esta en tu directorio de trabajo.
# read_csv es una funcion de tidyverse (del paquete readr) para leer archivos csv.
casas <- read.csv("housing.csv")
casas 
# muestra las tres primeras lineas del dataset
head(casas,3)
# muestra las tres ultimas lineas del dataset 
tail(casas,3)
# mostrando las variables del dataset 
# mostrando las variables objetivo o dependiente 
# mediante un resumen utilizando la funsion summary()
summary(casas$median_house_value)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   14999  119600  179700  206856  264725  500001