tarea-1.knit

title: “Tarea 1 - Probabilidad y Estadística” author: “Jose Garcia, Nicolás Mora, David Rodríguez” date: “13/08/2025” output: html_document: theme: flatly toc: true toc_float: true —

## 1) Escalas de medición en estadística

Nominal: categorías sin orden (p. ej., tipo de vivienda).
Ordinal: categorías con orden pero sin distancias iguales (p. ej., nivel educativo).
Intervalo: orden y distancias iguales; sin cero absoluto (p. ej., temperatura °C).
Razón: como intervalo, pero con cero absoluto (p. ej., ingresos, peso).

## 2) Preparación: cargar paquetes y fijar semilla

if (!requireNamespace("datos", quietly = TRUE)) install.packages("datos")
if (!requireNamespace("ggplot2", quietly = TRUE)) install.packages("ggplot2")
if (!requireNamespace("dplyr", quietly = TRUE)) install.packages("dplyr")

library(datos)
library(ggplot2)
library(dplyr)

# Semilla solicitada
set.seed(356)

# Cargar base de datos
data("datos_credito", package = "datos")

# Ver nombres de columnas
names(datos_credito)

##  [1] "Estado"      "Antiguedad"  "Vivienda"    "Plazo"       "Edad"       
##  [6] "EstadoCivil" "Registros"   "Trabajo"     "Gastos"      "Ingresos"   
## [11] "Activos"     "Deuda"       "Cantidad"    "Precio"

# Tomar una muestra aleatoria de 120 registros
n <- min(120, nrow(datos_credito))
muestra_credito <- datos_credito %>%
sample_n(n)

# Dimensión de la muestra
dim(muestra_credito)

## [1] 120  14

ggplot(muestra_credito, aes(x = Vivienda, fill = Vivienda)) +
geom_bar() +
labs(title = paste0("Distribución de Vivienda en la muestra (n = ", n, ")"),
     x = "Tipo de vivienda",
     y = "Frecuencia") +
theme_minimal() +
scale_fill_brewer(palette = "Set2") +
theme(legend.position = "none")

# Renombrar categorías
niveles_originales <- levels(factor(muestra_credito$Trabajo))
niveles_corregidos <- c("fijo" = "Empleo fijo",
                      "freelance" = "Independiente",
                      "tiempo parcial" = "Medio tiempo",
                      "otros" = "Otros")

niveles_finales <- ifelse(niveles_originales %in% names(niveles_corregidos),
                        niveles_corregidos[niveles_originales],
                        niveles_originales)

muestra_credito$Trabajo <- factor(muestra_credito$Trabajo,
                                levels = niveles_originales,
                                labels = niveles_finales)

# Tabla de frecuencias
trabajo_counts <- as.data.frame(table(muestra_credito$Trabajo), stringsAsFactors = FALSE)
colnames(trabajo_counts) <- c("Trabajo", "Frecuencia")

# Gráfico de pastel
ggplot(trabajo_counts, aes(x = "", y = Frecuencia, fill = Trabajo)) +
geom_col(width = 1, color = "white") +
coord_polar(theta = "y") +
labs(title = "Proporción de categorías en Trabajo") +
theme_void() +
scale_fill_brewer(palette = "Pastel1") +
guides(fill = guide_legend(title = "Trabajo"))