<div class="slide-logo-left"></div> <div class="slide-logo-right"></div> <div class="slide-footer">Proyecto Interinstitucional / Facultad Politécnica - Facultad de Filosofía</div> # <div class="etc-title">Estadística aplicada con `R` y `Rstudio`</div> <br><br> <div class="disertante-box"> <em>INSTRUCTOR</em> <strong>Blás Antonio Benítez Cristaldo</strong> </div> --- <div class="slide-logo-left"></div> <div class="slide-logo-right"></div> <div class="slide-footer">Proyecto Interinstitucional / Facultad Politécnica - Facultad de Filosofía</div> # Flujo de trabajo en `RStudio` **🧩 Crear Proyecto → 📄 Crear Archivo → ✏️ Escribir Contenido → ⚙️ Ejecutar → 📊 Generar Resultados → 📤 Exportar / Compartir** > Un ciclo reproducible de análisis: desde la idea inicial hasta la comunicación de resultados. --- <div class="slide-logo-left"></div> <div class="slide-logo-right"></div> <div class="slide-footer">Proyecto Interinstitucional / Facultad Politécnica - Facultad de Filosofía</div> # Distribución de Probabilidades ## Binomial **Situaciones discretas con dos resultados posibles:** éxito (p) y fracaso (1−p). El número de éxitos X en n ensayos independientes sigue: $$ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} $$ **Parámetros:** - n: número de ensayos - p: probabilidad de éxito **Esperanza:** `\(E[X] = np\)` **Varianza:** `\(Var(X) = np(1-p)\)` Usos comunes: control de calidad, encuestas, biología (mutaciones), etc. --- <div class="slide-logo-left"></div> <div class="slide-logo-right"></div> <div class="slide-footer">Proyecto Interinstitucional / Facultad Politécnica - Facultad de Filosofía</div> # Ejemplo Supón que 10% de los chips producidos son defectuosos. Si se inspeccionan **n = 15**, ¿cuál es la probabilidad de hallar exactamente 2 defectuosos? ``` r n <- 15; p <- 0.10; k <- 2 dbinom(k, n, p) ``` ``` ## [1] 0.2668959 ``` --- <div class="slide-logo-left"></div> <div class="slide-logo-right"></div> <div class="slide-footer">Proyecto Interinstitucional / Facultad Politécnica - Facultad de Filosofía</div> # Visualización ``` r barplot(dbinom(0:n, n, p), names.arg = 0:n, col="#4e79a7", main="Distribución Binomial (n=15, p=0.10)", ylab="Probabilidad") ``` <!-- --> --- <div class="slide-logo-left"></div> <div class="slide-logo-right"></div> <div class="slide-footer">Proyecto Interinstitucional / Facultad Politécnica - Facultad de Filosofía</div> # Distribución de Poisson Describe el **número de eventos raros** que ocurren en un intervalo fijo de tiempo o espacio. $$ P(X = k) = \frac{e^{-\lambda} \lambda^k}{k!} $$ **Parámetro:** λ (tasa media de ocurrencia). **Esperanza y Varianza:** `\(E[X] = Var(X) = \lambda\)` Ejemplos: número de llamadas por hora, accidentes por día, errores tipográficos por página. --- <div class="slide-logo-left"></div> <div class="slide-logo-right"></div> <div class="slide-footer">Proyecto Interinstitucional / Facultad Politécnica - Facultad de Filosofía</div> # Ejemplo El número de correos que llegan por minuto sigue una Poisson con `\(\lambda=3\)`. ¿Cuál es la probabilidad de recibir **exactamente 5** correos en un minuto? ``` r lambda <- 3 dpois(5, lambda) ``` ``` ## [1] 0.1008188 ``` --- <div class="slide-logo-left"></div> <div class="slide-logo-right"></div> <div class="slide-footer">Proyecto Interinstitucional / Facultad Politécnica - Facultad de Filosofía</div> # Gráfica ``` r barplot(dpois(0:10, lambda), names.arg = 0:10, col="#f28e2b", main="Distribución de Poisson (λ = 3)", ylab="Probabilidad") ``` <!-- --> --- <div class="slide-logo-left"></div> <div class="slide-logo-right"></div> <div class="slide-footer">Proyecto Interinstitucional / Facultad Politécnica - Facultad de Filosofía</div> # Distribución Normal Describe variables continuas **simétricas** alrededor de una media. $$ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2\sigma^2}} $$ **Parámetros:** - μ: media - σ: desviación estándar **Propiedades:** - Forma de “campana”. - 68% de observaciones entre μ ± σ. - 95% entre μ ± 2σ. - 99.7% entre μ ± 3σ. Usos: altura, peso, tiempos, errores de medición, promedios muestrales (Teorema Central del Límite). --- <div class="slide-logo-left"></div> <div class="slide-logo-right"></div> <div class="slide-footer">Proyecto Interinstitucional / Facultad Politécnica - Facultad de Filosofía</div> # Ejemplo Supón que el peso de los paquetes sigue una Normal con μ = 500 g y σ = 50 g. ¿Cuál es la probabilidad de que un paquete pese menos de 450 g? ``` r pnorm(450, mean = 500, sd = 50) ``` ``` ## [1] 0.1586553 ``` --- <div class="slide-logo-left"></div> <div class="slide-logo-right"></div> <div class="slide-footer">Proyecto Interinstitucional / Facultad Politécnica - Facultad de Filosofía</div> # Gráfica ``` r x <- seq(350, 650, by=1) y <- dnorm(x, 500, 50) plot(x, y, type="l", lwd=2, col="#59a14f", main="Distribución Normal(μ=500, σ=50)", ylab="Densidad") abline(v=450, col="red", lty=2) ``` <!-- --> --- <div class="slide-logo-left"></div> <div class="slide-logo-right"></div> <div class="slide-footer">Proyecto Interinstitucional / Facultad Politécnica - Facultad de Filosofía</div> # Teoría de muestreo — Teoría **Objetivo:** inferir sobre la **población** a partir de una **muestra**. **Conceptos clave** - **Población / Muestra**: universo de estudio vs subconjunto observado. - **Parámetro / Estadístico**: `\(\mu, p, \sigma\)` (desconocidos) vs `\(\bar{x}, \hat{p}, s\)` (calculados en la muestra). - **Error muestral**: variación natural al muestrear. - **Sesgo**: desviación sistemática (muestra no representativa). - **Tamaño muestral**: depende de **margen de error (E)**, **nivel de confianza (1-α)** y **variabilidad**. **Buenas prácticas**: marco muestral claro, aleatorización, minimizar no‑respuesta, registro de tasas de cobertura. --- <div class="slide-logo-left"></div> <div class="slide-logo-right"></div> <div class="slide-footer">Proyecto Interinstitucional / Facultad Politécnica - Facultad de Filosofía</div> # Ejemplo Supongamos una **población** de 100 000 salarios, Estimamos la **media** poblacional con una **muestra aleatoria** y construimos un **IC 95%**. -- ``` r # "Población" simulada N <- 100000 poblacion <- rlnorm(N, meanlog = 10.2, sdlog = 0.5) # salarios simulados # Muestra aleatoria simple n <- 200 muestra <- sample(poblacion, n) media_m <- mean(muestra) sd_m <- sd(muestra) # IC 95% (t de Student) error <- qt(0.975, df = n-1) * sd_m / sqrt(n) IC <- c(inf = media_m - error, sup = media_m + error) list(media_muestra = media_m, IC95 = IC) ``` --- <div class="slide-logo-left"></div> <div class="slide-logo-right"></div> <div class="slide-footer">Proyecto Interinstitucional / Facultad Politécnica - Facultad de Filosofía</div> # Teoría de la decisión estadística **Pruebas de hipótesis como decisiones** - `\(H_0\)` vs `\(H_1\)` - Error Tipo I (`\(\alpha\)`): rechazar `\(H_0\)` siendo verdadera. - Error Tipo II (`\(\beta\)`) y **potencia** `\(1-\beta\)`. - Si la pérdida por **falso positivo** es alta, elige `\(\alpha\)` más **pequeña** (regla más conservadora). --- <div class="slide-logo-left"></div> <div class="slide-logo-right"></div> <div class="slide-footer">Proyecto Interinstitucional / Facultad Politécnica - Facultad de Filosofía</div> # Ejemplo Una fábrica considera un **nuevo proceso**. Se mide la media de defectos (por lote). Queremos decidir: - **Acción A0**: mantener proceso actual. - **Acción A1**: adoptar nuevo proceso. Costos de pérdida: - Falso adoptar (nuevo peor): **100**. - Falso mantener (nuevo mejor): **30**. - Acierto: **0**. Supón que tomamos una muestra de 40 lotes con media de defectos `\(\overline{X}=4.8\)` (`\(sd = 1.9\)`) y estándar actual = 5.5. Probamos - `\(H_0:\ \mu\ge 5.5\)` - `\(H_1:\ \mu<5.5\)` --- <div class="slide-logo-left"></div> <div class="slide-logo-right"></div> <div class="slide-footer">Proyecto Interinstitucional / Facultad Politécnica - Facultad de Filosofía</div> # Ejemplo ``` r xbar <- 4.8; s <- 1.9; n <- 40; mu0 <- 5.5 t_stat <- (xbar - mu0) / (s / sqrt(n)) p_val <- pt(t_stat, df = n-1) # cola inferior c(t = t_stat, p = p_val) ``` -- **Interpretación:** Si **p** < α, **rechazamos `\(H_0\)`** y **adoptamos** el nuevo proceso (A1). -- - Con α = 0.05: si `p` es menor a 0.05, adoptamos. - Conclusión: --- <div class="slide-logo-left"></div> <div class="slide-logo-right"></div> <div class="slide-footer">Proyecto Interinstitucional / Facultad Politécnica - Facultad de Filosofía</div> # Prueba de Chi-cuadrado **Tipos:** - **Bondad de ajuste** (una variable categórica vs distribución teórica). - **Independencia** (asociación entre dos variables categóricas en tabla de contingencia). - **Homogeneidad** (comparar distribuciones categóricas entre varios grupos). -- **Estadístico:** `\(\chi^2=\sum \frac{(O-E)^2}{E}\)`, **gl** según el diseño. **Supuestos:** - Datos son **conteos** (frecuencias, no porcentajes). - **Independencia** de observaciones. - Frecuencias esperadas `\(\ge 5\)` en al menos 80% de celdas (o combinar categorías). -- **Resultado:** **p-valor**; si p < α rechazamos `\(H_0\)`. Explora **residuos estandarizados** para ver **qué celdas** explican la asociación. --- <div class="slide-logo-left"></div> <div class="slide-logo-right"></div> <div class="slide-footer">Proyecto Interinstitucional / Facultad Politécnica - Facultad de Filosofía</div> # Ejemplo (independencia) Preferencia de **bebida** (A/B/C) por **turno** (M/T). ``` r tab <- matrix(c(35, 22, 13, 18, 29, 25), nrow = 2, byrow = TRUE, dimnames = list(Turno = c("M","T"), Bebida = c("A","B","C"))) tab ``` ``` ## Bebida ## Turno A B C ## M 35 22 13 ## T 18 29 25 ``` --- <div class="slide-logo-left"></div> <div class="slide-logo-right"></div> <div class="slide-footer">Proyecto Interinstitucional / Facultad Politécnica - Facultad de Filosofía</div> # Ejemplo (independencia) ``` r chisq_test <- chisq.test(tab, correct = FALSE) chisq_test round(chisq_test$stdres, 2) # residuos estandarizados ``` -- **Interpretación:** Si p < 0.05, concluimos **asociación** entre turno y preferencia. -- Los **residuos estandarizados** indican **dónde** está la mayor desviación (positivo = observado > esperado). --- <div class="slide-logo-left"></div> <div class="slide-logo-right"></div> <div class="slide-footer">Proyecto Interinstitucional / Facultad Politécnica - Facultad de Filosofía</div> # ✅ Conclusión - Las distribuciones teóricas de probabilidad son modelos matemáticos que permiten describir y predecir el comportamiento de fenómenos aleatorios. -- - Muestreo: representatividad y tamaño muestral importan. -- - Decisión: piensa en **pérdidas** y **errores** (α, β) al fijar reglas. -- - Chi-cuadrado: útil para **categóricas**; mira **residuos** para interpretar. -- ## “El análisis de datos no es magia… pero con `R`, se le parece bastante” ✨ -- #¡Experimentá, graficá, analizá! 📊📈