TAREA6_Estadística

Author

Oscar Enríquez

Tema: Tarea I Semana 6 Análisis de datos Estadísticos

Modelos de Clasificación/ Pruebas de asociación.

Nombre: Oscar Enríquez Sánchez

Fecha: 29/12/2025

Objetivos:

·         Aplicar las técnicas estadísticas predictivas de modelización para hacer predicciones sobre el futuro o acontecimientos no conocidos.

·         Validar los modelos mediante técnicas de visualización de datos para facilitar la comprensión de los hallazgos (insights) obtenidos.

Instrucciones:

Una aerolínea desea establecer cuál es la relación de la cantidad de vuelos que las personas toman con respecto al nivel de ingresos, para lo cual ha recolectado la siguiente información de 100 usuarios.

knitr::opts_chunk$set(echo = TRUE)
# Cargar librerías
library(tidyr)
library(corrplot)
corrplot 0.95 loaded
library(stats)
library(ggplot2)
library(factoextra)
Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
library(psych)

Attaching package: 'psych'
The following objects are masked from 'package:ggplot2':

    %+%, alpha
library(recipes, lib.loc = "C:/Users/Usuario/AppData/Local/R/win-library/4.2")
Loading required package: dplyr

Attaching package: 'dplyr'
The following objects are masked from 'package:stats':

    filter, lag
The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union

Attaching package: 'recipes'
The following object is masked from 'package:stats':

    step
library(lava, lib.loc = "C:/Users/Usuario/AppData/Local/R/win-library/4.2")

Attaching package: 'lava'
The following object is masked from 'package:recipes':

    variances
The following object is masked from 'package:dplyr':

    vars
The following objects are masked from 'package:psych':

    logit, sim, tr
The following object is masked from 'package:ggplot2':

    vars
library(caret, lib.loc = "C:/Users/Usuario/AppData/Local/R/win-library/4.2")
Loading required package: lattice
library(gridExtra)

Attaching package: 'gridExtra'
The following object is masked from 'package:dplyr':

    combine
library(scales)

Attaching package: 'scales'
The following object is masked from 'package:lava':

    ordinal
The following objects are masked from 'package:psych':

    alpha, rescale
library(Hmisc)

Attaching package: 'Hmisc'
The following objects are masked from 'package:dplyr':

    src, summarize
The following object is masked from 'package:psych':

    describe
The following objects are masked from 'package:base':

    format.pval, units
library(ggfortify)
# Creación de la tabla de contingencia
tabla <- matrix(c(20, 15, 2,
                  8, 5, 1,
                  7, 8, 12,
                  2, 5, 15),
                nrow = 4, byrow = TRUE)

rownames(tabla) <- c("Menos de 30k", "30k–50k", "50k–70k", "Más de 70k")
colnames(tabla) <- c("Nunca", "Rara vez", "Con frecuencia")

tabla <- as.table(tabla)
tabla
             Nunca Rara vez Con frecuencia
Menos de 30k    20       15              2
30k–50k          8        5              1
50k–70k          7        8             12
Más de 70k       2        5             15
# Aplicación de la prueba chi-cuadrado
resultado <- chisq.test(tabla)
Warning in chisq.test(tabla): Chi-squared approximation may be incorrect
# Resultado: estadístico y valor p
resultado

    Pearson's Chi-squared test

data:  tabla
X-squared = 33.902, df = 6, p-value = 7.026e-06

En función de la advertencia obtenida al aplicar un Chi cuadrado, empleo el test fisher para superar la limitación de trabajar con frecuencias bajas:

fisher.test(tabla)

    Fisher's Exact Test for Count Data

data:  tabla
p-value = 2.008e-06
alternative hypothesis: two.sided

- Como el valor p es mucho menor que el nivel de significancia alpha =0.01, se rechaza la hipótesis nula referente a que el nivel de ingreso y la frecuencia de viaje son independientes.

- Esto significa que sí existe una asociación estadísticamente significativa entre el nivel de ingreso y la frecuencia de vuelos. Esta hipótesis es reafirmada con el test de Fisher, que corrige la limitación de categorías con frecuecias bajas.

library(stringi)
rownames(tabla) <- stri_trans_general(rownames(tabla), "Latin-ASCII")
colnames(tabla) <- stri_trans_general(colnames(tabla), "Latin-ASCII")
mosaicplot(tabla, shade = TRUE, main = "Relacion entre ingreso y frecuencia de vuelos")

La prueba chi-cuadrado indica una asociación significativa entre el nivel de ingreso y la frecuencia de vuelos, con un alfa de 1%. El diagrama de mosaico refuerza esta conclusión, mostrando que los individuos con mayores ingresos tienden a volar con mayor frecuencia, mientras que los de menores ingresos lo hacen con menor frecuencia de lo esperado. Esto sugiere que el ingreso influye en el comportamiento de vuelo de los usuarios.