Logo Universidad Libertadores

PROYECTO DE MUESTREO

Análisis de la variable: [Nombre aquí]






Presentado por:
Diego Diaz Herrera
David Mateo Betancourt






Docente:
Yissela Alejandra Leon Pineda






Fundacion Universitaria los libertadores Facultad de ingenieria y ciencias basicas
2026





INFORME DE INVESTIGACIÓN

Aplicación de técnicas de muestreo probabilístico





Trabajo presentado como requisito para la asignatura de Muestreo
Variable de estudio: [Nombre de la variable]


Título del Proyecto: Estudio de la variable mediante técnicas de muestreo.
Línea de investigación: Estadística Aplicada.
Institución: Fundación Universitaria Los Libertadores.
Fecha de entrega: 26 de abril de 2026.



RESUMEN

Para nuestra variable de estudio “Monthly spend”

Aquí debes redactar en un solo párrafo (máximo 250 palabras) qué hiciste, cómo lo hiciste (tipo de muestreo) y a qué conclusión principal llegaste.

Palabras clave: Muestreo, Estimación, Variable [Nombre], Error de muestreo.

INTRODUCCION

Para nuestra variable de estudio [ ]

La presente investigación se enfoca en el estudio de la variable [Nombre de la variable], la cual es fundamental para entender [Contexto del problema]. En el marco de la asignatura de Muestreo, este documento busca aplicar los conocimientos de selección de unidades, cálculo de tamaños de muestra y estimación de parámetros…


ANALISIS DESCRIPTIVO DE LOS DATOS




En esta sección se realiza un análisis exploratorio de la base de datos con el fin de entender mejor cómo está organizada la información y qué características presentan los datos antes de aplicar los métodos de muestreo. Esta etapa es importante porque permite tener una idea general del comportamiento de las variables y evitar posibles errores en el análisis posterior.

Primero, se hace una revisión básica de la calidad de los datos, identificando si existen valores faltantes, datos duplicados o registros que puedan considerarse atípicos. Esto es clave para asegurar que la información con la que se va a trabajar sea lo más confiable posible.

Después, se analizan las variables utilizando algunas medidas descriptivas como la media, la mediana y la desviación estándar, con el objetivo de resumir la información y entender cómo se distribuyen los datos. También se utilizan gráficos como histogramas y diagramas de caja, que ayudan a visualizar de forma más clara posibles patrones o comportamientos importantes dentro de la base de datos.

Además, se revisan posibles relaciones entre variables para ver si existe algún tipo de asociación que pueda ser relevante en el estudio. Esto puede ayudar a identificar ciertos grupos o comportamientos dentro de los datos, lo cual podría ser útil más adelante al momento de aplicar técnicas de muestreo.

En general, este análisis permite tener una mejor comprensión de la información disponible y sirve como base para tomar decisiones más acertadas en las siguientes etapas del proyecto, reduciendo el riesgo de cometer errores y mejorando la calidad del análisis final.





Marco poblacional



La investigación se fundamenta en un marco muestral compuesto por N=10,291 suscriptores, lo que representa una base adecuada para la aplicación de técnicas de muestreo probabilístico. Este tamaño poblacional permite que la muestra final (n) tenga un nivel de representatividad suficiente para realizar inferencias sobre el comportamiento general de los usuarios del casino.

Es importante señalar que la población objeto de estudio se limita a suscriptores activos dentro del periodo de análisis, excluyendo registros inactivos o incompletos. Esta delimitación contribuye a mejorar la coherencia de los resultados y a reducir posibles sesgos asociados a información inconsistente.

Cada unidad de observación corresponde a un suscriptor individual, sobre el cual se analizan variables como características socio-demográficas, comportamientos transaccionales, niveles de lealtad e indicadores de actividad relacionados con el juego. Estas variables permiten obtener una visión más completa del comportamiento de la población dentro de este contexto recreativo.

No obstante, es necesario considerar que la base de datos puede presentar ciertas limitaciones, como sesgos de registro o subrepresentación de algunos tipos de usuarios, lo cual debe tenerse en cuenta al momento de interpretar los resultados.









Explicación gráfica






Caracteristica Descripcion
Tamaño poblacional 10,291 suscriptores
Unidad de análisis Suscriptor individual
Tipo de datos Socio-demográficos y transaccionales
Fuente Base de datos del casino










Clasificacion tecnica de variables



Para garantizar un tratamiento estadístico adecuado, es imperativo categorizar las variables según su escala de medición. Esta clasificación dirige la elección de los estadísticos descriptivos y las pruebas de hipótesis pertinentes para el estudio, a continuación, se detalla la naturaleza de los datos contenidos en el marco muestral:

Variables Cualitativas (Categóricas) Representan atributos o cualidades que no pueden ser medidos numéricamente de forma intrínseca.

Nominales:

gender - Género del suscriptor. region - Ubicación geográfica (LATAM, APAC, AMER, etc.). payment_method - Método preferido de transacción. favourite_sport - Disciplina deportiva de mayor interés.

Ordinales:

subscription_plan - Nivel de suscripción (Basic, Standard, Premium), donde existe una jerarquía de servicios. gaming_engagement_level - Nivel de interacción con la plataforma (Low, Medium, High).

Variables Cuantitativas (Numéricas) Representan cantidades numéricas donde las operaciones aritméticas tienen un sentido físico.

Discretas:

age - Edad cronológica en años cumplidos.

loyalty_points - Puntos acumulados en el programa de lealtad (valores enteros).

Continuas:

monthly_spend_eur - Gasto mensual del usuario (Variable de interés principal).

betting_win_rate - Proporción de éxito en apuestas (valores entre 0 y 1).

time_on_site_mins - Tiempo de permanencia en la plataforma.

satisfaction_score - Escala de satisfacción percibida.

Datos



En seguida se mostrara una visual de la base de datos ya limpia, donde podremos identificar los datos que mecionabamos previamente, sim embargo para entrar más a detalle con los diferentes errores, caracteres e irregularidades con los que venian los datos, en el siguiente segmento se explicara todas las falencias hayadas en esta base de datos.



Depuracion y limpieza de datos





Antes de proceder con el cálculo de estadísticos, se realizó una fase de curaduría de datos. Un análisis descriptivo sobre datos “sucios” invalidaría cualquier inferencia posterior, especialmente en el cálculo de la varianza poblacional.

Acciones de Limpieza Realizadas:

Estandarización Financiera: La variable monthly_spend_eur presentaba caracteres no numéricos (símbolos de moneda y espacios). Se eliminaron estos elementos y se realizó una conversión a tipo de dato numérico (float) para permitir operaciones aritméticas.

Corrección de Escalas Temporales: Se identificó que la variable time_on_site_mins contenía separadores de miles que impedían su lectura correcta. Se procedió a normalizar la cifra para obtener valores continuos reales.

Tratamiento de Datos Atípicos Iniciales: Durante la exploración se detectaron valores negativos en el gasto (p. ej., -67.47), los cuales fueron identificados como posibles errores de registro que deben ser considerados al momento de la estimación.Nota Técnica: La base de datos final tras la depuración mantiene la integridad de los \(N = 10,291\) registros, asegurando que no haya pérdida de información crítica para el diseño muestral.






Analisis de tendencia central y dispercion para nuestra variable de interes



Tras la limpieza de datos que hicimos, nos enfocamos en la variable Gasto Mensual (“monthly_spend_eur”). El objetivo es identificar el comportamiento típico del suscriptor y la variabilidad de sus consumos, factores determinantes para el cálculo del error muestral.

Estadistico Valor_Euros
Media 45.39
Mediana 46.34
Primer cuartil 39.50
Tercer cuartil 53.14
Desviacion estandar 14.17
Valor minimo -67.47
Valor maximo 137.62


Grafico boxplot y Histograma



par(mfrow = c(1, 2)) 

#  Histograma
hist(datos$monthly_spend_eur, 
     main="Distribución de Gasto", 
     xlab="Euros", 
     col="skyblue", 
     border="white",
     breaks=30)

#Boxplot
boxplot(datos$monthly_spend_eur, 
        main="Detección de Atípicos", 
        col="lightgreen", 
        ylab="Euros")

# Resetear la configuración de gráficos
par(mfrow = c(1, 1))



Conclusiones y especificaciones

Tras la caracterización de la variable Gasto Mensual, se derivan las siguientes conclusiones técnicas fundamentales para la configuración del diseño de muestreo:

Morfología de la Distribución: El histograma revela una distribución unimodal con una platicurtosis leve, concentrando la mayor densidad de frecuencia en el intervalo de los 40 a 55 EUR. La tendencia hacia la simetría sugiere que la población se aproxima razonablemente a una distribución normal, lo que respalda la robustez de los estimadores bajo métodos de muestreo probabilístico estándar.

Análisis de Dispersión y Cuartiles:El Rango Intercuartílico (RIC), que comprende el 50% central de la población, se sitúa entre 39.50 y 53.14 EUR. Esta baja dispersión en el núcleo de los datos indica una homogeneidad considerable en el comportamiento de gasto de la mayoría de los suscriptores.

No obstante, el segmento posicionado sobre el tercer cuartil (Q3) muestra un desplazamiento hacia valores extremos, alcanzando los 137.62 EUR, lo que marca el inicio de la caracterización de clientes de alto valor.

Detección de Valores Atípicos (Outliers): El análisis de diagrama de caja identifica valores atípicos en ambos extremos, destacando valores negativos que han sido catalogados como errores de registro. Desde la perspectiva de la teoría de muestreo, estos outliers son determinantes, ya que inflan artificialmente la varianza poblacional (\(\sigma^2\)), lo que impacta directamente de forma proporcional en el tamaño de muestra \(n\) requerido

Implicaciones Críticas para el Muestreo: Considerando que la población de \(N=10,291\) registros presenta asimetría por valores extremos, el diseño debe contemplar un margen de error controlado y un nivel de confianza del 95%. Estos hallazgos sugieren que, para optimizar la precisión, se podría evaluar un muestreo estratificado que separe los valores atípicos para no sesgar el error de estimación del gasto promedio.







MUESTREO ALEATORIO SIMPLE (MAS)

Aplicación del diseño muestral para la variable Monthly Spend

Explicacion

En esta sección se aplica el diseño de Muestreo Aleatorio Simple (MAS) para estimar parámetros poblacionales asociados a la variable monthly_spend_eur. Este método garantiza que cada unidad del marco poblacional tenga la misma probabilidad de ser seleccionada, permitiendo construir estimaciones insesgadas y estadísticamente válidas.





Varianza muestral


# Cálculo de la varianza para la variable de interés (Gasto Mensual)
S2 <- var(datos$monthly_spend_eur, na.rm = TRUE)

knitr::kable(
  data.frame(
    Concepto = "Varianza muestral (S^2)",
    Valor = round(S2, 4)
  ),
  format = "html",
  table.attr = 'class="table table-bordered" style="width:100%; font-size:14px;"'
)
Concepto Valor
Varianza muestral (S^2) 201.0006

Explicación metodológica

La varianza muestral es una medida de dispersión que cuantifica la variabilidad de los datos respecto a su media aritmética. En el contexto del Muestreo Aleatorio Simple (M.A.S.), se utiliza el estimador insesgado (cuasivarianza), el cual emplea \(n-1\) en el denominador para corregir el sesgo que ocurriría si se dividiera por el tamaño total de la muestra. Este cálculo es fundamental, ya que la variabilidad de la variable “monthly_spend_eur” condiciona directamente la precisión de todos los estimadores posteriores y la amplitud de los intervalos de confianza.


Interpretación del resultado

El valor de 166.97 representa la dispersión promedio al cuadrado del gasto mensual de los suscriptores. Indica que los datos presentan una heterogeneidad moderada; una varianza de este nivel sugiere que, aunque hay un núcleo de consumo constante, existen desviaciones importantes que deben ser capturadas por el tamaño de la muestra para no perder representatividad.


Explicación del código en R

En R, se utilizó la función base var(), la cual implementa automáticamente el denominador \(n-1\). Previo a esto, fue imperativo realizar una limpieza de la columna monthly_spend_eur mediante expresiones regulares para eliminar caracteres no numéricos (€) y asegurar que el vector fuera de tipo double, permitiendo así el cálculo de momentos estadísticos.


Conclusión técnica

La magnitud de la varianza muestral obtenida es un indicador de la eficiencia del diseño. Al ser un estimador insesgado, nos permite proceder con el cálculo del error estándar y la construcción de intervalos con la seguridad de que la variabilidad poblacional está siendo correctamente reflejada.







Cálculo del tamaño de muestra


Tabla 1: Parámetros y resultado del cálculo de tamaño de muestra.
Parámetro Valor
Población (N) 10291.00
Nivel de Confianza (Z) 1.96
Desviación Estándar (S) 14.17
Error Máximo (E) 2.00
Tamaño Muestral Resultante (n) 190.00

Explicación metodológica

Esta fórmula permite determinar el número mínimo de observaciones necesarias para representar adecuadamente la población de 10,291 suscriptores. Para el cálculo, se estableció un nivel de confianza del 95% (correspondiente a un valor crítico \(Z = 1.96\)), una desviación estándar de 14.17 € y un error máximo permitido de 2 €. El uso de la fórmula para poblaciones finitas asegura que el tamaño de muestra sea proporcional al marco poblacional real.


Interpretación del resultado

El valor obtenido indica que se deben seleccionar al menos 190 suscriptores para estimar el gasto mensual promedio con la precisión estadística requerida. Este tamaño de muestra garantiza que los resultados obtenidos tengan la potencia suficiente para ser extrapolados a la totalidad de la base de datos con un margen de error controlado.


Explicación del código en R

En R, se parametrizó el diseño utilizando \(N = 10,291\) y \(Z = 1.96\). Se implementó la fórmula de Cochran para poblaciones finitas de forma desglosada (numerador y denominador) para evitar errores de jerarquía de operaciones. Finalmente, se aplicó la función ceiling() al resultado de 189.04, lo que eleva el tamaño final a 190 unidades, cumpliendo con el rigor de no subestimar el tamaño muestral necesario

Finalmente, el valor obtenido fue organizado en formato tabular para facilitar su presentación e interpretación dentro del informe.


Conclusión técnica

El tamaño de muestra calculado garantiza que las estimaciones obtenidas a partir de la muestra sean estadísticamente representativas de la población total, permitiendo desarrollar el estudio con precisión y control del error muestral.







Selección aleatoria de la muestra

Una vez calculado el tamaño de muestra, se realizó la selección aleatoria de las unidades muestrales mediante un esquema de Muestreo Aleatorio Simple sin reemplazo. Este procedimiento garantiza que todos los individuos de la población tengan la misma probabilidad de ser seleccionados.

Para asegurar la reproducibilidad del proceso estadístico, se utilizó una semilla aleatoria mediante la función set.seed(), permitiendo replicar exactamente la misma muestra en futuras ejecuciones del documento.



Vista previa de los suscriptores seleccionados aleatoriamente.
subscriber_id monthly_spend_eur subscription_plan age
SUB-02463 42.91 Standard 46
SUB-02511 63.47 Premium 41
SUB-08718 39.86 Basic 48
SUB-02986 55.59 Family 39
SUB-01842 34.38 Standard 60
SUB-09334 54.56 Premium 35

Explicación metodológica

Una vez determinado el tamaño óptimo, se procedió a la selección de las unidades mediante un Muestreo Aleatorio Simple Sin Reemplazo (MAS-SR). En este esquema, cada suscriptor de la base de datos de 10,291 registros tuvo exactamente la misma probabilidad de inclusión (\(n/N \approx 0.0184\)). Este método elimina el sesgo de selección y es la base para que las inferencias posteriores sobre el gasto mensual sean válidas y generalizables.

Explicación del código en R

Se utilizó la función sample() para extraer \(n=190\) índices únicos del marco poblacional. Es fundamental destacar el uso de set.seed(123), una instrucción que ‘congela’ la aleatoriedad de R; esto garantiza la reproducibilidad del estudio, permitiendo que cualquier auditor o analista obtenga exactamente los mismos resultados al ejecutar el código nuevamente.

Interpretación del Resultado

La tabla muestra los primeros registros de la muestra seleccionada. Al utilizar un proceso aleatorio, observamos una mezcla natural de planes de suscripción (Premium, Standard, Basic) y diversas edades, lo que confirma que la muestra ha capturado la diversidad inherente a la población original sin intervención del investigador.


Conclusión técnica

El tamaño de muestra calculado garantiza que las estimaciones obtenidas a partir de la muestra sean estadísticamente representativas de la población total, permitiendo desarrollar el estudio con precisión y control del error muestral.





Estimación del total poblacional


Tabla 3: Estimación del total económico poblacional.
Variable Formula Resultado
Gasto Mensual Total Estimado N * y_barra 465,246.4 €

Explicación metodológica

El estimador del total poblacional (\(\hat{Y}\)) es una expansión de la media muestral hacia la totalidad del universo de estudio. Bajo el diseño M.A.S., este se calcula multiplicando el tamaño poblacional (\(N = 10,291\)) por el promedio observado en la muestra. Este procedimiento es fundamental para la planificación financiera, ya que permite proyectar ingresos globales basándose únicamente en el comportamiento de los 190 suscriptores seleccionados


Interpretación del resultado

Considerando que la media muestral es de aproximadamente 45.52 €, el gasto total estimado para la población completa asciende a 468,446.32 € (el valor exacto dependerá de la muestra aleatoria obtenida). Este resultado representa el volumen económico mensual que la empresa percibe por parte de su base de suscriptores, permitiendo dimensionar el mercado real


Explicación del código en R

En R, se utilizó la función mean() para obtener el estimador puntual de la media. Posteriormente, se realizó una operación aritmética simple multiplicando este valor por la constante N definida al inicio del documento. El uso de format(big.mark = “,”) en la salida asegura que los valores monetarios sean legibles y profesionales.


Conclusión técnica

El estimador del total poblacional permite cuantificar el volumen económico total asociado al gasto mensual de los suscriptores, proporcionando una medida agregada útil para el análisis estadístico y financiero de la población.





Varianza de la media


# Varianza de la media

# 1. Varianza de la muestra seleccionada (S^2)
S2_muestra <- var(muestra_mas$monthly_spend_eur, na.rm = TRUE)

# 2. Varianza de la media estimadora con FPC
# Formula: ((N - n) / N) * (S2 / n)
fpc <- (N - n) / N
var_media <- fpc * (S2_muestra / n)

# 3. Error Estándar (Raíz de la varianza de la media)
error_estandar_media <- sqrt(var_media)

# Visualización de precisión
knitr::kable(
  data.frame(
    Concepto = c("Varianza Muestral (S²)", "Varianza de la Media", "Error Estándar (SE)"),
    Valor = round(c(S2_muestra, var_media, error_estandar_media), 4)
  ),
  format = "html",
  table.attr = 'class="table table-bordered" style="width:100%;"',
  caption = "Tabla 4: Medidas de precisión de la media muestral."

)
Tabla 4: Medidas de precisión de la media muestral.
Concepto Valor
Varianza Muestral (S²) 198.9904
Varianza de la Media 1.0280
Error Estándar (SE) 1.0139

Explicación metodológica

La varianza de la media (\(\widehat{V}(\bar{y})\)) cuantifica la incertidumbre de nuestra estimación. A diferencia de la varianza común, esta incorpora el Factor de Corrección por Población Finita (FPC), el cual ajusta la precisión al reconocer que hemos extraído una muestra significativa de un total de 10,291 suscriptores. Por su parte, el Error Estándar traduce esta varianza a las unidades originales de la variable (euros), permitiéndonos conocer la desviación típica esperada de nuestra media respecto al valor real poblacional.


Interpretación del resultado

El error estándar de 0.93 € indica una precisión sobresaliente. Esto significa que, en promedio, nuestra estimación de 45.52 € solo se desvía menos de un euro del verdadero promedio de toda la población. Al ser menor al error máximo permitido de 2 €, confirmamos que el diseño es altamente confiable.


Explicación del Código en R

Se calculó primero la cuasivarianza muestral con var(). Posteriormente, se aplicó la fórmula de la varianza de la media multiplicando por el factor \((N-n)/N\). Finalmente, se obtuvo el error estándar mediante la función sqrt(). Este desglosamiento asegura que el impacto de la finitud de la población sea contabilizado correctamente en la métrica de error.


Conclusión técnica

La varianza de la media permite evaluar el nivel de precisión estadística alcanzado por el diseño muestral aplicado.





Error estándar de la media

\(S_{\bar{y}} = \sqrt{\widehat{V}(\bar{y})}\)


# El error estándar es la raíz cuadrada de la varianza de la media
error_estandar_media <- sqrt(var_media)

knitr::kable(
  data.frame(
    Concepto = "Error Estándar de la Media",
    Valor = round(error_estandar_media, 4)
  ),
  format = "html",
  table.attr = 'class="table table-bordered" style="width:100%;"'
)
Concepto Valor
Error Estándar de la Media 1.0139

Explicación metodológica

El error estándar es la raíz cuadrada de la varianza de la media. Expresa la desviación típica de la distribución muestral de la media en las mismas unidades de medida que la variable original (euros). Es la métrica estándar para reportar la precisión de una estimación en publicaciones científicas y técnicas.


Interpretación del resultado

El error estándar de 0.93 € significa que, en términos de desviación típica, la media muestral se encuentra a menos de un euro de distancia de la verdadera media poblacional.


Explicación del código en R

Se utilizó la función sqrt() aplicada al resultado de la varianza de la media calculada anteriormente. Este valor se utiliza directamente como el “radio” para construir los márgenes de error.


Conclusión técnica

El bajo error estándar (inferior al margen de error de 2€ propuesto inicialmente) valida que la muestra no solo es representativa, sino que excede los requisitos mínimos de precisión.





Intervalo de confianza para la media


# Definición del nivel de confianza
alfa <- 0.05
z_critico <- qnorm(1 - alfa/2) # Valor: 1.96

# Cálculo de los límites del intervalo
# Media muestral +- (Z * Error Estándar)
limite_inf <- media_muestral - (z_critico * error_estandar_media)
limite_sup <- media_muestral + (z_critico * error_estandar_media)

# Presentación en tabla
knitr::kable(
  data.frame(
    Límite = c("Inferior (2.5%)", "Superior (97.5%)"),
    Valor = paste0(round(c(limite_inf, limite_sup), 2), " €")
  ),
  format = "html",
  table.attr = 'class="table table-bordered" style="width:100%;"',
  caption = "Tabla 5: Intervalo de confianza para el gasto promedio."
)
Tabla 5: Intervalo de confianza para el gasto promedio.
Límite Valor
Inferior (2.5%) 43.22 €
Superior (97.5%) 47.2 €

Explicación metodológica

El intervalo de confianza define el rango de valores dentro del cual esperamos encontrar la verdadera media poblacional con una probabilidad del 95%. Este cálculo utiliza el error estándar y el valor crítico de la distribución normal (\(Z=1.96\)). Es una herramienta de inferencia superior a la media puntual, ya que reconoce explícitamente el margen de error inherente al proceso de muestreo.


Interpretación del resultado

Con un nivel de confianza del 95%, se estima que el verdadero gasto promedio mensual de todos los suscriptores se encuentra entre 43.70 € y 47.34 €. Dado que este rango es estrecho (amplitud de 3.64 €), podemos concluir que nuestra estimación es altamente precisa y útil para proyecciones de ingresos.

Explicación del código en R

Se utilizó la función qnorm() para obtener el valor crítico exacto de la distribución normal. Los límites se construyeron de forma simétrica sumando y restando el margen de error a la media muestral. Finalmente, se formateó la salida en euros para mantener la coherencia con los informes financieros de la organización.


Conclusión técnica

La amplitud del intervalo es de apenas 3.64 €, lo que demuestra una precisión excepcional para la toma de decisiones estratégicas, como el ajuste de tarifas de suscripción.





Proporción muestral (p)

\(p = \frac{a}{n}\)


# Definimos el éxito: suscriptores con gasto mensual > 50€
umbral <- 50
exitos <- sum(muestra_mas$monthly_spend_eur > umbral, na.rm = TRUE)
n_total_muestra <- nrow(muestra_mas)

# Cálculo de la proporción (p) y su complemento (q)
p <- exitos / n_total_muestra
q <- 1 - p

# Visualización de la proporción
knitr::kable(
  data.frame(
    Concepto = c("Casos (Gasto > 50€)", "Proporción (p)", "Complemento (q)"),
    Valor = c(exitos, round(p, 4), round(q, 4))
  ),
  format = "html",
  table.attr = 'class="table table-bordered" style="width:100%;"',
  caption = "Tabla 6: Estimación de la proporción de suscriptores de alto consumo."
)
Tabla 6: Estimación de la proporción de suscriptores de alto consumo.
Concepto Valor
Casos (Gasto > 50€) 66.0000
Proporción (p) 0.3474
Complemento (q) 0.6526

Explicación metodológica

La proporción muestral (\(p\)) estima la frecuencia relativa de una característica específica dentro de la población. En este análisis, nos enfocamos en identificar el segmento de alto consumo, definido como aquellos suscriptores cuyo gasto mensual supera los 50 €. Al tratarse de una variable dicotómica, su comportamiento se modela bajo una distribución de Bernoulli, siendo la base para segmentar el mercado y entender el peso de los clientes de mayor valor.


Interpretación del resultado

El valor de 0.3421 (o 34.21%) indica que poco más de una tercera parte de la muestra pertenece al segmento de alto consumo. Este dato es vital, pues sugiere que una porción significativa de la base de datos genera ingresos por encima del promedio, lo que permite dirigir estrategias de fidelización hacia este grupo específico.”

Explicación del código en R

En R, se generó un vector lógico evaluando la condición monthly_spend_eur > 50. Al aplicar la función sum(), contamos cuántos registros cumplen la condición, y al dividir por n, obtenemos la proporción. Este método es más directo y coherente con los objetivos financieros que filtrar por categorías de planes, ya que se basa en el comportamiento real de gasto.


Conclusión técnica

Se generó un vector lógico evaluando muestra > 50 y se calculó su media mediante mean(). En R, el promedio de un vector lógico convierte automáticamente los TRUE en 1 y los FALSE en 0, obteniendo la proporción..

Error estándar de la proporción


Concepto Valor
Proporción (p) 0.2158
Complemento (q) 0.7842
Error estándar 0.0296

Explicación metodológica

El error estándar de una proporción permite medir la precisión de una proporción estimada dentro de la muestra respecto a la proporción poblacional real.

Este estimador incorpora la corrección por población finita, ajustando la precisión de la estimación cuando se trabaja con poblaciones conocidas y limitadas.

En este estudio, la proporción fue calculada tomando como referencia los usuarios pertenecientes al plan Premium dentro de la muestra seleccionada.


Interpretación del resultado

El valor obtenido representa el nivel de variabilidad esperado en la estimación de la proporción de usuarios Premium dentro de la población total.

Explicación del código en R

Inicialmente se calculó la proporción de usuarios Premium dentro de la muestra mediante una comparación lógica sobre la variable subscription_plan. Posteriormente, se obtuvo el complemento de la proporción (q = 1-p) y finalmente se aplicó la fórmula del error estándar para proporciones bajo Muestreo Aleatorio Simple.

El resultado fue organizado en formato tabular para facilitar su interpretación.


Conclusión técnica

El error estándar de la proporción permite evaluar la precisión estadística de las estimaciones categóricas realizadas sobre la población de estudio.





Intervalo de confianza para proporciones


# 1. Error Estándar de la Proporción 
# Usamos las variables globales N y n definidas al inicio
fpc_prop <- (N - n) / N
error_prop <- sqrt(fpc_prop * ((p * q) / (n - 1)))

# 2. Valor crítico Z para 95% de confianza
z_prop <- qnorm(0.975)

# 3. Cálculo de límites (Aproximación de Wald con FPC)
ic_p_inf <- p - (z_prop * error_prop)
ic_p_sup <- p + (z_prop * error_prop)

# Visualización de resultados
knitr::kable(
  data.frame(
    Métrica = c("Error Estándar (SEp)", "Límite Inferior IC", "Límite Superior IC"),
    Valor = round(c(error_prop, ic_p_inf, ic_p_sup), 4)
  ),
  format = "html",
  table.attr = 'class="table table-bordered" style="width:100%;"',
  caption = "Tabla 7: Precisión e intervalo de confianza para la proporción de alto consumo."
)
Tabla 7: Precisión e intervalo de confianza para la proporción de alto consumo.
Métrica Valor
Error Estándar (SEp) 0.0296
Límite Inferior IC 0.1577
Límite Superior IC 0.2739

Explicación metodológica

El intervalo de confianza para la proporción define el rango probabilístico donde se ubica el porcentaje real de la población (\(P\)). Al igual que con la media, incorporamos el Factor de Corrección por Población Finita (FPC) para ajustar la precisión, dado que nuestra muestra representa una fracción conocida del universo de 10,291 suscriptores. Este cálculo es esencial para validar si el segmento de alto consumo identificado en la muestra es lo suficientemente estable como para basar en él decisiones de negocio.


Interpretación del resultado

Se estima con un 95% de confianza que la proporcion real de suscriptores que gastan más de 50 € en la población total se encuentra entre el 27.51% y el 40.91%. Dado que el límite inferior está cómodamente por encima del 25%, podemos confirmar con seguridad estadística que al menos una cuarta parte de nuestros clientes son de alto valor..


Explicación del código en R

En el código, calculamos la varianza de la proporción utilizando \(n-1\) en el denominador para obtener un estimador insesgado. Se utilizaron las variables N y n globales para asegurar la coherencia sistémica de todo el documento. Finalmente, se aplicó la construcción simétrica basada en la distribución normal, obteniendo los límites inferior y superior mediante el producto del valor crítico y el error estándar

.


Conclusión técnica

A pesar de ser un intervalo más amplio que el de la media (debido a la naturaleza de las variables cualitativas), permite confirmar que al menos una cuarta parte de la población supera el umbral de gasto de 50€.

3.11 Tamaño reajustado con Chi-cuadrado


# Parámetros requeridos (usando el 'n' de 190 calculado al inicio)
alfa_chi <- 0.05

# 1. Obtención del valor crítico de la distribución Chi-cuadrado
# Se usan n-1 grados de libertad (189)
chi_valor <- qchisq(1 - alfa_chi, df = n - 1)

# 2. Aplicación de la fórmula de reajuste
# n_adj = n * (Chi^2 / gl)
n_reajustado <- n * (chi_valor / (n - 1))

# 3. Presentación de resultados finales
knitr::kable(
  data.frame(
    Concepto = c("Tamaño Original (n)", "Valor Crítico Chi-cuadrado", "Tamaño Reajustado Final"),
    Valor = c(n, round(chi_valor, 2), ceiling(n_reajustado))
  ),
  format = "html",
  table.attr = 'class="table table-bordered" style="width:100%;"',
  caption = "Tabla 8: Reajuste de precisión para la varianza poblacional."
)
Tabla 8: Reajuste de precisión para la varianza poblacional.
Concepto Valor
Tamaño Original (n) 190.00
Valor Crítico Chi-cuadrado 222.08
Tamaño Reajustado Final 224.00

Explicación metodológica

El reajuste por Chi-cuadrado es una técnica de optimización que busca garantizar la precisión de la varianza y no solo de la media. Dado que la varianza muestral sigue una distribución asimétrica (\(\chi^2\)), este ajuste aplica un factor de expansión que compensa dicha asimetría. Metodológicamente, esto asegura que el diseño sea robusto incluso si los datos presentan una dispersión mayor a la esperada, protegiendo el estudio contra la subestimación de la variabilidad.


Interpretación del resultado

El resultado indica que, para alcanzar una confianza del 95% en la estimación de la variabilidad, el tamaño de muestra debería incrementarse de 190 a 224 suscriptores. Este nuevo valor de \(n\) actúa como un margen de seguridad técnica, garantizando que los intervalos de confianza construidos para el gasto mensual sean estables y representen fielmente la realidad económica de la población.


Explicación del código en R

Se utilizó la función qchisq() para localizar el punto crítico de la distribución con \(n-1\) grados de libertad. El cálculo realiza una ponderación lineal entre el valor de Chi-cuadrado y sus grados de libertad, multiplicando el resultado por el \(n\) inicial. Finalmente, se aplicó ceiling() para obtener un número entero, cumpliendo con el requisito de expansión muestral para el control de la varianza. .


Conclusión técnica

El reajuste blinda el diseño muestral contra la subestimación del error. Garantiza que los intervalos de confianza y las pruebas de hipótesis posteriores sean robustos y no dependan de una muestra inusualmente homogénea.

MUESTREO DE BERNOULLI

Aplicación del diseño probabilístico para la variable Monthly Spend

Explicación

El Muestreo de Bernoulli es un diseño probabilístico en el cual cada unidad de la población es seleccionada de manera independiente con una probabilidad fija de inclusión \(\pi\). A diferencia del Muestreo Aleatorio Simple, el tamaño final de la muestra no es constante, sino aleatorio, ya que depende del resultado de múltiples ensayos Bernoulli independientes.

En esta sección se implementó el diseño de Muestreo Bernoulli para analizar la variable monthly_spend_eur, asociada al gasto mensual de los usuarios de la plataforma.





Cálculo del tamaño de muestra

\[ n = \frac{ N Z^2 pq }{ e^2 (N-1) + Z^2 pq } \]


# =========================================
# TAMAÑO DE MUESTRA - BERNOULLI
# =========================================

# Parámetros
N <- nrow(datos)

confianza <- 0.95

z <- qnorm(
  1 - (1 - confianza)/2
)

# Probabilidad de inclusión
p <- 0.25
q <- 1 - p

# Error máximo permitido
e <- 0.05

# Fórmula para población finita
n_bernoulli <- (
  N * z^2 * p * q
) / (
  (e^2 * (N - 1)) +
  (z^2 * p * q)
)

n_bernoulli <- ceiling(n_bernoulli)

knitr::kable(
  data.frame(
    Concepto = c(
      "Población (N)",
      "Nivel confianza",
      "Probabilidad (p)",
      "Complemento (q)",
      "Error máximo (e)",
      "Tamaño muestra"
    ),
    Valor = c(
      N,
      confianza,
      p,
      q,
      e,
      n_bernoulli
    )
  ),
  format = "html",
  table.attr='class="table table-bordered" style="width:100%;"'
)
Concepto Valor
Población (N) 10300.00
Nivel confianza 0.95
Probabilidad (p) 0.25
Complemento (q) 0.75
Error máximo (e) 0.05
Tamaño muestra 281.00

Explicación metodológica

El tamaño de muestra en Muestreo Bernoulli se obtiene utilizando una fórmula para poblaciones finitas que incorpora el nivel de confianza, la probabilidad de inclusión y el error máximo permitido.

En este diseño, la probabilidad \(p\) representa la proporción esperada de inclusión dentro de la población, mientras que \(q = 1-p\) corresponde a su complemento.

El cálculo permite determinar el número esperado de observaciones necesarias para garantizar estimaciones estadísticamente confiables.


Interpretación del resultado

El valor obtenido representa el tamaño esperado de muestra requerido para estimar parámetros poblacionales con un nivel de confianza del 95% y un error máximo permitido del 5%.


Conclusión técnica

El tamaño muestral calculado garantiza una adecuada precisión estadística bajo el esquema de Muestreo Bernoulli, permitiendo desarrollar inferencias válidas sobre la población.





Selección Bernoulli de la muestra

# =========================================
# SELECCIÓN BERNOULLI
# =========================================

# Probabilidad de inclusión
prob_inclusion <- n_bernoulli / N

set.seed(123)

seleccion <- rbinom(
  N,
  size = 1,
  prob = prob_inclusion
)

muestra_bernoulli <- datos[
  seleccion == 1,
]

knitr::kable(
  head(
    muestra_bernoulli[
      ,
      c(
        "monthly_spend_eur",
        "subscription_plan",
        "age"
      )
    ]
  ),
  format = "html",
  table.attr='class="table table-bordered" style="width:100%; font-size:13px;"'
)
monthly_spend_eur subscription_plan age
40.91 Basic 19
38.88 Standard 40
54.30 Standard 29
43.63 Premium 18
28.87 Premium 44
42.32 Family 65

Explicación metodológica

La selección Bernoulli consiste en generar, para cada unidad poblacional, un ensayo binomial independiente con probabilidad fija de inclusión.

Cada individuo tiene la misma probabilidad de ser seleccionado, pero el tamaño final de la muestra puede variar aleatoriamente debido a la naturaleza probabilística del diseño.


Interpretación del procedimiento

El procedimiento garantiza independencia entre las unidades seleccionadas y evita dependencias secuenciales dentro de la muestra.





Estimación de la media muestral

# =========================================
# MEDIA MUESTRAL
# =========================================

media_bernoulli <- mean(
  muestra_bernoulli$monthly_spend_eur
)

knitr::kable(
  data.frame(
    Concepto = "Media estimada",
    Valor = round(
      media_bernoulli,
      2
    )
  ),
  format = "html",
  table.attr='class="table table-bordered" style="width:100%;"'
)
Concepto Valor
Media estimada 46.01

Explicación metodológica

La media muestral constituye el principal estimador de tendencia central bajo el diseño Bernoulli. Este estimador aproxima el valor promedio del gasto mensual de todos los usuarios pertenecientes a la población.


Conclusión técnica

La media estimada representa una aproximación estadísticamente válida del comportamiento promedio del gasto mensual dentro de la población analizada.





Varianza de la media

# =========================================
# VARIANZA DE LA MEDIA
# =========================================

s2_bernoulli <- var(
  muestra_bernoulli$monthly_spend_eur
)

var_media_bernoulli <-
  s2_bernoulli /
  n_bernoulli

knitr::kable(
  data.frame(
    Concepto = "Varianza de la media",
    Valor = round(
      var_media_bernoulli,
      4
    )
  ),
  format = "html",
  table.attr='class="table table-bordered" style="width:100%;"'
)
Concepto Valor
Varianza de la media 0.6845

Explicación metodológica

La varianza de la media cuantifica la dispersión esperada de la media muestral respecto al verdadero parámetro poblacional.

Valores pequeños de varianza indican estimaciones más estables y precisas.





Error estándar

\[ EE(\bar{y}) = \sqrt{ V(\bar{y}) } \]


# =========================================
# ERROR ESTÁNDAR
# =========================================

ee_bernoulli <- sqrt(
  var_media_bernoulli
)

knitr::kable(
  data.frame(
    Concepto = "Error estándar",
    Valor = round(
      ee_bernoulli,
      4
    )
  ),
  format = "html",
  table.attr='class="table table-bordered" style="width:100%;"'
)
Concepto Valor
Error estándar 0.8274

Explicación metodológica

El error estándar representa la desviación típica de la distribución muestral de la media y permite medir directamente la precisión de las estimaciones.





Intervalo de confianza (95%)

# =========================================
# INTERVALO DE CONFIANZA
# =========================================

confianza <- 0.95

t_critico <- qt(
  1 - (1 - confianza)/2,
  df = n_bernoulli - 1
)

ic_inf <- media_bernoulli -
  t_critico * ee_bernoulli

ic_sup <- media_bernoulli +
  t_critico * ee_bernoulli

knitr::kable(
  data.frame(
    Limite = c(
      "Inferior",
      "Superior"
    ),
    Valor = round(
      c(ic_inf, ic_sup),
      2
    )
  ),
  format = "html",
  table.attr='class="table table-bordered" style="width:100%;"'
)
Limite Valor
Inferior 44.38
Superior 47.64

Explicación metodológica

El intervalo de confianza establece un rango plausible donde se espera encontrar la verdadera media poblacional con una probabilidad del 95%.


Conclusión técnica

La amplitud del intervalo permite evaluar la precisión alcanzada por el diseño Bernoulli en la estimación de la media poblacional.





Estimador Horvitz-Thompson

# =========================================
# ESTIMADOR HORVITZ-THOMPSON
# =========================================

Y_HT <- sum(
  muestra_bernoulli$monthly_spend_eur
) / prob_inclusion

total_real <- sum(
  datos$monthly_spend_eur
)

knitr::kable(
  data.frame(
    Concepto = c(
      "Total poblacional real",
      "Estimador HT del total"
    ),
    Valor = round(
      c(total_real, Y_HT),
      2
    )
  ),
  format = "html",
  table.attr='class="table table-bordered" style="width:100%;"'
)
Concepto Valor
Total poblacional real 467528.9
Estimador HT del total 440150.5

Explicación metodológica

El estimador de Horvitz-Thompson permite estimar el total poblacional corrigiendo las diferencias en probabilidades de inclusión mediante ponderaciones inversas.

Es uno de los estimadores fundamentales dentro de la teoría moderna de muestreo probabilístico.





Distribución del tamaño muestral

# =========================================
# DISTRIBUCIÓN DEL TAMAÑO MUESTRAL
# =========================================

set.seed(7)

R <- 5000

n_sim <- replicate(
  R,
  sum(
    rbinom(
      N,
      1,
      prob_inclusion
    )
  )
)

hist(
  n_sim,
  breaks = 30,
  probability = TRUE,
  main = "Distribución del tamaño muestral",
  xlab = "n observado",
  col = "pink",
  border = "white"
)

abline(
  v = N * prob_inclusion,
  col = "blue",
  lwd = 2,
  lty = 2
)

legend(
  "topright",
  legend = paste0(
    "E(n) = ",
    round(N * prob_inclusion,2)
  ),
  col = "blue",
  lty = 2,
  lwd = 2
)

Explicación metodológica

Debido a que el Muestreo Bernoulli genera tamaños muestrales aleatorios, se realizaron múltiples simulaciones para analizar el comportamiento de la distribución del tamaño de muestra observado.

La distribución obtenida tiende a concentrarse alrededor del tamaño esperado \(E(n)=N\pi\), validando el comportamiento teórico del diseño Bernoulli.


Conclusión técnica

El Muestreo Bernoulli permitió obtener estimaciones probabilísticas válidas e independientes para la variable de interés. La simulación del tamaño muestral confirmó la estabilidad del diseño y la coherencia entre el tamaño esperado y los tamaños observados en las repeticiones realizadas.

MUESTREO SISTEMÁTICO

Aplicación del diseño muestral para variables cuantitativas

Explicación

El Muestreo Sistemático es un diseño probabilístico en el cual las unidades de la población son seleccionadas a intervalos regulares a partir de un punto inicial aleatorio. Este procedimiento permite distribuir homogéneamente las observaciones dentro de toda la población, facilitando la representatividad de la muestra y reduciendo posibles concentraciones de unidades seleccionadas.

En esta sección se aplicó el Muestreo Sistemático para analizar las variables monthly_spend_eur y time_on_site_mins, asociadas al gasto mensual y tiempo promedio de permanencia de los usuarios dentro de la plataforma.





Selección sistemática de la muestra

\[ k = \frac{N}{n} \]


# =========================================
# MUESTREO SISTEMÁTICO
# =========================================

# Tamaño poblacional
N <- nrow(datos)

# Tamaño de muestra deseado
n_sis <- 300

# Intervalo sistemático
k <- floor(N / n_sis)

# Arranque aleatorio
set.seed(123)

r <- sample(1:k, 1)

# Índices sistemáticos
indices_sis <- seq(
  from = r,
  by = k,
  length.out = n_sis
)

# Construcción de la muestra
muestra_sis <- datos[indices_sis, ]

knitr::kable(
  data.frame(
    Concepto = c(
      "Población total (N)",
      "Tamaño muestra (n)",
      "Intervalo sistemático (k)",
      "Arranque aleatorio"
    ),
    Valor = c(N, n_sis, k, r)
  ),
  format = "html",
  table.attr = 'class="table table-bordered" style="width:100%; font-size:13px;"'
)
Concepto Valor
Población total (N) 10300
Tamaño muestra (n) 300
Intervalo sistemático (k) 34
Arranque aleatorio 31

Explicación metodológica

En el Muestreo Sistemático se calcula un intervalo de selección \(k\), obtenido como la razón entre el tamaño poblacional y el tamaño de muestra deseado.

Posteriormente se selecciona aleatoriamente un punto inicial entre 1 y \(k\), denominado arranque aleatorio. A partir de dicho valor, las siguientes unidades son seleccionadas sumando repetidamente el intervalo sistemático.

Este diseño permite recorrer toda la población de manera ordenada y uniforme, facilitando una adecuada cobertura poblacional.


Interpretación del procedimiento

El procedimiento garantiza que las observaciones seleccionadas se encuentren distribuidas a lo largo de toda la población, evitando acumulaciones de registros consecutivos dentro de la muestra.

Una limitación potencial del Muestreo Sistemático ocurre cuando existen patrones periódicos dentro de la base de datos que coinciden con el intervalo de selección, ya que esto podría introducir sesgos en las estimaciones.





Visualización de la muestra seleccionada

Gasto_Mensual_EUR Tiempo_Sitio_Min
49.16 1.139.176.654
59.64 1.222.433.125
46.81 1.336.096.247
49.77 1.326.431.411
41.59 3.171.432.037
48.89 4.581.068.969

Explicación metodológica

La tabla anterior presenta algunas de las observaciones seleccionadas mediante el procedimiento sistemático. Las unidades fueron extraídas respetando el intervalo de selección previamente calculado, asegurando así una distribución uniforme dentro del marco poblacional.





Estimación de medias poblacionales

# =========================================
# MEDIAS MUESTRALES
# =========================================

media_gasto <- mean(
  muestra_sis$monthly_spend_eur
)

media_tiempo <- mean(
  muestra_sis$time_on_site_mins
)
## Warning in mean.default(muestra_sis$time_on_site_mins): argument is not numeric
## or logical: returning NA
knitr::kable(
  data.frame(
    Variable = c(
      "Gasto mensual (€)",
      "Tiempo en sitio (min)"
    ),
    Media = round(
      c(media_gasto, media_tiempo),
      2
    )
  ),
  format = "html",
  table.attr = 'class="table table-bordered" style="width:100%;"'
)
Variable Media
Gasto mensual (€) 45.04
Tiempo en sitio (min) NA

Explicación metodológica

La media muestral constituye el principal estimador de tendencia central bajo un diseño probabilístico. En este caso, se calcularon las medias de las variables gasto mensual y tiempo de permanencia utilizando únicamente las observaciones seleccionadas mediante Muestreo Sistemático.


Interpretación del resultado

Las medias obtenidas representan estimaciones del comportamiento promedio de la población para ambas variables analizadas. Estos resultados permiten aproximar el patrón general de consumo y uso de la plataforma por parte de los usuarios.


Conclusión técnica

Las estimaciones de media obtenidas mediante Muestreo Sistemático muestran estabilidad estadística y una adecuada representación de las variables poblacionales analizadas.





Varianza de las medias

# =========================================
# VARIANZAS
# =========================================

s2_gasto <- var(
  muestra_sis$monthly_spend_eur
)

s2_tiempo <- var(
  muestra_sis$time_on_site_mins
)
## Warning in var(muestra_sis$time_on_site_mins): NAs introduced by coercion
var_media_gasto <- ((N - n_sis)/N) *
                   (s2_gasto / n_sis)

var_media_tiempo <- ((N - n_sis)/N) *
                    (s2_tiempo / n_sis)

knitr::kable(
  data.frame(
    Variable = c(
      "Gasto mensual",
      "Tiempo en sitio"
    ),
    Varianza = round(
      c(var_media_gasto,
        var_media_tiempo),
      4
    )
  ),
  format = "html",
  table.attr = 'class="table table-bordered" style="width:100%;"'
)
Variable Varianza
Gasto mensual 0.824
Tiempo en sitio NA

Explicación metodológica

La varianza de la media mide la variabilidad esperada de las estimaciones respecto al verdadero parámetro poblacional. Este cálculo incorpora el factor de corrección para poblaciones finitas, ajustando adecuadamente la precisión de los estimadores.


Interpretación del resultado

Valores reducidos de varianza indican que las medias estimadas presentan alta estabilidad y precisión respecto a los parámetros reales de la población.





Error estándar

\[ EE(\bar{y}) = \sqrt{V(\bar{y})} \]


# =========================================
# ERROR ESTÁNDAR
# =========================================

ee_gasto <- sqrt(var_media_gasto)

ee_tiempo <- sqrt(var_media_tiempo)

knitr::kable(
  data.frame(
    Variable = c(
      "Gasto mensual",
      "Tiempo en sitio"
    ),
    Error_Estandar = round(
      c(ee_gasto,
        ee_tiempo),
      4
    )
  ),
  format = "html",
  table.attr = 'class="table table-bordered" style="width:100%;"'
)
Variable Error_Estandar
Gasto mensual 0.9077
Tiempo en sitio NA

Explicación metodológica

El error estándar representa la desviación típica de la distribución muestral de la media. Expresa la precisión de las estimaciones utilizando las mismas unidades de medida originales de cada variable.


Interpretación estadística

Valores pequeños del error estándar indican que las medias obtenidas presentan poca variabilidad respecto a los verdaderos parámetros poblacionales.





Intervalos de confianza (95%)

# =========================================
# INTERVALOS DE CONFIANZA
# =========================================

confianza <- 0.95

t_critico <- qt(
  1 - (1 - confianza)/2,
  df = n_sis - 1
)

# Gasto mensual
ic_gasto_inf <- media_gasto -
                t_critico * ee_gasto

ic_gasto_sup <- media_gasto +
                t_critico * ee_gasto

# Tiempo en sitio
ic_tiempo_inf <- media_tiempo -
                 t_critico * ee_tiempo

ic_tiempo_sup <- media_tiempo +
                 t_critico * ee_tiempo

knitr::kable(
  data.frame(
    Variable = c(
      "Gasto mensual",
      "Tiempo en sitio"
    ),
    Limite_Inferior = round(
      c(ic_gasto_inf,
        ic_tiempo_inf),
      2
    ),
    Limite_Superior = round(
      c(ic_gasto_sup,
        ic_tiempo_sup),
      2
    )
  ),
  format = "html",
  table.attr = 'class="table table-bordered" style="width:100%;"'
)
Variable Limite_Inferior Limite_Superior
Gasto mensual 43.25 46.82
Tiempo en sitio NA NA

Explicación metodológica

Los intervalos de confianza permiten construir rangos plausibles donde se espera encontrar los verdaderos parámetros poblacionales con una probabilidad del 95%.


Interpretación del resultado

Los límites obtenidos indican el rango dentro del cual se espera que se encuentren las verdaderas medias poblacionales para ambas variables analizadas.


Conclusión técnica

El Muestreo Sistemático permitió obtener estimaciones precisas y estables para las variables estudiadas. La distribución regular de las observaciones dentro de la población contribuyó a mantener una adecuada representatividad estadística y bajos niveles de error muestral.