Presentado por:
Diego Diaz Herrera
David Mateo Betancourt
Docente:
Yissela Alejandra Leon Pineda
Fundacion Universitaria los libertadores Facultad de
ingenieria y ciencias basicas
2026
Trabajo presentado como requisito para la asignatura de
Muestreo
Variable de estudio: [Nombre de la
variable]
Título del Proyecto: Estudio de la variable mediante
técnicas de muestreo.
Línea de investigación:
Estadística Aplicada.
Institución: Fundación
Universitaria Los Libertadores.
Fecha de entrega:
26 de abril de 2026.
Aquí debes redactar en un solo párrafo (máximo 250 palabras) qué hiciste, cómo lo hiciste (tipo de muestreo) y a qué conclusión principal llegaste.
Palabras clave: Muestreo, Estimación, Variable [Nombre], Error de muestreo.
En esta sección se realiza un análisis exploratorio de
la base de datos con el fin de entender mejor cómo está organizada la
información y qué características presentan los datos antes de aplicar
los métodos de muestreo. Esta etapa es importante porque permite tener
una idea general del comportamiento de las variables y evitar posibles
errores en el análisis posterior.
Primero, se hace una
revisión básica de la calidad de los datos, identificando si existen
valores faltantes, datos duplicados o registros que puedan considerarse
atípicos. Esto es clave para asegurar que la información con la que se
va a trabajar sea lo más confiable posible.
Después, se
analizan las variables utilizando algunas medidas descriptivas como la
media, la mediana y la desviación estándar, con el objetivo de resumir
la información y entender cómo se distribuyen los datos. También se
utilizan gráficos como histogramas y diagramas de caja, que ayudan a
visualizar de forma más clara posibles patrones o comportamientos
importantes dentro de la base de datos.
Además, se revisan
posibles relaciones entre variables para ver si existe algún tipo de
asociación que pueda ser relevante en el estudio. Esto puede ayudar a
identificar ciertos grupos o comportamientos dentro de los datos, lo
cual podría ser útil más adelante al momento de aplicar técnicas de
muestreo.
En general, este análisis permite tener una mejor
comprensión de la información disponible y sirve como base para tomar
decisiones más acertadas en las siguientes etapas del proyecto,
reduciendo el riesgo de cometer errores y mejorando la calidad del
análisis final.
La investigación se fundamenta en un marco muestral
compuesto por N=10,291 suscriptores, lo que representa una base adecuada
para la aplicación de técnicas de muestreo probabilístico. Este tamaño
poblacional permite que la muestra final (n) tenga un nivel de
representatividad suficiente para realizar inferencias sobre el
comportamiento general de los usuarios del casino.
Es
importante señalar que la población objeto de estudio se limita a
suscriptores activos dentro del periodo de análisis, excluyendo
registros inactivos o incompletos. Esta delimitación contribuye a
mejorar la coherencia de los resultados y a reducir posibles sesgos
asociados a información inconsistente.
Cada unidad de
observación corresponde a un suscriptor individual, sobre el cual se
analizan variables como características socio-demográficas,
comportamientos transaccionales, niveles de lealtad e indicadores de
actividad relacionados con el juego. Estas variables permiten obtener
una visión más completa del comportamiento de la población dentro de
este contexto recreativo.
No obstante, es necesario considerar
que la base de datos puede presentar ciertas limitaciones, como sesgos
de registro o subrepresentación de algunos tipos de usuarios, lo cual
debe tenerse en cuenta al momento de interpretar los resultados.
|
|
Para garantizar un tratamiento estadístico adecuado, es
imperativo categorizar las variables según su escala de medición. Esta
clasificación dirige la elección de los estadísticos descriptivos y las
pruebas de hipótesis pertinentes para el estudio, a continuación, se
detalla la naturaleza de los datos contenidos en el marco muestral:
Variables Cualitativas (Categóricas) Representan atributos o cualidades que no pueden ser medidos numéricamente de forma intrínseca.
Nominales:
gender - Género del suscriptor. region - Ubicación geográfica (LATAM, APAC, AMER, etc.). payment_method - Método preferido de transacción. favourite_sport - Disciplina deportiva de mayor interés.
Ordinales:
subscription_plan - Nivel de suscripción (Basic, Standard, Premium), donde existe una jerarquía de servicios. gaming_engagement_level - Nivel de interacción con la plataforma (Low, Medium, High).
Variables Cuantitativas (Numéricas) Representan cantidades numéricas donde las operaciones aritméticas tienen un sentido físico.
Discretas:
age - Edad cronológica en años cumplidos.
loyalty_points - Puntos acumulados en el programa de lealtad (valores enteros).
Continuas:
monthly_spend_eur - Gasto mensual del usuario (Variable de interés principal).
betting_win_rate - Proporción de éxito en apuestas (valores entre 0 y 1).
time_on_site_mins - Tiempo de permanencia en la plataforma.
satisfaction_score - Escala de satisfacción percibida.
En seguida se mostrara una visual de la base de datos ya
limpia, donde podremos identificar los datos que mecionabamos
previamente, sim embargo para entrar más a detalle con los diferentes
errores, caracteres e irregularidades con los que venian los datos, en
el siguiente segmento se explicara todas las falencias hayadas en esta
base de datos.
Antes de proceder con el cálculo de estadísticos,
se realizó una fase de curaduría de datos. Un análisis descriptivo sobre
datos “sucios” invalidaría cualquier inferencia posterior, especialmente
en el cálculo de la varianza poblacional.
Acciones de
Limpieza Realizadas:
Estandarización
Financiera: La variable monthly_spend_eur presentaba caracteres
no numéricos (símbolos de moneda y espacios). Se eliminaron estos
elementos y se realizó una conversión a tipo de dato numérico (float)
para permitir operaciones aritméticas.
Corrección de
Escalas Temporales: Se identificó que la variable
time_on_site_mins contenía separadores de miles que impedían su lectura
correcta. Se procedió a normalizar la cifra para obtener valores
continuos reales.
Tratamiento de Datos Atípicos
Iniciales: Durante la exploración se detectaron valores
negativos en el gasto (p. ej., -67.47), los cuales fueron identificados
como posibles errores de registro que deben ser considerados al momento
de la estimación.Nota Técnica: La base de datos final tras la depuración
mantiene la integridad de los \(N =
10,291\) registros, asegurando que no haya pérdida de información
crítica para el diseño muestral.
Tras la limpieza de datos que hicimos, nos enfocamos en la
variable Gasto Mensual (“monthly_spend_eur”). El objetivo es identificar
el comportamiento típico del suscriptor y la variabilidad de sus
consumos, factores determinantes para el cálculo del error muestral.
| Estadistico | Valor_Euros |
|---|---|
| Media | 45.39 |
| Mediana | 46.34 |
| Primer cuartil | 39.50 |
| Tercer cuartil | 53.14 |
| Desviacion estandar | 14.17 |
| Valor minimo | -67.47 |
| Valor maximo | 137.62 |
par(mfrow = c(1, 2))
# Histograma
hist(datos$monthly_spend_eur,
main="Distribución de Gasto",
xlab="Euros",
col="skyblue",
border="white",
breaks=30)
#Boxplot
boxplot(datos$monthly_spend_eur,
main="Detección de Atípicos",
col="lightgreen",
ylab="Euros")Tras la caracterización de la variable Gasto Mensual, se derivan las siguientes conclusiones técnicas fundamentales para la configuración del diseño de muestreo:
Morfología de la Distribución: El histograma revela una distribución unimodal con una platicurtosis leve, concentrando la mayor densidad de frecuencia en el intervalo de los 40 a 55 EUR. La tendencia hacia la simetría sugiere que la población se aproxima razonablemente a una distribución normal, lo que respalda la robustez de los estimadores bajo métodos de muestreo probabilístico estándar.
Análisis de Dispersión y Cuartiles:El Rango Intercuartílico (RIC), que comprende el 50% central de la población, se sitúa entre 39.50 y 53.14 EUR. Esta baja dispersión en el núcleo de los datos indica una homogeneidad considerable en el comportamiento de gasto de la mayoría de los suscriptores.
No obstante, el segmento posicionado sobre el tercer cuartil (Q3) muestra un desplazamiento hacia valores extremos, alcanzando los 137.62 EUR, lo que marca el inicio de la caracterización de clientes de alto valor.
Detección de Valores Atípicos (Outliers): El análisis de diagrama de caja identifica valores atípicos en ambos extremos, destacando valores negativos que han sido catalogados como errores de registro. Desde la perspectiva de la teoría de muestreo, estos outliers son determinantes, ya que inflan artificialmente la varianza poblacional (\(\sigma^2\)), lo que impacta directamente de forma proporcional en el tamaño de muestra \(n\) requerido
Implicaciones Críticas para el Muestreo: Considerando que la población de \(N=10,291\) registros presenta asimetría por valores extremos, el diseño debe contemplar un margen de error controlado y un nivel de confianza del 95%. Estos hallazgos sugieren que, para optimizar la precisión, se podría evaluar un muestreo estratificado que separe los valores atípicos para no sesgar el error de estimación del gasto promedio.
En esta sección se aplica el diseño de Muestreo Aleatorio Simple (MAS) para estimar parámetros poblacionales asociados a la variable monthly_spend_eur. Este método garantiza que cada unidad del marco poblacional tenga la misma probabilidad de ser seleccionada, permitiendo construir estimaciones insesgadas y estadísticamente válidas.
El valor de 166.97 representa la dispersión promedio al cuadrado del gasto mensual de los suscriptores. Indica que los datos presentan una heterogeneidad moderada; una varianza de este nivel sugiere que, aunque hay un núcleo de consumo constante, existen desviaciones importantes que deben ser capturadas por el tamaño de la muestra para no perder representatividad.
En R, se utilizó la función base var(), la cual implementa automáticamente el denominador \(n-1\). Previo a esto, fue imperativo realizar una limpieza de la columna monthly_spend_eur mediante expresiones regulares para eliminar caracteres no numéricos (€) y asegurar que el vector fuera de tipo double, permitiendo así el cálculo de momentos estadísticos.
La magnitud de la varianza muestral obtenida es un indicador de la eficiencia del diseño. Al ser un estimador insesgado, nos permite proceder con el cálculo del error estándar y la construcción de intervalos con la seguridad de que la variabilidad poblacional está siendo correctamente reflejada.
|
Explicación metodológicaEsta fórmula permite determinar el número mínimo de observaciones necesarias para representar adecuadamente la población de 10,291 suscriptores. Para el cálculo, se estableció un nivel de confianza del 95% (correspondiente a un valor crítico \(Z = 1.96\)), una desviación estándar de 14.17 € y un error máximo permitido de 2 €. El uso de la fórmula para poblaciones finitas asegura que el tamaño de muestra sea proporcional al marco poblacional real. |
El valor obtenido indica que se deben seleccionar al menos 190 suscriptores para estimar el gasto mensual promedio con la precisión estadística requerida. Este tamaño de muestra garantiza que los resultados obtenidos tengan la potencia suficiente para ser extrapolados a la totalidad de la base de datos con un margen de error controlado.
En R, se parametrizó el diseño utilizando \(N = 10,291\) y \(Z = 1.96\). Se implementó la fórmula de Cochran para poblaciones finitas de forma desglosada (numerador y denominador) para evitar errores de jerarquía de operaciones. Finalmente, se aplicó la función ceiling() al resultado de 189.04, lo que eleva el tamaño final a 190 unidades, cumpliendo con el rigor de no subestimar el tamaño muestral necesario
Finalmente, el valor obtenido fue organizado en formato tabular para facilitar su presentación e interpretación dentro del informe.
El tamaño de muestra calculado garantiza que las estimaciones obtenidas a partir de la muestra sean estadísticamente representativas de la población total, permitiendo desarrollar el estudio con precisión y control del error muestral.
|
Una vez calculado el tamaño de muestra, se realizó la selección aleatoria de las unidades muestrales mediante un esquema de Muestreo Aleatorio Simple sin reemplazo. Este procedimiento garantiza que todos los individuos de la población tengan la misma probabilidad de ser seleccionados. Para asegurar la reproducibilidad del proceso estadístico, se utilizó
una semilla aleatoria mediante la función
|
Explicación metodológicaUna vez determinado el tamaño óptimo, se procedió a la selección de las unidades mediante un Muestreo Aleatorio Simple Sin Reemplazo (MAS-SR). En este esquema, cada suscriptor de la base de datos de 10,291 registros tuvo exactamente la misma probabilidad de inclusión (\(n/N \approx 0.0184\)). Este método elimina el sesgo de selección y es la base para que las inferencias posteriores sobre el gasto mensual sean válidas y generalizables. Explicación del código en RSe utilizó la función sample() para extraer \(n=190\) índices únicos del marco poblacional. Es fundamental destacar el uso de set.seed(123), una instrucción que ‘congela’ la aleatoriedad de R; esto garantiza la reproducibilidad del estudio, permitiendo que cualquier auditor o analista obtenga exactamente los mismos resultados al ejecutar el código nuevamente. Interpretación del ResultadoLa tabla muestra los primeros registros de la muestra seleccionada. Al utilizar un proceso aleatorio, observamos una mezcla natural de planes de suscripción (Premium, Standard, Basic) y diversas edades, lo que confirma que la muestra ha capturado la diversidad inherente a la población original sin intervención del investigador. Conclusión técnicaEl tamaño de muestra calculado garantiza que las estimaciones obtenidas a partir de la muestra sean estadísticamente representativas de la población total, permitiendo desarrollar el estudio con precisión y control del error muestral. |
|
Explicación metodológicaEl estimador del total poblacional (\(\hat{Y}\)) es una expansión de la media muestral hacia la totalidad del universo de estudio. Bajo el diseño M.A.S., este se calcula multiplicando el tamaño poblacional (\(N = 10,291\)) por el promedio observado en la muestra. Este procedimiento es fundamental para la planificación financiera, ya que permite proyectar ingresos globales basándose únicamente en el comportamiento de los 190 suscriptores seleccionados |
Considerando que la media muestral es de aproximadamente 45.52 €, el gasto total estimado para la población completa asciende a 468,446.32 € (el valor exacto dependerá de la muestra aleatoria obtenida). Este resultado representa el volumen económico mensual que la empresa percibe por parte de su base de suscriptores, permitiendo dimensionar el mercado real
En R, se utilizó la función mean() para obtener el estimador puntual de la media. Posteriormente, se realizó una operación aritmética simple multiplicando este valor por la constante N definida al inicio del documento. El uso de format(big.mark = “,”) en la salida asegura que los valores monetarios sean legibles y profesionales.
|
Explicación metodológicaLa varianza de la media (\(\widehat{V}(\bar{y})\)) cuantifica la incertidumbre de nuestra estimación. A diferencia de la varianza común, esta incorpora el Factor de Corrección por Población Finita (FPC), el cual ajusta la precisión al reconocer que hemos extraído una muestra significativa de un total de 10,291 suscriptores. Por su parte, el Error Estándar traduce esta varianza a las unidades originales de la variable (euros), permitiéndonos conocer la desviación típica esperada de nuestra media respecto al valor real poblacional. |
El error estándar de 0.93 € indica una precisión sobresaliente. Esto significa que, en promedio, nuestra estimación de 45.52 € solo se desvía menos de un euro del verdadero promedio de toda la población. Al ser menor al error máximo permitido de 2 €, confirmamos que el diseño es altamente confiable.
Se calculó primero la cuasivarianza muestral con var(). Posteriormente, se aplicó la fórmula de la varianza de la media multiplicando por el factor \((N-n)/N\). Finalmente, se obtuvo el error estándar mediante la función sqrt(). Este desglosamiento asegura que el impacto de la finitud de la población sea contabilizado correctamente en la métrica de error.
La varianza de la media permite evaluar el nivel de precisión estadística alcanzado por el diseño muestral aplicado.
|
\(S_{\bar{y}} = \sqrt{\widehat{V}(\bar{y})}\)
|
Explicación metodológicaEl error estándar es la raíz cuadrada de la varianza de la media. Expresa la desviación típica de la distribución muestral de la media en las mismas unidades de medida que la variable original (euros). Es la métrica estándar para reportar la precisión de una estimación en publicaciones científicas y técnicas. |
El error estándar de 0.93 € significa que, en términos de desviación típica, la media muestral se encuentra a menos de un euro de distancia de la verdadera media poblacional.
Se utilizó la función sqrt() aplicada al resultado de la varianza de la media calculada anteriormente. Este valor se utiliza directamente como el “radio” para construir los márgenes de error.
El bajo error estándar (inferior al margen de error de 2€ propuesto inicialmente) valida que la muestra no solo es representativa, sino que excede los requisitos mínimos de precisión.
|
Explicación metodológicaEl intervalo de confianza define el rango de valores dentro del cual esperamos encontrar la verdadera media poblacional con una probabilidad del 95%. Este cálculo utiliza el error estándar y el valor crítico de la distribución normal (\(Z=1.96\)). Es una herramienta de inferencia superior a la media puntual, ya que reconoce explícitamente el margen de error inherente al proceso de muestreo. |
Con un nivel de confianza del 95%, se estima que el verdadero gasto promedio mensual de todos los suscriptores se encuentra entre 43.70 € y 47.34 €. Dado que este rango es estrecho (amplitud de 3.64 €), podemos concluir que nuestra estimación es altamente precisa y útil para proyecciones de ingresos.
Se utilizó la función qnorm() para obtener el valor crítico exacto de la distribución normal. Los límites se construyeron de forma simétrica sumando y restando el margen de error a la media muestral. Finalmente, se formateó la salida en euros para mantener la coherencia con los informes financieros de la organización.
La amplitud del intervalo es de apenas 3.64 €, lo que demuestra una precisión excepcional para la toma de decisiones estratégicas, como el ajuste de tarifas de suscripción.
|
\(p = \frac{a}{n}\)
|
Explicación metodológicaLa proporción muestral (\(p\)) estima la frecuencia relativa de una característica específica dentro de la población. En este análisis, nos enfocamos en identificar el segmento de alto consumo, definido como aquellos suscriptores cuyo gasto mensual supera los 50 €. Al tratarse de una variable dicotómica, su comportamiento se modela bajo una distribución de Bernoulli, siendo la base para segmentar el mercado y entender el peso de los clientes de mayor valor. |
El valor de 0.3421 (o 34.21%) indica que poco más de una tercera parte de la muestra pertenece al segmento de alto consumo. Este dato es vital, pues sugiere que una porción significativa de la base de datos genera ingresos por encima del promedio, lo que permite dirigir estrategias de fidelización hacia este grupo específico.”
En R, se generó un vector lógico evaluando la condición monthly_spend_eur > 50. Al aplicar la función sum(), contamos cuántos registros cumplen la condición, y al dividir por n, obtenemos la proporción. Este método es más directo y coherente con los objetivos financieros que filtrar por categorías de planes, ya que se basa en el comportamiento real de gasto.
Se generó un vector lógico evaluando muestra > 50 y se calculó su media mediante mean(). En R, el promedio de un vector lógico convierte automáticamente los TRUE en 1 y los FALSE en 0, obteniendo la proporción..
|
Explicación metodológicaEl error estándar de una proporción permite medir la precisión de una proporción estimada dentro de la muestra respecto a la proporción poblacional real. Este estimador incorpora la corrección por población finita, ajustando la precisión de la estimación cuando se trabaja con poblaciones conocidas y limitadas. En este estudio, la proporción fue calculada tomando como referencia los usuarios pertenecientes al plan Premium dentro de la muestra seleccionada. |
Inicialmente se calculó la proporción de usuarios Premium dentro de la muestra mediante una comparación lógica sobre la variable subscription_plan. Posteriormente, se obtuvo el complemento de la proporción (q = 1-p) y finalmente se aplicó la fórmula del error estándar para proporciones bajo Muestreo Aleatorio Simple.
El resultado fue organizado en formato tabular para facilitar su interpretación.
|
Explicación metodológicaEl intervalo de confianza para la proporción define el rango probabilístico donde se ubica el porcentaje real de la población (\(P\)). Al igual que con la media, incorporamos el Factor de Corrección por Población Finita (FPC) para ajustar la precisión, dado que nuestra muestra representa una fracción conocida del universo de 10,291 suscriptores. Este cálculo es esencial para validar si el segmento de alto consumo identificado en la muestra es lo suficientemente estable como para basar en él decisiones de negocio. |
Se estima con un 95% de confianza que la proporcion real de suscriptores que gastan más de 50 € en la población total se encuentra entre el 27.51% y el 40.91%. Dado que el límite inferior está cómodamente por encima del 25%, podemos confirmar con seguridad estadística que al menos una cuarta parte de nuestros clientes son de alto valor..
En el código, calculamos la varianza de la proporción utilizando \(n-1\) en el denominador para obtener un estimador insesgado. Se utilizaron las variables N y n globales para asegurar la coherencia sistémica de todo el documento. Finalmente, se aplicó la construcción simétrica basada en la distribución normal, obteniendo los límites inferior y superior mediante el producto del valor crítico y el error estándar
.
|
Explicación metodológicaEl reajuste por Chi-cuadrado es una técnica de optimización que busca garantizar la precisión de la varianza y no solo de la media. Dado que la varianza muestral sigue una distribución asimétrica (\(\chi^2\)), este ajuste aplica un factor de expansión que compensa dicha asimetría. Metodológicamente, esto asegura que el diseño sea robusto incluso si los datos presentan una dispersión mayor a la esperada, protegiendo el estudio contra la subestimación de la variabilidad. |
El resultado indica que, para alcanzar una confianza del 95% en la estimación de la variabilidad, el tamaño de muestra debería incrementarse de 190 a 224 suscriptores. Este nuevo valor de \(n\) actúa como un margen de seguridad técnica, garantizando que los intervalos de confianza construidos para el gasto mensual sean estables y representen fielmente la realidad económica de la población.
Se utilizó la función qchisq() para localizar el punto crítico de la distribución con \(n-1\) grados de libertad. El cálculo realiza una ponderación lineal entre el valor de Chi-cuadrado y sus grados de libertad, multiplicando el resultado por el \(n\) inicial. Finalmente, se aplicó ceiling() para obtener un número entero, cumpliendo con el requisito de expansión muestral para el control de la varianza. .
El reajuste blinda el diseño muestral contra la subestimación del error. Garantiza que los intervalos de confianza y las pruebas de hipótesis posteriores sean robustos y no dependan de una muestra inusualmente homogénea.
El Muestreo de Bernoulli es un diseño probabilístico en el cual cada unidad de la población es seleccionada de manera independiente con una probabilidad fija de inclusión \(\pi\). A diferencia del Muestreo Aleatorio Simple, el tamaño final de la muestra no es constante, sino aleatorio, ya que depende del resultado de múltiples ensayos Bernoulli independientes.
En esta sección se implementó el diseño de Muestreo Bernoulli para analizar la variable monthly_spend_eur, asociada al gasto mensual de los usuarios de la plataforma.
|
\[ n = \frac{ N Z^2 pq }{ e^2 (N-1) + Z^2 pq } \]
|
Explicación metodológicaEl tamaño de muestra en Muestreo Bernoulli se obtiene utilizando una fórmula para poblaciones finitas que incorpora el nivel de confianza, la probabilidad de inclusión y el error máximo permitido. En este diseño, la probabilidad \(p\) representa la proporción esperada de inclusión dentro de la población, mientras que \(q = 1-p\) corresponde a su complemento. El cálculo permite determinar el número esperado de observaciones necesarias para garantizar estimaciones estadísticamente confiables. |
El valor obtenido representa el tamaño esperado de muestra requerido para estimar parámetros poblacionales con un nivel de confianza del 95% y un error máximo permitido del 5%.
El tamaño muestral calculado garantiza una adecuada precisión estadística bajo el esquema de Muestreo Bernoulli, permitiendo desarrollar inferencias válidas sobre la población.
|
Explicación metodológicaLa selección Bernoulli consiste en generar, para cada unidad poblacional, un ensayo binomial independiente con probabilidad fija de inclusión. Cada individuo tiene la misma probabilidad de ser seleccionado, pero el tamaño final de la muestra puede variar aleatoriamente debido a la naturaleza probabilística del diseño. |
El procedimiento garantiza independencia entre las unidades seleccionadas y evita dependencias secuenciales dentro de la muestra.
|
Explicación metodológicaLa media muestral constituye el principal estimador de tendencia central bajo el diseño Bernoulli. Este estimador aproxima el valor promedio del gasto mensual de todos los usuarios pertenecientes a la población. |
La media estimada representa una aproximación estadísticamente válida del comportamiento promedio del gasto mensual dentro de la población analizada.
|
Explicación metodológicaLa varianza de la media cuantifica la dispersión esperada de la media muestral respecto al verdadero parámetro poblacional. Valores pequeños de varianza indican estimaciones más estables y precisas. |
|
\[ EE(\bar{y}) = \sqrt{ V(\bar{y}) } \]
|
Explicación metodológicaEl error estándar representa la desviación típica de la distribución muestral de la media y permite medir directamente la precisión de las estimaciones. |
|
Explicación metodológicaEl intervalo de confianza establece un rango plausible donde se espera encontrar la verdadera media poblacional con una probabilidad del 95%. |
La amplitud del intervalo permite evaluar la precisión alcanzada por el diseño Bernoulli en la estimación de la media poblacional.
|
Explicación metodológicaEl estimador de Horvitz-Thompson permite estimar el total poblacional corrigiendo las diferencias en probabilidades de inclusión mediante ponderaciones inversas. Es uno de los estimadores fundamentales dentro de la teoría moderna de muestreo probabilístico. |
|
Explicación metodológicaDebido a que el Muestreo Bernoulli genera tamaños muestrales aleatorios, se realizaron múltiples simulaciones para analizar el comportamiento de la distribución del tamaño de muestra observado. La distribución obtenida tiende a concentrarse alrededor del tamaño esperado \(E(n)=N\pi\), validando el comportamiento teórico del diseño Bernoulli. |
El Muestreo Bernoulli permitió obtener estimaciones probabilísticas válidas e independientes para la variable de interés. La simulación del tamaño muestral confirmó la estabilidad del diseño y la coherencia entre el tamaño esperado y los tamaños observados en las repeticiones realizadas.
El Muestreo Sistemático es un diseño probabilístico en el cual las unidades de la población son seleccionadas a intervalos regulares a partir de un punto inicial aleatorio. Este procedimiento permite distribuir homogéneamente las observaciones dentro de toda la población, facilitando la representatividad de la muestra y reduciendo posibles concentraciones de unidades seleccionadas.
En esta sección se aplicó el Muestreo Sistemático para analizar las variables monthly_spend_eur y time_on_site_mins, asociadas al gasto mensual y tiempo promedio de permanencia de los usuarios dentro de la plataforma.
|
\[ k = \frac{N}{n} \]
|
Explicación metodológicaEn el Muestreo Sistemático se calcula un intervalo de selección \(k\), obtenido como la razón entre el tamaño poblacional y el tamaño de muestra deseado. Posteriormente se selecciona aleatoriamente un punto inicial entre 1 y \(k\), denominado arranque aleatorio. A partir de dicho valor, las siguientes unidades son seleccionadas sumando repetidamente el intervalo sistemático. Este diseño permite recorrer toda la población de manera ordenada y uniforme, facilitando una adecuada cobertura poblacional. |
El procedimiento garantiza que las observaciones seleccionadas se encuentren distribuidas a lo largo de toda la población, evitando acumulaciones de registros consecutivos dentro de la muestra.
Una limitación potencial del Muestreo Sistemático ocurre cuando existen patrones periódicos dentro de la base de datos que coinciden con el intervalo de selección, ya que esto podría introducir sesgos en las estimaciones.
|
Explicación metodológicaLa tabla anterior presenta algunas de las observaciones seleccionadas mediante el procedimiento sistemático. Las unidades fueron extraídas respetando el intervalo de selección previamente calculado, asegurando así una distribución uniforme dentro del marco poblacional. |
|
Explicación metodológicaLa media muestral constituye el principal estimador de tendencia central bajo un diseño probabilístico. En este caso, se calcularon las medias de las variables gasto mensual y tiempo de permanencia utilizando únicamente las observaciones seleccionadas mediante Muestreo Sistemático. |
Las medias obtenidas representan estimaciones del comportamiento promedio de la población para ambas variables analizadas. Estos resultados permiten aproximar el patrón general de consumo y uso de la plataforma por parte de los usuarios.
Las estimaciones de media obtenidas mediante Muestreo Sistemático muestran estabilidad estadística y una adecuada representación de las variables poblacionales analizadas.
|
Explicación metodológicaLa varianza de la media mide la variabilidad esperada de las estimaciones respecto al verdadero parámetro poblacional. Este cálculo incorpora el factor de corrección para poblaciones finitas, ajustando adecuadamente la precisión de los estimadores. |
Valores reducidos de varianza indican que las medias estimadas presentan alta estabilidad y precisión respecto a los parámetros reales de la población.
|
\[ EE(\bar{y}) = \sqrt{V(\bar{y})} \]
|
Explicación metodológicaEl error estándar representa la desviación típica de la distribución muestral de la media. Expresa la precisión de las estimaciones utilizando las mismas unidades de medida originales de cada variable. |
Valores pequeños del error estándar indican que las medias obtenidas presentan poca variabilidad respecto a los verdaderos parámetros poblacionales.
|
Explicación metodológicaLos intervalos de confianza permiten construir rangos plausibles donde se espera encontrar los verdaderos parámetros poblacionales con una probabilidad del 95%. |
Los límites obtenidos indican el rango dentro del cual se espera que se encuentren las verdaderas medias poblacionales para ambas variables analizadas.
El Muestreo Sistemático permitió obtener estimaciones precisas y estables para las variables estudiadas. La distribución regular de las observaciones dentro de la población contribuyó a mantener una adecuada representatividad estadística y bajos niveles de error muestral.