Análisis de Mercado CAM: Estimación de Ventas mediante Técnicas de Muestreo Estadístico
Valentina Martín
Jhessely Alejandra Guerrero
Resumen
El presente trabajo aplicó cuatro técnicas de muestreo estadístico —muestreo aleatorio simple (MAS), muestreo estratificado, muestreo Bernoulli y muestreo sistemático— sobre una base de datos de 7,424 tiendas del mercado CAM, obtenida tras depurar valores atípicos de un registro original de 10,000 observaciones. La variable principal fue ventas_valor (en pesos colombianos), complementada con ventas_unidades. El muestreo estratificado por cadena comercial produjo el menor error estándar (SE = 15.89) frente al MAS (SE = 16.88), siendo el diseño más recomendado para esta población heterogénea. Los métodos Bernoulli y sistemático demostraron ser alternativas viables con errores relativos bajos y menor costo operativo.
Palabras clave: muestreo aleatorio simple, muestreo estratificado, muestreo Bernoulli, muestreo sistemático, estimación de ventas.
El análisis de mercado es esencial para que las cadenas comerciales tomen decisiones bien informadas sobre distribución, inventarios y estrategia de ventas. Cuando la población es grande —como en este caso, con miles de tiendas en varias cadenas— realizar un censo completo resulta costoso e innecesario si se aplican correctamente las técnicas de muestreo estadístico.
Este informe compara cuatro diseños muestrales para estimar el valor promedio y el total de ventas del mercado CAM: el muestreo aleatorio simple (MAS), el estratificado por cadena, el Bernoulli y el sistemático. La base original contó con 10,000 registros; tras la depuración de valores atípicos, la población de trabajo quedó conformada por 7,424 tiendas, que constituyen el universo de estudio.
La base de datos ANALISIS_DE_MERCADO_CAM.csv contiene registros de ventas a nivel de tienda. En su versión original tiene 10,000 registros. Tras la depuración, la población de trabajo quedó con 7,424 registros (74.2% del total original). El 25.8% restante fue eliminado por valores fuera de los límites IQR.
Las variables disponibles son:
Para garantizar estimaciones confiables se realizó depuración de valores atípicos con el método IQR en ambas variables numéricas.
Para ventas_valor:
Para ventas_unidades:
| Estadístico | ventas_valor ($) | ventas_unidades |
|---|---|---|
| N (registros) | 7,424 | 7,424 |
| Media | 658.3 | 174.92 |
| Mediana | 241.48 | 61.5 |
| Q1 (25%) | 52.05 | 11 |
| Q3 (75%) | 801.17 | 240.25 |
| Mínimo | 0 | 0 |
| Máximo | 6625.03 | 1059 |
| Desv. estándar | 1020.58 | 242.64 |
| Coef. variación (%) | 155 | 138.7 |
Nota. El coeficiente de variación elevado (> 30%) indica alta heterogeneidad, lo que justifica el muestreo estratificado.
La variable de interés principal es ventas_valor, que representa el valor en pesos colombianos de las ventas de cada tienda. Su media poblacional es de 658.3 pesos y su total real asciende a 4,887,192 pesos. La mediana (241.48) es menor que la media, lo que indica una distribución con asimetría positiva: la mayoría de las tiendas vende por debajo del promedio, pero algunas con ventas muy altas elevan la media. El coeficiente de variación del 155% confirma esta dispersión elevada.
Figura 1
Figura 1. Distribución de ventas_valor y ventas_unidades tras la depuración. La línea representa la densidad estimada.
Figura 2
Figura 2. Boxplot de ventas_valor por cadena (10 cadenas con más registros). Se observan diferencias claras entre cadenas, justificando la estratificación.
El Muestreo Aleatorio Simple (MAS) selecciona \(n\) unidades de la población de tamaño \(N\) de manera que todos los posibles subconjuntos de tamaño \(n\) tienen la misma probabilidad de ser elegidos. Es el diseño más básico y sirve como referencia para comparar con los demás.
Se fijó un margen de error del 5% sobre la media de ventas_valor y un nivel de confianza del 95% (\(z = 1.96\)).
\[n = \frac{N \cdot z^2 \cdot S^2}{E^2(N-1) + z^2 \cdot S^2}\]
\[n = \frac{7,424\times 3.8416 \times 1.0415916\times 10^{6}}{(32.91)^2 \times (7,424-1) + 3.8416 \times 1.0415916\times 10^{6}} \approx 2467\]
Tamaño de muestra MAS: \(n = 2467\) tiendas
La muestra fue seleccionada aleatoriamente con
set.seed(123) para garantizar reproducibilidad.
Media estimada: \(\hat{\bar{Y}} = \dfrac{1}{n}\displaystyle\sum_{i=1}^{n} y_i\)
Total estimado: \(\hat{Y} = N \cdot \hat{\bar{Y}}\)
Error estándar: \(SE = \sqrt{\left(1 - \dfrac{n}{N}\right)\dfrac{s^2}{n}}\)
IC 95%: \(\hat{\bar{Y}} \pm 1.96 \cdot SE\)
| Variable | n | Media real | Media estimada | Total estimado | Error estándar | IC 95% |
|---|---|---|---|---|---|---|
| ventas_valor | 2467 | 658.30 | 655.37 | 4,865,490 | 16.88 | [622.28 ; 688.46] |
| ventas_unidades | 2467 | 174.92 | 170.63 | 1,266,779 | 3.94 | [162.9 ; 178.36] |
| Medida | Valor real | Valor estimado MAS | Error relativo |
|---|---|---|---|
| Media ventas_valor (\() </td> <td style="text-align:center;"> 658.3 </td> <td style="text-align:center;"> 655.37 </td> <td style="text-align:center;"> 0.44% </td> </tr> <tr> <td style="text-align:left;"> Total ventas_valor (\)) | 4,887,192 | 4,865,490 | 0.44% |
| Media ventas_unidades | 174.92 | 170.63 | 2.45% |
El MAS con \(n = 2467\) tiendas estimó una media de ventas_valor de \(655.37\) pesos, con un error relativo del 0.44% respecto a la media real. El intervalo de confianza al 95% [622.28 ; 688.46] contiene el valor real (658.3), confirmando que el diseño funciona correctamente. Sin embargo, el tamaño de muestra requerido (2467 tiendas) es considerablemente grande, lo que representa un costo operativo alto en comparación con los demás diseños.
El muestreo estratificado divide la población en grupos mutuamente excluyentes (estratos) y selecciona una muestra dentro de cada uno. Cuando hay diferencias claras entre grupos —como ocurre entre las distintas cadenas del mercado CAM— este diseño produce estimaciones más precisas que el MAS.
La variable de estratificación es cadena. Se identificaron 29 cadenas en la base depurada, con tamaños que van desde 63 hasta 1187 tiendas.
\[n_h = n \cdot \frac{N_h}{N}\]
| Cadena | N_h (tamaño estrato) | n_h (muestra asignada) | w_h (peso) | |
|---|---|---|---|---|
| 27 | Walmart | 1187 | 394 | 0.1599 |
| 21 | Super 99 | 488 | 162 | 0.0657 |
| 19 | Rey | 397 | 132 | 0.0535 |
| 22 | Super Carnes | 354 | 118 | 0.0477 |
| 7 | La Colonia | 326 | 108 | 0.0439 |
| 10 | Machetazo | 324 | 108 | 0.0436 |
| 24 | Super Xtra | 316 | 105 | 0.0426 |
| 12 | Maxi Despensa | 315 | 105 | 0.0424 |
| 20 | Romero | 310 | 103 | 0.0418 |
| 17 | Paiz | 304 | 101 | 0.0409 |
| 16 | Mr. Precio | 301 | 100 | 0.0405 |
| 13 | Maxi Pali | 300 | 100 | 0.0404 |
| 25 | Super Xtra Feria | 269 | 89 | 0.0362 |
| 11 | Mas X Menos | 228 | 76 | 0.0307 |
| 5 | Hiper Rey | 227 | 75 | 0.0306 |
| 2 | Automercado | 225 | 75 | 0.0303 |
| 15 | Metro Plus | 222 | 74 | 0.0299 |
| 8 | La Despensa de Don Juan | 170 | 56 | 0.0229 |
| 23 | Super Selectos | 161 | 54 | 0.0217 |
| 14 | Megasuper | 153 | 51 | 0.0206 |
| 9 | La Union | 134 | 45 | 0.0180 |
| 4 | Farma Ahorro | 120 | 40 | 0.0162 |
| 29 | ZAZ | 105 | 35 | 0.0141 |
| 28 | Xtra Farma | 104 | 35 | 0.0140 |
| 6 | La Antorcha | 85 | 28 | 0.0114 |
| 18 | Pali | 82 | 27 | 0.0110 |
| 1 | Ahorra Más | 77 | 26 | 0.0104 |
| 3 | Despensa Familiar | 77 | 26 | 0.0104 |
| 26 | Vindi | 63 | 21 | 0.0085 |
Tamaño total de la muestra estratificada: \(n = 2469\) tiendas
Media estratificada: \(\hat{\bar{Y}}_{st} = \displaystyle\sum_{h=1}^{H} W_h \cdot \bar{y}_h \quad\) donde \(W_h = \dfrac{N_h}{N}\)
Total: \(\hat{Y}_{st} = N \cdot \hat{\bar{Y}}_{st}\)
Error estándar: \(SE = \sqrt{\left(1-\dfrac{n}{N}\right)\dfrac{s^2_{est}}{n}}\)
IC 95%: \(\hat{\bar{Y}}_{st} \pm 1.96 \cdot SE\)
| Variable | n | Media real | Media estimada | Total estimado | Error estándar | IC 95% |
|---|---|---|---|---|---|---|
| ventas_valor | 2469 | 658.30 | 629.78 | 4,675,488 | 15.89 | [598.64 ; 660.92] |
| ventas_unidades | 2469 | 174.92 | 174.78 | 1,297,554 | — | — |
| Medida | Valor real | Valor estimado | Error relativo |
|---|---|---|---|
| Media ventas_valor (\() </td> <td style="text-align:center;"> 658.3 </td> <td style="text-align:center;"> 629.78 </td> <td style="text-align:center;"> 4.33% </td> </tr> <tr> <td style="text-align:left;"> Total ventas_valor (\)) | 4,887,192 | 4,675,488 | 4.33% |
| Media ventas_unidades | 174.92 | 174.78 | 0.08% |
El muestreo estratificado por cadena produjo el menor error estándar de todos los diseños (SE = 15.89 vs SE = 16.88 del MAS), una reducción del 5.9% en la variabilidad. La estratificación captura la heterogeneidad natural del mercado: cadenas grandes tienen comportamientos de ventas muy distintos a las pequeñas, y al muestrear dentro de cada una se garantiza representatividad en todos los segmentos. El error relativo para ventas_valor fue de apenas 4.33%, siendo el diseño más preciso.
En el muestreo Bernoulli, cada unidad de la población es incluida en la muestra de forma independiente, con una probabilidad fija \(\pi\). El tamaño de muestra no es fijo: varía en cada aplicación. Para este análisis se usó \(\pi = 0.25\): cada tienda tiene un 25% de probabilidad de ser seleccionada.
\[\pi = 0.25 \implies E[n] = N \cdot \pi = 7,424\times 0.25 = 1,856\ \text{tiendas (esperado)}\]
Con set.seed(123), la muestra resultante tuvo
\(n = 1824\) tiendas
(24.6% de la población).
Total HT: \[\hat{Y}_{HT} = \sum_{i \in S} \frac{y_i}{\pi_i} = \frac{1}{0.25}\sum_{i \in S} y_i\]
Media estimada: \[\hat{\bar{Y}} = \frac{\hat{Y}_{HT}}{N}\]
Error estándar del total: \[SE(\hat{Y}_{HT}) = \sqrt{\frac{1-\pi}{\pi^2}\sum_{i \in S} y_i^2}\]
Para ventas_valor:
| Variable | n | Media real | Media HT | Total HT | Total real | SE (HT) | Error relativo |
|---|---|---|---|---|---|---|---|
| ventas_valor | 1824 | 658.30 | 640.96 | 4,758,472 | 4,887,192 | 180153.7 | 2.63% |
| ventas_unidades | 1824 | 174.92 | 173.24 | 1,286,121 | 1,298,591 | 45100.9 | 0.96% |
Nota. El total real es la suma directa sobre la población depurada. El error relativo compara total HT vs. total real.
El muestreo Bernoulli con \(\pi = 0.25\) seleccionó 1824 tiendas de manera independiente. El estimador HT produjo una media estimada de \(640.96\) pesos para ventas_valor, con un error relativo del 2.63% frente al total real. La principal ventaja es su flexibilidad: no se necesita conocer de antemano cuántas unidades quedarán en la muestra, y cada decisión de inclusión es independiente. La limitación es que el tamaño de muestra puede variar entre aplicaciones, lo cual dificulta la planeación de recursos. El error estándar HT es relativamente alto por la variabilidad intrínseca del diseño.
El muestreo sistemático selecciona un punto de arranque aleatorio dentro del primer intervalo y luego toma cada \(a\)-ésima unidad de la lista. Es simple de implementar y garantiza cobertura uniforme de toda la población.
\[a = \left\lfloor \frac{N}{n} \right\rfloor = \left\lfloor \frac{7,424}{256} \right\rfloor = 29\]
Con set.seed(123), el arranque fue \(r = 15\).
Tamaño de muestra: \(n = 256\) tiendas | Intervalo: \(a = 29\)
Media estimada: \(\hat{\bar{Y}} = \dfrac{1}{n}\displaystyle\sum_{i \in S} y_i\)
Total estimado: \(\hat{Y} = N \cdot \hat{\bar{Y}}\)
Error estándar (aprox.): \(SE \approx \sqrt{\dfrac{s^2}{n}}\)
IC 95%: \(\hat{\bar{Y}} \pm 1.96 \cdot SE\)
| Variable | n | Media real | Media estimada | Total estimado | SE | IC 95% | Error relativo |
|---|---|---|---|---|---|---|---|
| ventas_valor | 256 | 658.30 | 666.30 | 4,946,599 | 64.85 | [539.19 ; 793.4] | 1.22% |
| ventas_unidades | 256 | 174.92 | 174.18 | 1,293,132 | 15.34 | [144.11 ; 204.26] | 0.42% |
| Variable | Media real | Media estimada | Diferencia | Error relativo |
|---|---|---|---|---|
| ventas_valor | 658.30 | 666.30 | 8.00 | 1.22% |
| ventas_unidades | 174.92 | 174.18 | -0.74 | 0.42% |
El muestreo sistemático con \(n = 256\) tiendas e intervalo \(a = 29\) es el diseño con el menor tamaño de muestra, siendo el más eficiente operativamente. Para ventas_valor el error relativo fue 1.22% y para ventas_unidades 0.42%, ambos bajos. Su supuesto clave es que no exista periodicidad en el orden de los registros que coincida con el intervalo; en esta base dicho supuesto se cumple razonablemente. Es una excelente alternativa cuando el tiempo y los recursos son limitados.
| Diseño | n | Media estimada (\() </th> <th style="text-align:center;font-weight: bold;color: white !important;background-color: rgba(26, 82, 118, 255) !important;"> Total estimado (\)) | Error estándar | Error relativo | |
|---|---|---|---|---|---|
| MAS (n=2467) | 2467 | 655.37 | 4,865,490 | 16.88 | 0.44% |
| Estratificado (n=2469) | 2469 | 629.78 | 4,675,488 | 15.89 | 4.33% |
| Bernoulli π=0.25 (n=1824) | 1824 | 640.96 | 4,758,472 | 180153.66 | 2.63% |
| Sistemático (n=256) | 256 | 666.30 | 4,946,599 | 64.85 | 1.22% |
Nota. Fila resaltada: diseño con menor error estándar. Media real = \(658.3\). Total real = \(4,887,192\).
Figura 3
Figura 3. Comparación de la media estimada por cada diseño vs. la media real (línea discontinua).
Los cuatro diseños muestrales produjeron estimaciones razonables de la media y el total de ventas_valor, pero con diferencias importantes en precisión y tamaño de muestra.
El muestreo estratificado fue el más preciso: al aprovechar la estructura natural del mercado CAM, redujo el error estándar en un 5.9% respecto al MAS. El MAS es simple y confiable pero requirió 2467 tiendas — el tamaño más grande —, con mayor costo operativo. El Bernoulli (\(\pi = 0.25\)) seleccionó 1824 tiendas con error relativo del 2.63%, siendo el más flexible en cuanto al marco muestral. El sistemático logró buenos resultados con solo 256 tiendas, siendo el más eficiente operativamente con errores relativos bajos en ambas variables.
El muestreo estratificado es el diseño más recomendado para el mercado CAM: produce el menor error estándar y garantiza representatividad en todas las cadenas.
El MAS es válido cuando no se tiene información previa sobre estratos, aunque requiere una muestra más grande.
El Bernoulli es útil cuando no se puede cerrar el marco muestral antes de la selección, aunque el tamaño de muestra resultante no es controlable con exactitud.
El sistemático es la alternativa más eficiente en recursos: con la muestra más pequeña (256 tiendas) obtuvo errores relativos bajos en ambas variables.
La depuración previa fue fundamental: eliminar el 25.8% de datos atípicos mejoró la calidad de todas las estimaciones.
Fundación Universitaria Los Libertadores
Pregrado en Estadística
Asignatura: Muestreo Estadístico
Profesora: Alejandra León
Valentina Martín – Jhessely Alejandra Guerrero
Bogotá, 2026