Análisis de Mercado CAM
Estimación de Ventas mediante Técnicas de Muestreo Estadístico

Valentina Martín
Jhessely Alejandra Guerrero


Pregrado en Estadística
Asignatura: Muestreo Estadístico
Profesora: Alejandra León


Fundación Universitaria Los Libertadores
Bogotá, 2026


Resumen

El presente trabajo aplicó cuatro técnicas de muestreo estadístico —muestreo aleatorio simple (MAS), muestreo estratificado, muestreo Bernoulli y muestreo sistemático— sobre una base de datos de 7,424 tiendas del mercado CAM, obtenida tras depurar valores atípicos de un registro original de 10,000 observaciones. La variable principal fue ventas_valor (en pesos colombianos), complementada con ventas_unidades. El muestreo estratificado por cadena comercial produjo el menor error estándar (SE = 15.89) frente al MAS (SE = 16.88), siendo el diseño más recomendado para esta población heterogénea. Los métodos Bernoulli y sistemático demostraron ser alternativas viables con errores relativos bajos y menor costo operativo.

Palabras clave: muestreo aleatorio simple, muestreo estratificado, muestreo Bernoulli, muestreo sistemático, estimación de ventas.


1 Introducción

El análisis de mercado es esencial para que las cadenas comerciales tomen decisiones bien informadas sobre distribución, inventarios y estrategia de ventas. Cuando la población es grande —como en este caso, con miles de tiendas en varias cadenas— realizar un censo completo resulta costoso e innecesario si se aplican correctamente las técnicas de muestreo estadístico.

Este informe compara cuatro diseños muestrales para estimar el valor promedio y el total de ventas del mercado CAM: el muestreo aleatorio simple (MAS), el estratificado por cadena, el Bernoulli y el sistemático. La base original contó con 10,000 registros; tras la depuración de valores atípicos, la población de trabajo quedó conformada por 7,424 tiendas, que constituyen el universo de estudio.


2 Descripción de la Base de Datos

2.1 Magnitud y estructura

La base de datos ANALISIS_DE_MERCADO_CAM.csv contiene registros de ventas a nivel de tienda. En su versión original tiene 10,000 registros. Tras la depuración, la población de trabajo quedó con 7,424 registros (74.2% del total original). El 25.8% restante fue eliminado por valores fuera de los límites IQR.

Las variables disponibles son:

  • ventas_valor: valor total de ventas en pesos colombianos por tienda. Es la variable de interés principal.
  • ventas_unidades: número de unidades vendidas por tienda. Variable secundaria de análisis.
  • cadena: nombre de la cadena comercial. Variable categórica con 29 grupos distintos, usada para estratificación.

2.2 Limpieza de datos

Para garantizar estimaciones confiables se realizó depuración de valores atípicos con el método IQR en ambas variables numéricas.

Para ventas_valor:

  • Q1 = 96.65 | Q3 = 2721.76 | IQR = 2625.11
  • Límite inferior: -3841.02 | Límite superior: 6659.42

Para ventas_unidades:

  • Q1 = 15 | Q3 = 434 | IQR = 419
  • Límite inferior: -613.5 | Límite superior: 1062.5

2.3 Estadísticos descriptivos

Tabla 1. Estadísticos descriptivos de la población depurada.
Estadístico ventas_valor ($) ventas_unidades
N (registros) 7,424 7,424
Media 658.3 174.92
Mediana 241.48 61.5
Q1 (25%) 52.05 11
Q3 (75%) 801.17 240.25
Mínimo 0 0
Máximo 6625.03 1059
Desv. estándar 1020.58 242.64
Coef. variación (%) 155 138.7

Nota. El coeficiente de variación elevado (> 30%) indica alta heterogeneidad, lo que justifica el muestreo estratificado.

2.4 Variable de interés: ventas_valor

La variable de interés principal es ventas_valor, que representa el valor en pesos colombianos de las ventas de cada tienda. Su media poblacional es de 658.3 pesos y su total real asciende a 4,887,192 pesos. La mediana (241.48) es menor que la media, lo que indica una distribución con asimetría positiva: la mayoría de las tiendas vende por debajo del promedio, pero algunas con ventas muy altas elevan la media. El coeficiente de variación del 155% confirma esta dispersión elevada.

2.5 Distribución de las variables

Figura 1

Figura 1

Figura 1. Distribución de ventas_valor y ventas_unidades tras la depuración. La línea representa la densidad estimada.

Figura 2

Figura 2

Figura 2. Boxplot de ventas_valor por cadena (10 cadenas con más registros). Se observan diferencias claras entre cadenas, justificando la estratificación.


3 Diseños Muestrales y Resultados

3.1 Muestreo Aleatorio Simple (MAS)

3.1.1 Definición del diseño

El Muestreo Aleatorio Simple (MAS) selecciona \(n\) unidades de la población de tamaño \(N\) de manera que todos los posibles subconjuntos de tamaño \(n\) tienen la misma probabilidad de ser elegidos. Es el diseño más básico y sirve como referencia para comparar con los demás.

3.1.2 Paso 1: Tamaño de muestra

Se fijó un margen de error del 5% sobre la media de ventas_valor y un nivel de confianza del 95% (\(z = 1.96\)).

\[n = \frac{N \cdot z^2 \cdot S^2}{E^2(N-1) + z^2 \cdot S^2}\]

  • \(N = 7,424\) | \(z = 1.96\) | \(S^2 = 1.0415916\times 10^{6}\)
  • \(E = 0.05 \times 658.3 = 32.91\)

\[n = \frac{7,424\times 3.8416 \times 1.0415916\times 10^{6}}{(32.91)^2 \times (7,424-1) + 3.8416 \times 1.0415916\times 10^{6}} \approx 2467\]

Tamaño de muestra MAS: \(n = 2467\) tiendas

3.1.3 Paso 2: Selección de la muestra

La muestra fue seleccionada aleatoriamente con set.seed(123) para garantizar reproducibilidad.

3.1.4 Paso 3: Estimadores

Media estimada: \(\hat{\bar{Y}} = \dfrac{1}{n}\displaystyle\sum_{i=1}^{n} y_i\)

Total estimado: \(\hat{Y} = N \cdot \hat{\bar{Y}}\)

Error estándar: \(SE = \sqrt{\left(1 - \dfrac{n}{N}\right)\dfrac{s^2}{n}}\)

IC 95%: \(\hat{\bar{Y}} \pm 1.96 \cdot SE\)

3.1.5 Resultados MAS

Tabla 2. Estimaciones del MAS (n = 2467, confianza 95%).
Variable n Media real Media estimada Total estimado Error estándar IC 95%
ventas_valor 2467 658.30 655.37 4,865,490 16.88 [622.28 ; 688.46]
ventas_unidades 2467 174.92 170.63 1,266,779 3.94 [162.9 ; 178.36]

3.1.6 Comparación con datos reales (MAS)

Tabla 3. Comparación MAS vs. valores reales.
Medida Valor real Valor estimado MAS Error relativo
Media ventas_valor (\() </td> <td style="text-align:center;"> 658.3 </td> <td style="text-align:center;"> 655.37 </td> <td style="text-align:center;"> 0.44% </td> </tr> <tr> <td style="text-align:left;"> Total ventas_valor (\)) 4,887,192 4,865,490 0.44%
Media ventas_unidades 174.92 170.63 2.45%

3.1.7 Análisis y conclusiones MAS

El MAS con \(n = 2467\) tiendas estimó una media de ventas_valor de \(655.37\) pesos, con un error relativo del 0.44% respecto a la media real. El intervalo de confianza al 95% [622.28 ; 688.46] contiene el valor real (658.3), confirmando que el diseño funciona correctamente. Sin embargo, el tamaño de muestra requerido (2467 tiendas) es considerablemente grande, lo que representa un costo operativo alto en comparación con los demás diseños.


3.2 Muestreo Estratificado

3.2.1 Definición del diseño

El muestreo estratificado divide la población en grupos mutuamente excluyentes (estratos) y selecciona una muestra dentro de cada uno. Cuando hay diferencias claras entre grupos —como ocurre entre las distintas cadenas del mercado CAM— este diseño produce estimaciones más precisas que el MAS.

3.2.2 Paso 1: Definición de estratos

La variable de estratificación es cadena. Se identificaron 29 cadenas en la base depurada, con tamaños que van desde 63 hasta 1187 tiendas.

3.2.3 Paso 2: Tamaño de muestra por estrato (afijación proporcional)

\[n_h = n \cdot \frac{N_h}{N}\]

  • \(n = 2467\) (tamaño total, igual al MAS para comparabilidad)
  • \(N_h\) = tamaño del estrato \(h\) | \(N = 7,424\)
Tabla 4. Distribución de la muestra estratificada por cadena.
Cadena N_h (tamaño estrato) n_h (muestra asignada) w_h (peso)
27 Walmart 1187 394 0.1599
21 Super 99 488 162 0.0657
19 Rey 397 132 0.0535
22 Super Carnes 354 118 0.0477
7 La Colonia 326 108 0.0439
10 Machetazo 324 108 0.0436
24 Super Xtra 316 105 0.0426
12 Maxi Despensa 315 105 0.0424
20 Romero 310 103 0.0418
17 Paiz 304 101 0.0409
16 Mr. Precio 301 100 0.0405
13 Maxi Pali 300 100 0.0404
25 Super Xtra Feria 269 89 0.0362
11 Mas X Menos 228 76 0.0307
5 Hiper Rey 227 75 0.0306
2 Automercado 225 75 0.0303
15 Metro Plus 222 74 0.0299
8 La Despensa de Don Juan 170 56 0.0229
23 Super Selectos 161 54 0.0217
14 Megasuper 153 51 0.0206
9 La Union 134 45 0.0180
4 Farma Ahorro 120 40 0.0162
29 ZAZ 105 35 0.0141
28 Xtra Farma 104 35 0.0140
6 La Antorcha 85 28 0.0114
18 Pali 82 27 0.0110
1 Ahorra Más 77 26 0.0104
3 Despensa Familiar 77 26 0.0104
26 Vindi 63 21 0.0085

Tamaño total de la muestra estratificada: \(n = 2469\) tiendas

3.2.4 Paso 3: Estimadores estratificados

Media estratificada: \(\hat{\bar{Y}}_{st} = \displaystyle\sum_{h=1}^{H} W_h \cdot \bar{y}_h \quad\) donde \(W_h = \dfrac{N_h}{N}\)

Total: \(\hat{Y}_{st} = N \cdot \hat{\bar{Y}}_{st}\)

Error estándar: \(SE = \sqrt{\left(1-\dfrac{n}{N}\right)\dfrac{s^2_{est}}{n}}\)

IC 95%: \(\hat{\bar{Y}}_{st} \pm 1.96 \cdot SE\)

3.2.5 Resultados Estratificado

Tabla 5. Estimaciones del muestreo estratificado (n = 2469, 29 cadenas, confianza 95%).
Variable n Media real Media estimada Total estimado Error estándar IC 95%
ventas_valor 2469 658.30 629.78 4,675,488 15.89 [598.64 ; 660.92]
ventas_unidades 2469 174.92 174.78 1,297,554

3.2.6 Comparación con datos reales (Estratificado)

Tabla 6. Comparación Estratificado vs. valores reales.
Medida Valor real Valor estimado Error relativo
Media ventas_valor (\() </td> <td style="text-align:center;"> 658.3 </td> <td style="text-align:center;"> 629.78 </td> <td style="text-align:center;"> 4.33% </td> </tr> <tr> <td style="text-align:left;"> Total ventas_valor (\)) 4,887,192 4,675,488 4.33%
Media ventas_unidades 174.92 174.78 0.08%

3.2.7 Análisis y conclusiones Estratificado

El muestreo estratificado por cadena produjo el menor error estándar de todos los diseños (SE = 15.89 vs SE = 16.88 del MAS), una reducción del 5.9% en la variabilidad. La estratificación captura la heterogeneidad natural del mercado: cadenas grandes tienen comportamientos de ventas muy distintos a las pequeñas, y al muestrear dentro de cada una se garantiza representatividad en todos los segmentos. El error relativo para ventas_valor fue de apenas 4.33%, siendo el diseño más preciso.


3.3 Muestreo Bernoulli

3.3.1 Definición del diseño

En el muestreo Bernoulli, cada unidad de la población es incluida en la muestra de forma independiente, con una probabilidad fija \(\pi\). El tamaño de muestra no es fijo: varía en cada aplicación. Para este análisis se usó \(\pi = 0.25\): cada tienda tiene un 25% de probabilidad de ser seleccionada.

3.3.2 Paso 1: Probabilidad de inclusión y tamaño esperado

\[\pi = 0.25 \implies E[n] = N \cdot \pi = 7,424\times 0.25 = 1,856\ \text{tiendas (esperado)}\]

Con set.seed(123), la muestra resultante tuvo \(n = 1824\) tiendas (24.6% de la población).

3.3.3 Paso 2: Estimador de Horvitz-Thompson (HT)

Total HT: \[\hat{Y}_{HT} = \sum_{i \in S} \frac{y_i}{\pi_i} = \frac{1}{0.25}\sum_{i \in S} y_i\]

Media estimada: \[\hat{\bar{Y}} = \frac{\hat{Y}_{HT}}{N}\]

Error estándar del total: \[SE(\hat{Y}_{HT}) = \sqrt{\frac{1-\pi}{\pi^2}\sum_{i \in S} y_i^2}\]

3.3.4 Paso 3: Cálculo numérico

Para ventas_valor:

  • Suma muestral: \(\sum y_i = 1,189,618\)
  • Total HT: \(\hat{Y}_{HT} = 1,189,618\ /\ 0.25 = 4,758,472\)
  • Media estimada: \(\hat{\bar{Y}} = 4,758,472\ /\ 7,424 = 640.96\)
  • Error estándar: \(SE = 1.8015366\times 10^{5}\)
  • Error relativo vs. total real: 2.63%

3.3.5 Resultados Bernoulli

Tabla 7. Estimaciones Bernoulli (π = 0.25, n = 1824).
Variable n Media real Media HT Total HT Total real SE (HT) Error relativo
ventas_valor 1824 658.30 640.96 4,758,472 4,887,192 180153.7 2.63%
ventas_unidades 1824 174.92 173.24 1,286,121 1,298,591 45100.9 0.96%

Nota. El total real es la suma directa sobre la población depurada. El error relativo compara total HT vs. total real.

3.3.6 Análisis y conclusiones Bernoulli

El muestreo Bernoulli con \(\pi = 0.25\) seleccionó 1824 tiendas de manera independiente. El estimador HT produjo una media estimada de \(640.96\) pesos para ventas_valor, con un error relativo del 2.63% frente al total real. La principal ventaja es su flexibilidad: no se necesita conocer de antemano cuántas unidades quedarán en la muestra, y cada decisión de inclusión es independiente. La limitación es que el tamaño de muestra puede variar entre aplicaciones, lo cual dificulta la planeación de recursos. El error estándar HT es relativamente alto por la variabilidad intrínseca del diseño.


3.4 Muestreo Sistemático

3.4.1 Definición del diseño

El muestreo sistemático selecciona un punto de arranque aleatorio dentro del primer intervalo y luego toma cada \(a\)-ésima unidad de la lista. Es simple de implementar y garantiza cobertura uniforme de toda la población.

3.4.2 Paso 1: Intervalo de muestreo

\[a = \left\lfloor \frac{N}{n} \right\rfloor = \left\lfloor \frac{7,424}{256} \right\rfloor = 29\]

  • Arranque aleatorio \(r\) entre 1 y \(a = 29\)
  • Muestra: \(\{r,\ r+a,\ r+2a,\ \ldots,\ r+(n-1)a\}\)

Con set.seed(123), el arranque fue \(r = 15\).

Tamaño de muestra: \(n = 256\) tiendas | Intervalo: \(a = 29\)

3.4.3 Paso 2: Estimadores

Media estimada: \(\hat{\bar{Y}} = \dfrac{1}{n}\displaystyle\sum_{i \in S} y_i\)

Total estimado: \(\hat{Y} = N \cdot \hat{\bar{Y}}\)

Error estándar (aprox.): \(SE \approx \sqrt{\dfrac{s^2}{n}}\)

IC 95%: \(\hat{\bar{Y}} \pm 1.96 \cdot SE\)

3.4.4 Resultados Sistemático (dos variables)

Tabla 8. Estimaciones del muestreo sistemático (n = 256, a = 29).
Variable n Media real Media estimada Total estimado SE IC 95% Error relativo
ventas_valor 256 658.30 666.30 4,946,599 64.85 [539.19 ; 793.4] 1.22%
ventas_unidades 256 174.92 174.18 1,293,132 15.34 [144.11 ; 204.26] 0.42%

3.4.5 Comparación con datos reales (Sistemático)

Tabla 9. Comparación sistemático vs. valores reales (dos variables).
Variable Media real Media estimada Diferencia Error relativo
ventas_valor 658.30 666.30 8.00 1.22%
ventas_unidades 174.92 174.18 -0.74 0.42%

3.4.6 Análisis y conclusiones Sistemático

El muestreo sistemático con \(n = 256\) tiendas e intervalo \(a = 29\) es el diseño con el menor tamaño de muestra, siendo el más eficiente operativamente. Para ventas_valor el error relativo fue 1.22% y para ventas_unidades 0.42%, ambos bajos. Su supuesto clave es que no exista periodicidad en el orden de los registros que coincida con el intervalo; en esta base dicho supuesto se cumple razonablemente. Es una excelente alternativa cuando el tiempo y los recursos son limitados.


4 Comparación General de Diseños

Tabla 10. Comparación de todos los diseños muestrales para ventas_valor.
Diseño n Media estimada (\() </th> <th style="text-align:center;font-weight: bold;color: white !important;background-color: rgba(26, 82, 118, 255) !important;"> Total estimado (\)) Error estándar Error relativo
MAS (n=2467) 2467 655.37 4,865,490 16.88 0.44%
Estratificado (n=2469) 2469 629.78 4,675,488 15.89 4.33%
Bernoulli π=0.25 (n=1824) 1824 640.96 4,758,472 180153.66 2.63%
Sistemático (n=256) 256 666.30 4,946,599 64.85 1.22%

Nota. Fila resaltada: diseño con menor error estándar. Media real = \(658.3\). Total real = \(4,887,192\).

Figura 3

Figura 3

Figura 3. Comparación de la media estimada por cada diseño vs. la media real (línea discontinua).


5 Discusión

Los cuatro diseños muestrales produjeron estimaciones razonables de la media y el total de ventas_valor, pero con diferencias importantes en precisión y tamaño de muestra.

El muestreo estratificado fue el más preciso: al aprovechar la estructura natural del mercado CAM, redujo el error estándar en un 5.9% respecto al MAS. El MAS es simple y confiable pero requirió 2467 tiendas — el tamaño más grande —, con mayor costo operativo. El Bernoulli (\(\pi = 0.25\)) seleccionó 1824 tiendas con error relativo del 2.63%, siendo el más flexible en cuanto al marco muestral. El sistemático logró buenos resultados con solo 256 tiendas, siendo el más eficiente operativamente con errores relativos bajos en ambas variables.

6 Conclusiones

  1. El muestreo estratificado es el diseño más recomendado para el mercado CAM: produce el menor error estándar y garantiza representatividad en todas las cadenas.

  2. El MAS es válido cuando no se tiene información previa sobre estratos, aunque requiere una muestra más grande.

  3. El Bernoulli es útil cuando no se puede cerrar el marco muestral antes de la selección, aunque el tamaño de muestra resultante no es controlable con exactitud.

  4. El sistemático es la alternativa más eficiente en recursos: con la muestra más pequeña (256 tiendas) obtuvo errores relativos bajos en ambas variables.

  5. La depuración previa fue fundamental: eliminar el 25.8% de datos atípicos mejoró la calidad de todas las estimaciones.


Fundación Universitaria Los Libertadores
Pregrado en Estadística
Asignatura: Muestreo Estadístico
Profesora: Alejandra León


Valentina Martín – Jhessely Alejandra Guerrero
Bogotá, 2026