Análisis de Mercado CAM

Estimación de Ventas mediante Técnicas de Muestreo Estadístico

Valentina Martín
Jhessely Alejandra Guerrero

Pregrado en Estadística
Asignatura: Muestreo Estadístico
Profesora: Alejandra León

Fundación Universitaria Los Libertadores
Bogotá, 2026

Resumen

El presente trabajo aplicó cuatro técnicas de muestreo estadístico —muestreo aleatorio simple (MAS), muestreo estratificado, muestreo Bernoulli y muestreo sistemático— sobre una base de datos de 7,424 tiendas del mercado CAM, obtenida tras depurar valores atípicos de un registro original de 10,000 observaciones. La variable principal fue ventas_valor (en pesos colombianos), complementada con ventas_unidades. El muestreo estratificado por cadena comercial produjo el menor error estándar (SE = 15.89) frente al MAS (SE = 16.88), siendo el diseño más recomendado para esta población heterogénea. Los métodos Bernoulli y sistemático demostraron ser alternativas viables con errores relativos bajos y menor costo operativo.

Palabras clave: muestreo aleatorio simple, muestreo estratificado, muestreo Bernoulli, muestreo sistemático, estimación de ventas.

1 Introducción

El análisis de mercado es esencial para que las cadenas comerciales tomen decisiones bien informadas sobre distribución, inventarios y estrategia de ventas. Cuando la población es grande —como en este caso, con miles de tiendas en varias cadenas— realizar un censo completo resulta costoso e innecesario si se aplican correctamente las técnicas de muestreo estadístico.

Este informe compara cuatro diseños muestrales para estimar el valor promedio y el total de ventas del mercado CAM: el muestreo aleatorio simple (MAS), el estratificado por cadena, el Bernoulli y el sistemático. La base original contó con 10,000 registros; tras la depuración de valores atípicos, la población de trabajo quedó conformada por 7,424 tiendas, que constituyen el universo de estudio.

2 Descripción de la Base de Datos

2.1 Magnitud y estructura

La base de datos ANALISIS_DE_MERCADO_CAM.csv contiene registros de ventas a nivel de tienda. En su versión original tiene 10,000 registros. Tras la depuración, la población de trabajo quedó con 7,424 registros (74.2% del total original). El 25.8% restante fue eliminado por valores fuera de los límites IQR.

Las variables disponibles son:

ventas_valor: valor total de ventas en pesos colombianos por tienda. Es la variable de interés principal.
ventas_unidades: número de unidades vendidas por tienda. Variable secundaria de análisis.
cadena: nombre de la cadena comercial. Variable categórica con 29 grupos distintos, usada para estratificación.

2.2 Limpieza de datos

Para garantizar estimaciones confiables se realizó depuración de valores atípicos con el método IQR en ambas variables numéricas.

Para ventas_valor:

Q1 = 96.65 | Q3 = 2721.76 | IQR = 2625.11
Límite inferior: -3841.02 | Límite superior: 6659.42

Para ventas_unidades:

Q1 = 15 | Q3 = 434 | IQR = 419
Límite inferior: -613.5 | Límite superior: 1062.5

2.3 Estadísticos descriptivos

*Tabla 1.* Estadísticos descriptivos de la población depurada.
Estadístico	ventas_valor ($)	ventas_unidades
N (registros)	7,424	7,424
Media	658.3	174.92
Mediana	241.48	61.5
Q1 (25%)	52.05	11
Q3 (75%)	801.17	240.25
Mínimo	0	0
Máximo	6625.03	1059
Desv. estándar	1020.58	242.64
Coef. variación (%)	155	138.7

Nota. El coeficiente de variación elevado (> 30%) indica alta heterogeneidad, lo que justifica el muestreo estratificado.

2.4 Variable de interés: ventas_valor

La variable de interés principal es ventas_valor, que representa el valor en pesos colombianos de las ventas de cada tienda. Su media poblacional es de 658.3 pesos y su total real asciende a 4,887,192 pesos. La mediana (241.48) es menor que la media, lo que indica una distribución con asimetría positiva: la mayoría de las tiendas vende por debajo del promedio, pero algunas con ventas muy altas elevan la media. El coeficiente de variación del 155% confirma esta dispersión elevada.

2.5 Distribución de las variables

Figura 1

Figura 1. Distribución de ventas_valor y ventas_unidades tras la depuración. La línea representa la densidad estimada.

Figura 2

Figura 2. Boxplot de ventas_valor por cadena (10 cadenas con más registros). Se observan diferencias claras entre cadenas, justificando la estratificación.

3 Diseños Muestrales y Resultados

3.1 Muestreo Aleatorio Simple (MAS)

3.1.1 Definición del diseño

El Muestreo Aleatorio Simple (MAS) selecciona $n$ unidades de la población de tamaño $N$ de manera que todos los posibles subconjuntos de tamaño $n$ tienen la misma probabilidad de ser elegidos. Es el diseño más básico y sirve como referencia para comparar con los demás.

3.1.2 Paso 1: Tamaño de muestra

Se fijó un margen de error del 5% sobre la media de ventas_valor y un nivel de confianza del 95% ($z = 1.96$).

\[n = \frac{N \cdot z^2 \cdot S^2}{E^2(N-1) + z^2 \cdot S^2}\]

$N = 7,424$ | $z = 1.96$ | $S^2 = 1.0415916\times 10^{6}$
$E = 0.05 \times 658.3 = 32.91$

\[n = \frac{7,424\times 3.8416 \times 1.0415916\times 10^{6}}{(32.91)^2 \times (7,424-1) + 3.8416 \times 1.0415916\times 10^{6}} \approx 2467\]

Tamaño de muestra MAS: $n = 2467$ tiendas

3.1.3 Paso 2: Selección de la muestra

La muestra fue seleccionada aleatoriamente con set.seed(123) para garantizar reproducibilidad.

3.1.4 Paso 3: Estimadores

Media estimada: $\hat{\bar{Y}} = \dfrac{1}{n}\displaystyle\sum_{i=1}^{n} y_i$

Total estimado: $\hat{Y} = N \cdot \hat{\bar{Y}}$

Error estándar: $SE = \sqrt{\left(1 - \dfrac{n}{N}\right)\dfrac{s^2}{n}}$

IC 95%: $\hat{\bar{Y}} \pm 1.96 \cdot SE$

3.1.5 Resultados MAS

*Tabla 2.* Estimaciones del MAS (n = 2467, confianza 95%).
Variable	n	Media real	Media estimada	Total estimado	Error estándar	IC 95%
ventas_valor	2467	658.30	655.37	4,865,490	16.88	[622.28 ; 688.46]
ventas_unidades	2467	174.92	170.63	1,266,779	3.94	[162.9 ; 178.36]

3.1.6 Comparación con datos reales (MAS)

*Tabla 3.* Comparación MAS vs. valores reales.
Medida	Valor real	Valor estimado MAS	Error relativo
Media ventas_valor ($) </td> <td style="text-align:center;"> 658.3 </td> <td style="text-align:center;"> 655.37 </td> <td style="text-align:center;"> 0.44% </td> </tr> <tr> <td style="text-align:left;"> Total ventas_valor ($)	4,887,192	4,865,490	0.44%
Media ventas_unidades	174.92	170.63	2.45%

3.1.7 Análisis y conclusiones MAS

El MAS con $n = 2467$ tiendas estimó una media de ventas_valor de $655.37$ pesos, con un error relativo del 0.44% respecto a la media real. El intervalo de confianza al 95% [622.28 ; 688.46] contiene el valor real (658.3), confirmando que el diseño funciona correctamente. Sin embargo, el tamaño de muestra requerido (2467 tiendas) es considerablemente grande, lo que representa un costo operativo alto en comparación con los demás diseños.

3.2 Muestreo Estratificado

3.2.1 Definición del diseño

El muestreo estratificado divide la población en grupos mutuamente excluyentes (estratos) y selecciona una muestra dentro de cada uno. Cuando hay diferencias claras entre grupos —como ocurre entre las distintas cadenas del mercado CAM— este diseño produce estimaciones más precisas que el MAS.

3.2.2 Paso 1: Definición de estratos

La variable de estratificación es cadena. Se identificaron 29 cadenas en la base depurada, con tamaños que van desde 63 hasta 1187 tiendas.

3.2.3 Paso 2: Tamaño de muestra por estrato (afijación proporcional)

\[n_h = n \cdot \frac{N_h}{N}\]

$n = 2467$ (tamaño total, igual al MAS para comparabilidad)
$N_h$ = tamaño del estrato $h$ | $N = 7,424$

*Tabla 4.* Distribución de la muestra estratificada por cadena.
	Cadena	N_h (tamaño estrato)	n_h (muestra asignada)	w_h (peso)
27	Walmart	1187	394	0.1599
21	Super 99	488	162	0.0657
19	Rey	397	132	0.0535
22	Super Carnes	354	118	0.0477
7	La Colonia	326	108	0.0439
10	Machetazo	324	108	0.0436
24	Super Xtra	316	105	0.0426
12	Maxi Despensa	315	105	0.0424
20	Romero	310	103	0.0418
17	Paiz	304	101	0.0409
16	Mr. Precio	301	100	0.0405
13	Maxi Pali	300	100	0.0404
25	Super Xtra Feria	269	89	0.0362
11	Mas X Menos	228	76	0.0307
5	Hiper Rey	227	75	0.0306
2	Automercado	225	75	0.0303
15	Metro Plus	222	74	0.0299
8	La Despensa de Don Juan	170	56	0.0229
23	Super Selectos	161	54	0.0217
14	Megasuper	153	51	0.0206
9	La Union	134	45	0.0180
4	Farma Ahorro	120	40	0.0162
29	ZAZ	105	35	0.0141
28	Xtra Farma	104	35	0.0140
6	La Antorcha	85	28	0.0114
18	Pali	82	27	0.0110
1	Ahorra Más	77	26	0.0104
3	Despensa Familiar	77	26	0.0104
26	Vindi	63	21	0.0085

Tamaño total de la muestra estratificada: $n = 2469$ tiendas

3.2.4 Paso 3: Estimadores estratificados

Media estratificada: $\hat{\bar{Y}}_{st} = \displaystyle\sum_{h=1}^{H} W_h \cdot \bar{y}_h \quad$ donde $W_h = \dfrac{N_h}{N}$

Total: $\hat{Y}_{st} = N \cdot \hat{\bar{Y}}_{st}$

Error estándar: $SE = \sqrt{\left(1-\dfrac{n}{N}\right)\dfrac{s^2_{est}}{n}}$

IC 95%: $\hat{\bar{Y}}_{st} \pm 1.96 \cdot SE$

3.2.5 Resultados Estratificado

*Tabla 5.* Estimaciones del muestreo estratificado (n = 2469, 29 cadenas, confianza 95%).
Variable	n	Media real	Media estimada	Total estimado	Error estándar	IC 95%
ventas_valor	2469	658.30	629.78	4,675,488	15.89	[598.64 ; 660.92]
ventas_unidades	2469	174.92	174.78	1,297,554	—	—

3.2.6 Comparación con datos reales (Estratificado)

*Tabla 6.* Comparación Estratificado vs. valores reales.
Medida	Valor real	Valor estimado	Error relativo
Media ventas_valor ($) </td> <td style="text-align:center;"> 658.3 </td> <td style="text-align:center;"> 629.78 </td> <td style="text-align:center;"> 4.33% </td> </tr> <tr> <td style="text-align:left;"> Total ventas_valor ($)	4,887,192	4,675,488	4.33%
Media ventas_unidades	174.92	174.78	0.08%

3.2.7 Análisis y conclusiones Estratificado

El muestreo estratificado por cadena produjo el menor error estándar de todos los diseños (SE = 15.89 vs SE = 16.88 del MAS), una reducción del 5.9% en la variabilidad. La estratificación captura la heterogeneidad natural del mercado: cadenas grandes tienen comportamientos de ventas muy distintos a las pequeñas, y al muestrear dentro de cada una se garantiza representatividad en todos los segmentos. El error relativo para ventas_valor fue de apenas 4.33%, siendo el diseño más preciso.

3.3 Muestreo Bernoulli

3.3.1 Definición del diseño

En el muestreo Bernoulli, cada unidad de la población es incluida en la muestra de forma independiente, con una probabilidad fija $\pi$. El tamaño de muestra no es fijo: varía en cada aplicación. Para este análisis se usó $\pi = 0.25$: cada tienda tiene un 25% de probabilidad de ser seleccionada.

3.3.2 Paso 1: Probabilidad de inclusión y tamaño esperado

\[\pi = 0.25 \implies E[n] = N \cdot \pi = 7,424\times 0.25 = 1,856\ \text{tiendas (esperado)}\]

Con set.seed(123), la muestra resultante tuvo $n = 1824$ tiendas (24.6% de la población).

3.3.3 Paso 2: Estimador de Horvitz-Thompson (HT)

Total HT: \[\hat{Y}_{HT} = \sum_{i \in S} \frac{y_i}{\pi_i} = \frac{1}{0.25}\sum_{i \in S} y_i\]

Media estimada: \[\hat{\bar{Y}} = \frac{\hat{Y}_{HT}}{N}\]

Error estándar del total: \[SE(\hat{Y}_{HT}) = \sqrt{\frac{1-\pi}{\pi^2}\sum_{i \in S} y_i^2}\]

3.3.4 Paso 3: Cálculo numérico

Para ventas_valor:

Suma muestral: $\sum y_i = 1,189,618$
Total HT: $\hat{Y}_{HT} = 1,189,618\ /\ 0.25 = 4,758,472$
Media estimada: $\hat{\bar{Y}} = 4,758,472\ /\ 7,424 = 640.96$
Error estándar: $SE = 1.8015366\times 10^{5}$
Error relativo vs. total real: 2.63%

3.3.5 Resultados Bernoulli

*Tabla 7.* Estimaciones Bernoulli (π = 0.25, n = 1824).
Variable	n	Media real	Media HT	Total HT	Total real	SE (HT)	Error relativo
ventas_valor	1824	658.30	640.96	4,758,472	4,887,192	180153.7	2.63%
ventas_unidades	1824	174.92	173.24	1,286,121	1,298,591	45100.9	0.96%

Nota. El total real es la suma directa sobre la población depurada. El error relativo compara total HT vs. total real.

3.3.6 Análisis y conclusiones Bernoulli

El muestreo Bernoulli con $\pi = 0.25$ seleccionó 1824 tiendas de manera independiente. El estimador HT produjo una media estimada de $640.96$ pesos para ventas_valor, con un error relativo del 2.63% frente al total real. La principal ventaja es su flexibilidad: no se necesita conocer de antemano cuántas unidades quedarán en la muestra, y cada decisión de inclusión es independiente. La limitación es que el tamaño de muestra puede variar entre aplicaciones, lo cual dificulta la planeación de recursos. El error estándar HT es relativamente alto por la variabilidad intrínseca del diseño.

3.4 Muestreo Sistemático

3.4.1 Definición del diseño

El muestreo sistemático selecciona un punto de arranque aleatorio dentro del primer intervalo y luego toma cada $a$-ésima unidad de la lista. Es simple de implementar y garantiza cobertura uniforme de toda la población.

3.4.2 Paso 1: Intervalo de muestreo

\[a = \left\lfloor \frac{N}{n} \right\rfloor = \left\lfloor \frac{7,424}{256} \right\rfloor = 29\]

Arranque aleatorio $r$ entre 1 y $a = 29$
Muestra: $\{r,\ r+a,\ r+2a,\ \ldots,\ r+(n-1)a\}$

Con set.seed(123), el arranque fue $r = 15$.

Tamaño de muestra: $n = 256$ tiendas | Intervalo: $a = 29$

3.4.3 Paso 2: Estimadores

Media estimada: $\hat{\bar{Y}} = \dfrac{1}{n}\displaystyle\sum_{i \in S} y_i$

Total estimado: $\hat{Y} = N \cdot \hat{\bar{Y}}$

Error estándar (aprox.): $SE \approx \sqrt{\dfrac{s^2}{n}}$

IC 95%: $\hat{\bar{Y}} \pm 1.96 \cdot SE$

3.4.4 Resultados Sistemático (dos variables)

*Tabla 8.* Estimaciones del muestreo sistemático (n = 256, a = 29).
Variable	n	Media real	Media estimada	Total estimado	SE	IC 95%	Error relativo
ventas_valor	256	658.30	666.30	4,946,599	64.85	[539.19 ; 793.4]	1.22%
ventas_unidades	256	174.92	174.18	1,293,132	15.34	[144.11 ; 204.26]	0.42%

3.4.5 Comparación con datos reales (Sistemático)

*Tabla 9.* Comparación sistemático vs. valores reales (dos variables).
Variable	Media real	Media estimada	Diferencia	Error relativo
ventas_valor	658.30	666.30	8.00	1.22%
ventas_unidades	174.92	174.18	-0.74	0.42%

3.4.6 Análisis y conclusiones Sistemático

El muestreo sistemático con $n = 256$ tiendas e intervalo $a = 29$ es el diseño con el menor tamaño de muestra, siendo el más eficiente operativamente. Para ventas_valor el error relativo fue 1.22% y para ventas_unidades 0.42%, ambos bajos. Su supuesto clave es que no exista periodicidad en el orden de los registros que coincida con el intervalo; en esta base dicho supuesto se cumple razonablemente. Es una excelente alternativa cuando el tiempo y los recursos son limitados.

4 Comparación General de Diseños

*Tabla 10.* Comparación de todos los diseños muestrales para ventas_valor.
Diseño	n	Media estimada ($) </th> <th style="text-align:center;font-weight: bold;color: white !important;background-color: rgba(26, 82, 118, 255) !important;"> Total estimado ($)	Error estándar	Error relativo
MAS (n=2467)	2467	655.37	4,865,490	16.88	0.44%
Estratificado (n=2469)	2469	629.78	4,675,488	15.89	4.33%
Bernoulli π=0.25 (n=1824)	1824	640.96	4,758,472	180153.66	2.63%
Sistemático (n=256)	256	666.30	4,946,599	64.85	1.22%

Nota. Fila resaltada: diseño con menor error estándar. Media real = $658.3$. Total real = $4,887,192$.

Figura 3

Figura 3. Comparación de la media estimada por cada diseño vs. la media real (línea discontinua).

5 Discusión

Los cuatro diseños muestrales produjeron estimaciones razonables de la media y el total de ventas_valor, pero con diferencias importantes en precisión y tamaño de muestra.

El muestreo estratificado fue el más preciso: al aprovechar la estructura natural del mercado CAM, redujo el error estándar en un 5.9% respecto al MAS. El MAS es simple y confiable pero requirió 2467 tiendas — el tamaño más grande —, con mayor costo operativo. El Bernoulli ($\pi = 0.25$) seleccionó 1824 tiendas con error relativo del 2.63%, siendo el más flexible en cuanto al marco muestral. El sistemático logró buenos resultados con solo 256 tiendas, siendo el más eficiente operativamente con errores relativos bajos en ambas variables.

6 Conclusiones

El muestreo estratificado es el diseño más recomendado para el mercado CAM: produce el menor error estándar y garantiza representatividad en todas las cadenas.
El MAS es válido cuando no se tiene información previa sobre estratos, aunque requiere una muestra más grande.
El Bernoulli es útil cuando no se puede cerrar el marco muestral antes de la selección, aunque el tamaño de muestra resultante no es controlable con exactitud.
El sistemático es la alternativa más eficiente en recursos: con la muestra más pequeña (256 tiendas) obtuvo errores relativos bajos en ambas variables.
La depuración previa fue fundamental: eliminar el 25.8% de datos atípicos mejoró la calidad de todas las estimaciones.

Fundación Universitaria Los Libertadores
Pregrado en Estadística
Asignatura: Muestreo Estadístico
Profesora: Alejandra León

Valentina Martín – Jhessely Alejandra Guerrero
Bogotá, 2026

Medida	Valor real	Valor estimado MAS	Error relativo
Media ventas_valor (\() </td> <td style="text-align:center;"> 658.3 </td> <td style="text-align:center;"> 655.37 </td> <td style="text-align:center;"> 0.44% </td> </tr> <tr> <td style="text-align:left;"> Total ventas_valor (\))	4,887,192	4,865,490	0.44%
Media ventas_unidades	174.92	170.63	2.45%

Análisis de Mercado CAM: Estimación de Ventas mediante Técnicas de Muestreo Estadístico

Valentina Martín Jhessely Alejandra Guerrero

Bogotá, 2026

1 Introducción

2 Descripción de la Base de Datos

2.1 Magnitud y estructura

2.2 Limpieza de datos

2.3 Estadísticos descriptivos

2.4 Variable de interés: ventas_valor

2.5 Distribución de las variables

3 Diseños Muestrales y Resultados

3.1 Muestreo Aleatorio Simple (MAS)

3.1.1 Definición del diseño

3.1.2 Paso 1: Tamaño de muestra

3.1.3 Paso 2: Selección de la muestra

3.1.4 Paso 3: Estimadores

3.1.5 Resultados MAS

3.1.6 Comparación con datos reales (MAS)

3.1.7 Análisis y conclusiones MAS

3.2 Muestreo Estratificado

3.2.1 Definición del diseño

3.2.2 Paso 1: Definición de estratos

3.2.3 Paso 2: Tamaño de muestra por estrato (afijación proporcional)

3.2.4 Paso 3: Estimadores estratificados

3.2.5 Resultados Estratificado

3.2.6 Comparación con datos reales (Estratificado)

3.2.7 Análisis y conclusiones Estratificado

3.3 Muestreo Bernoulli

3.3.1 Definición del diseño

3.3.2 Paso 1: Probabilidad de inclusión y tamaño esperado

3.3.3 Paso 2: Estimador de Horvitz-Thompson (HT)

3.3.4 Paso 3: Cálculo numérico

3.3.5 Resultados Bernoulli

3.3.6 Análisis y conclusiones Bernoulli

3.4 Muestreo Sistemático

3.4.1 Definición del diseño

3.4.2 Paso 1: Intervalo de muestreo

3.4.3 Paso 2: Estimadores

3.4.4 Resultados Sistemático (dos variables)

3.4.5 Comparación con datos reales (Sistemático)

3.4.6 Análisis y conclusiones Sistemático

4 Comparación General de Diseños

5 Discusión

6 Conclusiones

Valentina Martín
Jhessely Alejandra Guerrero