Analisis descriptivo variables cualitativas

table (cervezas$tipo)

baja en calorías / sin alcohol        cerveza normal y helada 
                            39                             48 
               clara artesanal                lager artesanal 
                            42                             36 
               lager importada 
                            35 
summarytools::freq(cervezas$tipo, cumul = FALSE)
Frequencies  
cervezas$tipo  
Type: Character  

                                       Freq   % Valid   % Total
------------------------------------ ------ --------- ---------
      baja en calorías / sin alcohol     39     19.50     19.50
             cerveza normal y helada     48     24.00     24.00
                     clara artesanal     42     21.00     21.00
                     lager artesanal     36     18.00     18.00
                     lager importada     35     17.50     17.50
                                <NA>      0                0.00
                               Total    200    100.00    100.00
summarytools::freq(cervezas$pais, cumul = FALSE)
Frequencies  
cervezas$pais  
Type: Character  

                        Freq   % Valid   % Total
--------------------- ------ --------- ---------
             Alemania      4      2.00      2.00
            Argentina      4      2.00      2.00
              Bélgica      5      2.50      2.50
               Brasil      7      3.50      3.50
               Canadá      6      3.00      3.00
                Chile      6      3.00      3.00
             Colombia    113     56.50     56.50
               España     13      6.50      6.50
       Estados Unidos      4      2.00      2.00
              Irlanda      2      1.00      1.00
               Italia      3      1.50      1.50
                Japón      7      3.50      3.50
               México      4      2.00      2.00
         Países Bajos      8      4.00      4.00
                 Perú      3      1.50      1.50
          Reino Unido      6      3.00      3.00
      República Checa      5      2.50      2.50
                 <NA>      0                0.00
                Total    200    100.00    100.00

Analisis descriptivo variables cuantitativas

summary(cervezas$alcohol)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  0.000   3.975   4.800   4.064   5.200   7.300 
summarytools::descr(cervezas[,c(8,9,11,12)])
Descriptive Statistics  
cervezas  
N: 200  

                    alcohol   calorias   precio   presentacion
----------------- --------- ---------- -------- --------------
             Mean      4.06     161.36     5.64         455.02
          Std.Dev      1.91      62.00     3.29         169.03
              Min      0.00      18.00     0.89         269.00
               Q1      3.95     167.00     3.30         330.00
           Median      4.80     185.00     4.76         473.00
               Q3      5.20     199.00     6.79         500.00
              Max      7.30     239.00    17.89         750.00
              MAD      0.89      23.72     2.44         212.01
              IQR      1.23      32.00     3.49         170.00
               CV      0.47       0.38     0.58           0.37
         Skewness     -1.18      -1.30     1.46           0.71
      SE.Skewness      0.17       0.17     0.17           0.17
         Kurtosis     -0.03       0.10     2.11          -0.79
          N.Valid    200.00     200.00   200.00         200.00
                N    200.00     200.00   200.00         200.00
        Pct.Valid    100.00     100.00   100.00         100.00

El resultado nos indica que el contenido de concentracion de alcohol se encuentra al rededor de 4,8%, con un coeficiente de variacion del 47% y una distribucion asimetrica a la izquierda, lo cual indica que una gran cantidad de cervezas tienen alto contenido de alcohol y muy pocas bajo contenido del alcohol

Analisis bivariado

table(cervezas$tipo, cervezas$origen)
                                
                                 importada nacional
  baja en calorías / sin alcohol        15       24
  cerveza normal y helada               17       31
  clara artesanal                       15       27
  lager artesanal                        5       31
  lager importada                       35        0

Preguntas y respuestas:

1.¿Qué variables son cualitativas y cuáles son cuantitativas en la base? Justifique su clasificación.

Respuesta:

Variables cualitativas:

La variable marca es cualitativa porque identifica el nombre comercial del producto.

La variable producto es cualitativa ya que funciona como un identificador específico de cada cerveza.

La variable tipo es cualitativa porque clasifica las cervezas según su estilo o característica, como por ejemplo: lager importada, clara artesanal, baja en calorías.

La variable origen es cualitativa porque indica si la cerveza es nacional o importada. Aunque solo tiene dos categorías, estas no representan valores numéricos ni un orden, sino una clasificación basada en procedencia.

La variable país es cualitativa porque identifica el país de procedencia de la cerveza. Sus valores son nombres de países, sin interpretación cuantitativa.

Variables cuantitativas:

La variable alcohol es cuantitativa porque mide el porcentaje de alcohol presente en la cerveza. Es una magnitud numérica que admite operaciones y comparaciones de magnitud.

La variable calorías es cuantitativa porque representa una cantidad medible de energía. Permite comparaciones, promedios ,etc.

La variable porción es cuantitativa porque es una medida física que admite operaciones matemáticas. En esta base de datos no presenta variabilidad (todas las observaciones tienen el mismo valor), pero esto no cambia su naturaleza cuantitativa.

La variable presentación es cuantitativa porque mide el tamaño del envase, siendo una medida numérica con significado métrico.

La variable precio es cuantitativa continua porque expresa el valor monetario del producto. Permite operaciones aritméticas, comparaciones de magnitud y análisis de dispersión.

2. Para cada variable cualitativa, ¿cuál es su tabla de frecuencias (absoluta y relativa) y qué categorías concentran la mayor proporción?

Respuesta:

Tipo de cerveza Frecuencia absoluta Frecuencia relativa (%)
Baja en calorías / Sin alcohol 39 19.50
Cerveza normal y helada 48 24.00
Clara artesanal 42 21.00
Lager artesanal 36 18.00
Lager importada 35 17.50
Total 200 100.00

Conclusión: no hay una categoría que monopolice el mercado, pero cerveza normal y helada es la categoría más frecuente (24%).

País Frecuencia absoluta Frecuencia relativa (%)
Alemania 4 2.00
Argentina 4 2.00
Bélgica 5 2.50
Brasil 7 3.50
Canadá 6 3.00
Chile 6 3.00
Colombia 113 56.50
España 13 6.50
Estados Unidos 4 2.00
Irlanda 2 1.00
Italia 3 1.50
Japón 7 3.50
México 4 2.00
Países Bajos 8 4.00
Perú 3 1.50
Reino Unido 6 3.00
República Checa 5 2.50
Total 200 100.00

Conclusion: Colombia es el pais que mayor concentracion tiene en el mercado de cervezas, con un 54%, los demas paises se distribuyen con porcentajes bajos y cercanos (entre 1% a 6%).

Origen Frecuencia absoluta Frecuencia relativa (%)
Importada 87 43.50
Nacional 113 56.50
Total 200 100.00

Conclusión: Como se vio en el apartado de la variable pais, la mayoría (56.5%) son cervezas nacionales, aunque la participación importada es importante (43.5%).

3.Para cada variable cuantitativa, ¿cuáles son los indicadores de resumen (mínimo, máximo, media, mediana, cuartiles, desviación estándar)?

Respuesta:

Variables: alcohol calorias precio presentacion
Media 4.06 161.36 5.64 455.02
esviacion estandar 1.91 62.00 3.29 169.03
Minimo 0.00 18.00 0.89 269.00
Q1 3.95 167.00 3.30 330.00
Mediana 4.80 185.00 4.76 473.00
Q3 5.20 199.00 6.79 500.00
Maximo 7.30 239.00 17.89 750.00
CV 0.47 0.38 0.58 0.37

4.¿Qué variables muestran mayor variabilidad y cómo se interpreta en el contexto del mercado de cervezas?

Respuesta:

Para dar respuesta a esta pregunta, se tendra en cuenta el coeficiente de variacion de cada variable.

Las cuatro variables presentan coeficientes de variacion altos, sin embargo la que mas destaca es la variable “precio” con un coeficiente de variacion de 0.58;esto refleja segmentación del mercado (cervezas premium/importadas vs. cervezas masivas y bajas en precio), diferentes tamaños y presentaciones. Es coherente con que algunas categorías, por ejemplo lager importada, muestran precios mucho más altos.

Despues, la variable “alcohol” es la segunda con mayor coeficiente de variacion (0.47), esta variación en alcohol indica diversidad de estilos y productos, desde sin alcohol o bajas en alcohol hasta cervezas con porcentaje alcohólico alto.

5. ¿Qué patrones o diferencias relevantes se observan entre tipo, origen y país de procedencia?

Respuesta:

Para este analisis se considera mas pertinente hacer una comparacion entre tipo y origen, pues en origen se agrupan todos los paises extranjeros en la categoria “importada”, dado que cada pais extranjero no repreesenta un alto numero de cervezas.

importada nacional
baja en calorías / sin alcohol 15 24
cerveza normal y helada 17 31
clara artesanal 15 27
lager artesanal 5 31
lager importada 35 0

Conclusiones:

Las cervezas importadas destacan en el tipo de cerveza “larger importada” siendo la que mas se importa (35).

La “larger artesanal” es fuerte a nivel de produccion nacional, pues es la que menos se importa (5) y junto con “cerveza normal y helada” son las que mas se producen en el pais (31 c/u).

Excluyendo la “larger importada”, ningun tipo de cerveza se importa mas de lo que se produce a nivel nacional, siendo esto coherente con la frecuencia relativa del origen nacional (56.5% del total de cervezas)

6.¿Qué conclusiones descriptivas preliminares se pueden extraer sobre alcohol, calorías, porción, presentación y precio?

Respuesta:

La variable porcion es constante entre todas las observaviones, por lo que su analisis es nulo.

Para determinar el sesgo de cada variable, se tiene en ceunta el siguiente criterio:

Asimétrica positiva o a la derecha (o positivamente sesgada): Si skewness>0

Asimétrica negativa o a la izquierda (o netativamente sesgada): Si skewness<0

En lo que respecta a alcohol, algunas cervezas 0% alcohol y varias con 4–5%. La distribución está sesgada a la izquierda (pocos valores muy bajos, masa hacia 4–5%). Esto implica que la oferta está concentrada en cervezas con contenido alcohólico moderado; productos sin alcohol existen pero no dominan la muestra.

Para la variable calorias, esta tiene un sesgo a la izquierda, lo que podria indicar una correlacion positiva entre alcohol y calorias, lo que quiere decir que entre mayor porcentaje de alcohol mayor calorias tiene la cerveza.

La variable presentacion tiene rangos o valores muy especificos (330 ml y 473–500 ml y algunos 750 ml). Dado lo anterior, su sesgo es muy debil.

El precio esta sesgado a la derecha, lo que quiere decir que hay mas cervezas baratas que caras en el mercado.