1. Análisis Bivariado.

1.1 Objetivo.

  • Comprender la relación entre dos variables mediante el análisis gráfico, numérico y algebraico.

1.2. Concepto de estadística bivariada.

La estadística bivariada estudia simultáneamente dos variables con el objetivo de analizar la posible relación existente entre ellas, ya sea mediante métodos gráficos, numéricos o algebraicos.

  • Primera variable: una característica observada de los individuos.
  • Segunda variable: otra característica observada de los mismos individuos.
  • Relación: se analiza si existe una conexión o dependencia entre ambas variables.

1.3. Ejemplo(s).

E1. Se registran las edades y alturas de un grupo de estudiantes.

Respuesta

\(\Rightarrow\) Variable 1: Edad (años)

\(\Rightarrow\) Variable 2: Altura (centímetros)

  • Comprender la relación entre dos variables mediante el análisis gráfico, numérico y algebraico.
  • Se puede plantear la hipótesis de que a mayor edad, podría haber mayor altura.

    E2. Se registra la cantidad de horas de estudio y la nota obtenida en un examen.

    Respuesta

    \(\Rightarrow\) Variable 1: Horas de estudio

    \(\Rightarrow\) Variable 2: Nota del examen

  • Comprender la relación entre dos variables mediante el análisis gráfico, numérico y algebraico.
  • Se puede plantear la hipótesis de que a mayor número de horas de estudio, podría obtenerse una mejor nota.

    E3. Se analiza el número de visitas a una tienda online y las ventas realizadas.

    Respuesta

    \(\Rightarrow\) Variable 1: Número de visitas

    \(\Rightarrow\) Variable 2: Ventas diarias

  • Comprender la relación entre dos variables mediante el análisis gráfico, numérico y algebraico.
  • Se puede plantear la hipótesis de que un mayor número de visitas podría asociarse a un mayor número de ventas.

    1.4. Tablas de contingencia.

    Una tabla de contingencia es una herramienta que organiza los datos de dos variables cualitativas en filas y columnas, permitiendo observar la frecuencia conjunta de sus categorías. Facilita el análisis de la posible relación entre ambas variables.

    • Filas: representan las categorías de una variable.
    • Columnas: representan las categorías de la otra variable.
    • Frecuencia conjunta: cantidad de individuos que cumplen ambas características.

    Observación: También se pueden calcular totales marginales para cada fila y columna, y el total general.

    1.5. Ejemplo(s).

    E1. Se encuestan \(100\) personas sobre su preferencia de bebida (té o café) y su preferencia de temperatura (caliente o fría).

    Respuesta

    Se obtiene la siguiente tabla de contingencia:

    Bebida / Temperatura Caliente Fría Total
    30 10 40
    Café 50 10 60
    Total 80 20 100

    E2. En una empresa se registran los datos de \(120\) empleados según su área de trabajo (Ventas o Administración) y su modalidad laboral (Presencial o Teletrabajo).

    Respuesta

    Se obtiene la siguiente tabla de contingencia:

    Área / Modalidad Presencial Teletrabajo Total
    Ventas 40 20 60
    Administración 30 30 60
    Total 70 50 120

    E3. Se registra el nivel de satisfacción de \(150\) clientes en tres tipos de servicio: básico, estándar y premium.

    Respuesta

    Se obtiene la siguiente tabla de contingencia:

    Servicio / Satisfacción Baja Media Alta Total
    Básico 20 15 5 40
    Estándar 10 25 15 50
    Premium 5 10 45 60
    Total 35 50 65 150

    1.6. Tablas de contingencia en RStudio.

    En RStudio, una tabla de contingencia se construye utilizando datos categóricos y aplicando funciones como table() o xtabs(). Estas funciones permiten organizar de forma rápida las frecuencias conjuntas entre dos variables cualitativas.

    • Función table(): crea una tabla simple cruzando dos vectores categóricos.
    • # Genera tabla de contingencia.
      table(variable1, variable2)
    • Función addmargins(): agrega sumas automáticas de filas, columnas y total general en una tabla.
    • # Añade totales marginales a la tabla de contingencia.
      addmargins(tabla)
    • Función cut(): divide una variable numérica en intervalos o categorías definidas.
    • # Divide un grupo de datos en intervalos.
      cut(variable_numerica, 
          breaks = c(valor1, valor2, ...),
          labels = c("etiqueta1", "etiqueta2", ...))
    • Visualización: el resultado es una tabla que muestra la frecuencia conjunta de las categorías, con posibilidad de ver totales.

    1.7. Ejemplo(s)

    E1. Se registran los datos de \(300\) personas, anotando su género y su región.

    Respuesta

    La siguiente tabla muestra la cantidad de personas por género en cada región.

    Tabla1=table(BD1$Genero,BD1$Región)
    Tabla de contingencia: Género vs Región
    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
    F 11 17 11 20 17 13 15 16 18 16 19 17 14 12 14 12
    M 22 15 16 21 16 17 15 20 12 20 13 13 17 14 11 16

    E2. Se registran los datos de \(500\) personas, anotando su género y su ingreso en intervalos de \(\$500.000\) pesos.

    Respuesta

    La siguiente tabla muestra la cantidad de personas por género según su nivel de ingresos.

    # Divide un grupo de datos en intervalos.
    BD1$Ingreso_Intervalos = cut(BD1$Ingreso, 
        breaks = c(0, 500000, 1000000, 1500000, 2000000, 2500000),
        labels = c("Bajo","Medio bajo", "Medio", "Medio Alto", "Alto"))
    
    Tabla2 = table(BD1$Genero,BD1$Ingreso_Intervalos)
    Tabla de contingencia: Género vs Región
    Bajo Medio bajo Medio Medio Alto Alto
    F 0 70 61 63 48
    M 0 60 78 67 53

    E3. Se registran los datos de \(409\) personas, anotando su género y su deuda en intervalos de \(\$5.000.000\) pesos.

    Respuesta

    La siguiente tabla muestra la cantidad de personas por género según su nivel de deuda.

    # Divide un grupo de datos en intervalos.
    Tabla3 = BD1$Ingreso_Intervalos = cut(BD2$Deuda, 
        breaks = c(0, 5000000, 10000000, 15000000, 20000000, 25000000),
        labels = c("Bajo","Medio bajo", "Medio", "Medio Alto", "Alto"))
    
    Tabla3 = addmargins(table(BD1$Genero,BD1$Ingreso_Intervalos))
    Tabla de contingencia: Género vs Región
    Bajo Medio bajo Medio Medio Alto Alto Sum
    F 40 36 35 44 42 197
    M 45 44 43 37 43 212
    Sum 85 80 78 81 85 409

    1.8. Diagrama de dispersión.

    Un diagrama de dispersión es una representación gráfica que muestra la relación entre dos variables cuantitativas, colocando los valores de una variable en el eje horizontal (eje \(x\)) y los valores de la otra variable en el eje vertical (eje \(y\)). Cada par de datos se representa como un punto en el plano.

    • Eje \(x\): representa los valores de la primera variable.
    • Eje \(y\): representa los valores de la segunda variable.
    • Puntos: cada punto en el plano representa un par de valores correspondientes a las dos variables.

    1.9. Diagrama de dispersión en R.

    En R, un diagrama de dispersión se crea utilizando la función plot(), que permite representar gráficamente los pares de datos de dos variables cuantitativas.

    • Función plot(): genera el gráfico de dispersión a partir de dos vectores numéricos.
    • # Gráfico de dispersión.
      plot(variable_x, variable_y,
           main = "Título del gráfico",
           xlab = "Nombre del eje x",
           ylab = "Nombre del eje y",
           pch = 1, # Tipo de punto.
           cex = 1, # Tamaño de puntos.
           col = "blue")

    1.5. Ejemplo(s).

    E1. Se registran los datos de \(100\) personas, anotando su edad y su ingreso mensual, para analizar si existe una relación entre ambas variables.

    Respuesta

    El siguiente gráfico muestra un diagrama de dispersión:

    plot(BD1$Edad, BD1$Ingreso,
         main = "Ingreso por Edad",
         xlab = "Edad",
         ylab = "Ingreso",
         pch = 1, # Tipo de puntos.
         cex = 1, # Tamaño de puntos.
         col = "blue")

    El gráfico no muestra una tendencia clara que relacione la edad con el ingreso.

    E2. Se registran los datos de \(400\) personas, anotando su edad y su nivel de deuda, para analizar si existe una relación entre ambas variables.

    Respuesta

    El siguiente gráfico muestra un diagrama de dispersión:

    plot(BD1$Edad, BD1$Deuda,
         main = "Ingreso por Edad",
         xlab = "Edad",
         ylab = "Deuda",
         pch = 1, # Tipo de puntos.
         cex = 1, # Tamaño de puntos.
         col = "blue")
    El gráfico muestra una tendencia clara que relacione la edad con la deuda.

    E3. Se registran los datos de \(400\) personas, anotando su edad y su nivel de deuda, para analizar si existe una relación entre ambas variables.

    Respuesta

    El siguiente gráfico muestra un diagrama de dispersión:

    plot(BD1$Ingreso, BD1$Deuda,
         main = "Ingreso por Edad",
         xlab = "Ingreso",
         ylab = "Deuda",
         pch = 1, # Tipo de puntos.
         cex = 1, # Tamaño de puntos.
         col = "blue")
    El gráfico muestra una tendencia clara que relacione el ingreso con la deuda.