La estadística bivariada estudia simultáneamente dos variables con el objetivo de analizar la posible relación existente entre ellas, ya sea mediante métodos gráficos, numéricos o algebraicos.
E1. Se registran las edades y alturas de un grupo de estudiantes.
\(\Rightarrow\) Variable 1: Edad (años)
\(\Rightarrow\) Variable 2: Altura (centímetros)
E2. Se registra la cantidad de horas de estudio y la nota obtenida en un examen.
\(\Rightarrow\) Variable 1: Horas de estudio
\(\Rightarrow\) Variable 2: Nota del examen
E3. Se analiza el número de visitas a una tienda online y las ventas realizadas.
\(\Rightarrow\) Variable 1: Número de visitas
\(\Rightarrow\) Variable 2: Ventas diarias
Una tabla de contingencia es una herramienta que organiza los datos de dos variables cualitativas en filas y columnas, permitiendo observar la frecuencia conjunta de sus categorías. Facilita el análisis de la posible relación entre ambas variables.
Observación: También se pueden calcular totales marginales para cada fila y columna, y el total general.
E1. Se encuestan \(100\) personas sobre su preferencia de bebida (té o café) y su preferencia de temperatura (caliente o fría).
Se obtiene la siguiente tabla de contingencia:
Bebida / Temperatura | Caliente | Fría | Total |
---|---|---|---|
Té | 30 | 10 | 40 |
Café | 50 | 10 | 60 |
Total | 80 | 20 | 100 |
E2. En una empresa se registran los datos de \(120\) empleados según su área de trabajo (Ventas o Administración) y su modalidad laboral (Presencial o Teletrabajo).
Se obtiene la siguiente tabla de contingencia:
Área / Modalidad | Presencial | Teletrabajo | Total |
---|---|---|---|
Ventas | 40 | 20 | 60 |
Administración | 30 | 30 | 60 |
Total | 70 | 50 | 120 |
E3. Se registra el nivel de satisfacción de \(150\) clientes en tres tipos de servicio: básico, estándar y premium.
Se obtiene la siguiente tabla de contingencia:
Servicio / Satisfacción | Baja | Media | Alta | Total |
---|---|---|---|---|
Básico | 20 | 15 | 5 | 40 |
Estándar | 10 | 25 | 15 | 50 |
Premium | 5 | 10 | 45 | 60 |
Total | 35 | 50 | 65 | 150 |
En RStudio, una tabla de contingencia se construye utilizando datos
categóricos y aplicando funciones como table()
o
xtabs()
. Estas funciones permiten organizar de forma rápida
las frecuencias conjuntas entre dos variables cualitativas.
table()
: crea una
tabla simple cruzando dos vectores categóricos.# Genera tabla de contingencia.
table(variable1, variable2)
addmargins()
:
agrega sumas automáticas de filas, columnas y total general en una
tabla.# Añade totales marginales a la tabla de contingencia.
addmargins(tabla)
cut()
: divide una
variable numérica en intervalos o categorías definidas.# Divide un grupo de datos en intervalos.
cut(variable_numerica,
breaks = c(valor1, valor2, ...),
labels = c("etiqueta1", "etiqueta2", ...))
E1. Se registran los datos de \(300\) personas, anotando su género y su región.
La siguiente tabla muestra la cantidad de personas por género en cada región.
Tabla1=table(BD1$Genero,BD1$Región)
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
F | 11 | 17 | 11 | 20 | 17 | 13 | 15 | 16 | 18 | 16 | 19 | 17 | 14 | 12 | 14 | 12 |
M | 22 | 15 | 16 | 21 | 16 | 17 | 15 | 20 | 12 | 20 | 13 | 13 | 17 | 14 | 11 | 16 |
E2. Se registran los datos de \(500\) personas, anotando su género y su ingreso en intervalos de \(\$500.000\) pesos.
La siguiente tabla muestra la cantidad de personas por género según su nivel de ingresos.
# Divide un grupo de datos en intervalos.
BD1$Ingreso_Intervalos = cut(BD1$Ingreso,
breaks = c(0, 500000, 1000000, 1500000, 2000000, 2500000),
labels = c("Bajo","Medio bajo", "Medio", "Medio Alto", "Alto"))
Tabla2 = table(BD1$Genero,BD1$Ingreso_Intervalos)
Bajo | Medio bajo | Medio | Medio Alto | Alto | |
---|---|---|---|---|---|
F | 0 | 70 | 61 | 63 | 48 |
M | 0 | 60 | 78 | 67 | 53 |
E3. Se registran los datos de \(409\) personas, anotando su género y su deuda en intervalos de \(\$5.000.000\) pesos.
La siguiente tabla muestra la cantidad de personas por género según su nivel de deuda.
# Divide un grupo de datos en intervalos.
Tabla3 = BD1$Ingreso_Intervalos = cut(BD2$Deuda,
breaks = c(0, 5000000, 10000000, 15000000, 20000000, 25000000),
labels = c("Bajo","Medio bajo", "Medio", "Medio Alto", "Alto"))
Tabla3 = addmargins(table(BD1$Genero,BD1$Ingreso_Intervalos))
Bajo | Medio bajo | Medio | Medio Alto | Alto | Sum | |
---|---|---|---|---|---|---|
F | 40 | 36 | 35 | 44 | 42 | 197 |
M | 45 | 44 | 43 | 37 | 43 | 212 |
Sum | 85 | 80 | 78 | 81 | 85 | 409 |
Un diagrama de dispersión es una representación gráfica que muestra la relación entre dos variables cuantitativas, colocando los valores de una variable en el eje horizontal (eje \(x\)) y los valores de la otra variable en el eje vertical (eje \(y\)). Cada par de datos se representa como un punto en el plano.
En R, un diagrama de dispersión se crea utilizando la función
plot()
, que permite representar gráficamente los pares de
datos de dos variables cuantitativas.
plot()
: genera el
gráfico de dispersión a partir de dos vectores numéricos.
# Gráfico de dispersión.
plot(variable_x, variable_y,
main = "Título del gráfico",
xlab = "Nombre del eje x",
ylab = "Nombre del eje y",
pch = 1, # Tipo de punto.
cex = 1, # Tamaño de puntos.
col = "blue")
E1. Se registran los datos de \(100\) personas, anotando su edad y su ingreso mensual, para analizar si existe una relación entre ambas variables.
El siguiente gráfico muestra un diagrama de dispersión:
plot(BD1$Edad, BD1$Ingreso,
main = "Ingreso por Edad",
xlab = "Edad",
ylab = "Ingreso",
pch = 1, # Tipo de puntos.
cex = 1, # Tamaño de puntos.
col = "blue")
E2. Se registran los datos de \(400\) personas, anotando su edad y su nivel de deuda, para analizar si existe una relación entre ambas variables.
El siguiente gráfico muestra un diagrama de dispersión:
plot(BD1$Edad, BD1$Deuda,
main = "Ingreso por Edad",
xlab = "Edad",
ylab = "Deuda",
pch = 1, # Tipo de puntos.
cex = 1, # Tamaño de puntos.
col = "blue")
E3. Se registran los datos de \(400\) personas, anotando su edad y su nivel de deuda, para analizar si existe una relación entre ambas variables.
El siguiente gráfico muestra un diagrama de dispersión:
plot(BD1$Ingreso, BD1$Deuda,
main = "Ingreso por Edad",
xlab = "Ingreso",
ylab = "Deuda",
pch = 1, # Tipo de puntos.
cex = 1, # Tamaño de puntos.
col = "blue")