1 Problema mostrado

En los últimos tiempos hay una cantidad cada vez mayor de opciones de entretenimiento que compiten por el tiempo de los consumidores. En 2004, la televisión por cable y el radio superaron a la televisión abierta, a la música grabada y a los periódicos, convirtiéndose en los medios de entretenimiento más usados. Con una muestra de 15 individuos se obtienen los datos de las horas por semana que ven televisión por cable y de las horas por semana que escuchan la radio.

library(gt)
library(knitr)
individuos = 1:15
television = c(22,8,25,22,12,26,22,19,21,23,14,14,14,16,24)
radio = c(25,10,29,19,13,28,23,21,21,23,15,18,17,15,23)

tabla = data.frame(
  individuos = individuos,
  television = as.numeric(television),
  radio = as.numeric(radio)
)

tabla %>%
  gt()  %>%
  tab_header(
    title = "Consumo semanal de medios",
    subtitle = "Horas por individuo"
  ) %>%
  cols_label(
    individuos = "Individuo",
    television = "Televisión (h/sem)",
    radio = "Radio (h/sem)"
  ) %>%
  cols_align(
  align = "center"
  ) %>%
  tab_options(
    table.border.left.width = 1,
    table.border.right.width = 1,
    table.border.top.width = 1,
    table.border.bottom.width = 1
  )
Consumo semanal de medios
Horas por individuo
Individuo Televisión (h/sem) Radio (h/sem)
1 22 25
2 8 10
3 25 29
4 22 19
5 12 13
6 26 28
7 22 23
8 19 21
9 21 21
10 23 23
11 14 15
12 14 18
13 14 17
14 16 15
15 24 23

2 Planteamiento del problema

2.1 Contexto del análisis

En el marco de opciones de entretenimiento, en 2004 destacaban el uso de la televisión por cable y la escucha de la radio.

2.2 Pregunta del estudio

A partir de una muestra de 15 individuos se busca conocer qué medio de entretenimiento tenía más horas de uso en promedio en el 2004.

2.3 Objetivo del estudio

Determinar si existe una diferencia estadísticamente significativa en el promedio de horas semanales que se le dedica a la televisión por cable y radio en una muestra de individuos considerando datos dependientes y un nivel de significancia del 5%.

2.4 Justificación

Gracias al aumento de consumo de medios de entretenimiento resulta relevante estudiar cómo los consumidores distribuyen su tiempo de consumo semanal entre la televisión por cable y la radio. Este estudio nos permitirá identificar posibles diferencias entre los patrones de consumo y ejemplifica la aplicación de métodos inferenciales para datos dependientes.

3 Marco conceptual

3.1 Tipo de variables

variable = c(
  "individuo",
  "television",
  "radio"
)

definicion_conceptual = c(
  "# de persona encuestada",
  "Tiempo dedicado al uso de la television por cable",
  "Tiempo dedicado al uso de la radio"
)

definicion_operacional = c(
  "Identificador de la persona encuestada",
  "# de horas reportadas por individuo por semana",
  "# de horas reportadas por individuo por semana"
)

tipo = c(
  "Cualitativa nominal",
  "Cuantitativa continua",
  "Cuantitativa continua"
)

escala = c(
  "Nominal",
  "Razón",
  "Razón"
)

unidad = c(
  "N/A",
  "Horas",
  "Horas"
)

rol = c(
  "Variable identificadora",
  "Variable dependiente",
  "Variable dependiente"
)

cuadro = data.frame(
  variable = variable,
  definicion_conceptual = definicion_conceptual,
  definicion_operacional = definicion_operacional,
  tipo = tipo,
  escala = escala,
  unidad = unidad,
  rol = rol
  
)

cuadro %>%
  gt()  %>%
  tab_header(
    title = "Cuadro de operacionalización de variables",
    subtitle = "Cómo se observa, mide y clasifica cada variable"
  ) %>%
  cols_label(
  variable = "Variable",
  definicion_conceptual = "Definición conceptual",
  definicion_operacional = "Definición operacional",
  tipo = "Tipo de variable (naturaleza)",
  escala = "Escala de medición",
  unidad = "Unidad de medición",
  rol = "Rol en el estudio"
  ) %>%
  cols_align(
  align = "center"
  ) %>%
  tab_options(
    table.border.left.width = 1,
    table.border.right.width = 1,
    table.border.top.width = 1,
    table.border.bottom.width = 1
  )
Cuadro de operacionalización de variables
Cómo se observa, mide y clasifica cada variable
Variable Definición conceptual Definición operacional Tipo de variable (naturaleza) Escala de medición Unidad de medición Rol en el estudio
individuo # de persona encuestada Identificador de la persona encuestada Cualitativa nominal Nominal N/A Variable identificadora
television Tiempo dedicado al uso de la television por cable # de horas reportadas por individuo por semana Cuantitativa continua Razón Horas Variable dependiente
radio Tiempo dedicado al uso de la radio # de horas reportadas por individuo por semana Cuantitativa continua Razón Horas Variable dependiente

4 Metodología

4.1 Tipo de estudio

El presente estudio corresponde a un enfoque cuantitativo dado que analiza variables numéricas mediante técnicas de estadística inferencial. Se tiene un diseño observacional, ya que no se manipulan las variables dentro del contexto del estudio. El estudio es del tipo transversal, puesto que la información fue recolectada en un único periodo de tiempo y el estudio presenta datos dependientes, debido a que cada individuo aporta 2 observaciones relacionadas.

4.2 Población y muestra

Se tiene una muestra disponible de 15 individuos que usan la radio y la televisión como medios de entretenimiento los cuales analizaremos a nivel individuo.

4.3 Variables analizadas

Variable 1: Horas semanales de uso de la televisión. Variable 2: Horas semanales de uso de la radio.

4.4 Procedimiento estadístico

Se realizó un análisis descriptivo de las variables horas semanales dedicadas a televisión por cable y radio mediante el cálculo de medidas de tendencia central (media y mediana) y de dispersión (desviación estándar y rango).

Posteriormente, se creó la variable diferencia definida como $diferencia = Televisión - Radio $. Con respecto a esta variable se verificó el supuesto de normalidad mediante la prueba de Shapiro-Wilk, considerando un nivel de significancia \(\alpha = 0.05\).

5 Análisis descriptivo

5.1 Tabla resumen

library(dplyr)
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(gt)
resumen <- tabla %>%
  reframe(
    medio = c("Television", "Radio"),
    min = c(min(television), min(radio)),
    max = c(max(television), max(radio)),
    range = c(
      max(television) - min(television),
      max(radio) - min(radio) 
      ),
    mean = c(mean(television), mean(radio)),
    median = c(median(television), median(radio)),
    sd = c(sd(television), sd(radio)),
    q1 = c(quantile(television, 0.25), quantile(radio, 0.25)),
    q3 = c(quantile(television, 0.75), quantile(radio, 0.75))
)

resumen %>%
  gt() %>%
  tab_header(
    title = "Tabla de estadísticos"
    ) %>%
  cols_label(
    medio = "Medio de entretenimiento",
    min = "Valor mínimo",
    max = "Valor máximo",
    range = "Rango",
    mean = "Media",
    median = "Mediana",
    sd = "desviación estándar",
    q1 = "1° Cuartil",
    q3 = "3° Cuartil"
  )
Tabla de estadísticos
Medio de entretenimiento Valor mínimo Valor máximo Rango Media Mediana desviación estándar 1° Cuartil 3° Cuartil
Television 8 26 18 18.8 21 5.414267 14 22.5
Radio 10 29 19 20.0 21 5.424811 16 23.0

5.2 Boxplots

nombres <- c("Televisión", "Radio")
table <- data.frame(television, radio)
boxplot(
  table,
  col = rainbow(ncol(table)),
  names = nombres, main="Boxplots de opciones de entretenimiento",
  ylab = "Horas por semana"
  )

medias <- colMeans(table)

points(x = 1:2,
       y = medias,
       pch = 19,        # punto sólido
       col = "blue",
       cex = 1.2)
segments(x0 = 1:2 - 0.4, y0 = medias,
         x1 = 1:2 + 0.4, y1 = medias,
         col = "blue", lwd = 3, lty=2)

5.2.1 Conclusiones

Las gráficas muestran que el tiempo dedicado a escuchar la radio tiende a ser mayor que el tiempo dedicado a ver televisión, ya que la media es más alta. A pesar de que el rango de observaciones de la radio es mayor, el dato más pequeño observado tiene 2 horas más de diferencia con el dato mas pequeño de las observaciones de la televisión.

6 Análisis inferencial

6.1 Creación de variable de diferencias de tiempo

Para realizar una prueba t pareada es necesario crear una variable que represente la diferencia de horas de uso semanales de la radio y la televisión de los individuos, por tal razón definimos:

variable2 = "Diferencia"


definicion_conceptual2 = "Diferencia de tiempo dedicado entre el uso de la televisión por cable y la radio"

definicion_operacional2 = "# de horas de diferencia de uso por individuo por semana"


tipo2 = "Cuantitativa continua"

escala2 = "Razón"

unidad2 = "Horas"

rol2 = "Variable derivada para la prueba t pareada y analizar la distribución de diferencias"


cuadro2 = data.frame(
  variable2 = variable2,
  definicion_conceptual2 = definicion_conceptual2,
  definicion_operacional2 = definicion_operacional2,
  tipo2 = tipo2,
  escala2 = escala2,
  unidad2 = unidad2,
  rol2 = rol2
  
)

cuadro2 %>%
  gt()  %>%
  tab_header(
    title = "Cuadro de operacionalización de variables",
    subtitle = "Cómo se observa, mide y clasifica cada variable"
  ) %>%
  cols_label(
  variable2 = "Variable",
  definicion_conceptual2 = "Definición conceptual",
  definicion_operacional2 = "Definición operacional",
  tipo2 = "Tipo de variable (naturaleza)",
  escala2 = "Escala de medición",
  unidad2 = "Unidad de medición",
  rol2 = "Rol en el estudio"
  ) %>%
  cols_align(
  align = "center"
  ) %>%
  tab_options(
    table.border.left.width = 1,
    table.border.right.width = 1,
    table.border.top.width = 1,
    table.border.bottom.width = 1
  )
Cuadro de operacionalización de variables
Cómo se observa, mide y clasifica cada variable
Variable Definición conceptual Definición operacional Tipo de variable (naturaleza) Escala de medición Unidad de medición Rol en el estudio
Diferencia Diferencia de tiempo dedicado entre el uso de la televisión por cable y la radio # de horas de diferencia de uso por individuo por semana Cuantitativa continua Razón Horas Variable derivada para la prueba t pareada y analizar la distribución de diferencias
tabladiferencia = tabla$television - tabla$radio
tabladiferencia
##  [1] -3 -2 -4  3 -1 -2 -1 -2  0  0 -1 -4 -3  1  1
summary(tabladiferencia)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    -4.0    -2.5    -1.0    -1.2     0.0     3.0
sd(tabladiferencia)
## [1] 1.971222

6.2 Prueba t pareada para diferencia de medias

Es necesario aplicar una prueba t pareada para determinar si hay una diferencia estadísticamente significativa entre la media de horas por semana en que los individuos ven televisión y la media de horas por semana en que escuchan la radio.

6.2.1 Prueba de normalidad

Primero, revisamos si los datos siguen una distribución normal:

Teniendo en cuenta que el tamaño de la muestra es menor a 50 (\(n = 15\)), se realiza el test de Shapiro-Wilk para comprobar la normalidad de los datos con nivel de significancia \(\alpha = 0.05\) y con \[ \begin{aligned} H_0 &: \text{Las diferencias siguen una distribución normal} \\ H_1 &: \text{Las diferencias no siguen una distribución normal} \end{aligned} \]

shapiro.test(tabladiferencia)
## 
##  Shapiro-Wilk normality test
## 
## data:  tabladiferencia
## W = 0.95863, p-value = 0.6686

Dado que el estadístico \(W = 0.95863\) Y \(\text{p-value}:0.6686 > \alpha = 0.05\) no hay evidencia suficiente para rechazar \(H_0\). Por lo tanto, existe evidencia estadística suficiente para afirmar que los datos cumplen con los supuestos necesarios para aplicar la prueba de diferencia de medias.

6.2.2 Prueba t pareada

Ahora, seguimos con la prueba t pareada.

\[ \begin{aligned} H_0 &: \mu_{television} - \mu_{radio} = 0 \\ H_1 &: \mu_{television} - \mu_{radio} \neq 0 \\ \alpha &= 0.05 \end{aligned} \]

t.test(x = tabla$television, y = tabla$radio, alternative = "two.sided",
       mu = 0, paired = TRUE, conf.level = 0.95)
## 
##  Paired t-test
## 
## data:  tabla$television and tabla$radio
## t = -2.3577, df = 14, p-value = 0.03347
## alternative hypothesis: true mean difference is not equal to 0
## 95 percent confidence interval:
##  -2.2916261 -0.1083739
## sample estimates:
## mean difference 
##            -1.2

6.2.3 Conclusiones

Con lo anterior, se obtiene un p-valor de \(0.03347 < 0.05\) por lo que se rechaza la hipótesis nula. Es decir, podemos afirmar que sí hay evidencia estadísticamente significativa para decir que el tiempo promedio que los individuos dedican a ver televisión es distinto al tiempo que dedican a usar radio.

Además, la media de diferencia es -1.2 lo cual nos dice que en promedio las personas usan 1.2 horas más a la semana la radio y está a \(t = -2.35\) desviaciones estándar por debajo de lo que esperaríamos si no hubiera diferencia, siendo menor que el valor crítico de \(\text{valor critico} = \pm 2.145\) lo cual nos reafirma que no es una coincidencia y existe un efecto real en los datos. Añadiendo, el intervalo con 95% de confianza no incluye al 0 y se mantiene negativo en los extremos lo cual no nos contradice esta inferencia.