1 - ¿Está cargado el dado?

  1. ¿Está cargado el dado?

Se lanza un dado 60 veces y se registran estos resultados: 1: 15, 2: 15, 3: 5, 4: 8, 5: 12, 6: 5. ¿Podemos afirmar que el dado está cargado o tiene distribución uniforme?

Prueba estadistica adecuada:

La prueba estadistica adecuada para este ejercicio es la prueba de bondad debido a que buscamos encontrar que tan cercanos estan los datos de la hipotesis nula, en este caso midiendo la frecuencia observadas, con las esperadas en la hipotesis nula.

Hipótesis (H0 y H1):

Hipótesis nula H0: Las frecuencias observadas siguen una distribucion uniforme

  • Hipótesis alternativa H1: Las frecuencias observadas no siguen una distribucion uniforme

Prueba chi-cuadrado de bondad de ajuste:

# Datos observados
observadas <- c(15, 15, 5, 8, 12, 5)
caras <- c("1", "2", "3", "4", "5", "6")
total_lanzamientos <- sum(observadas)  
esperadas <- rep(total_lanzamientos / 6, 6)  
chisq.test(observadas, p = rep(1/6, 6))
## 
##  Chi-squared test for given probabilities
## 
## data:  observadas
## X-squared = 10.8, df = 5, p-value = 0.05549

De los resultados obtenidos por la prueba de bondad de ajuste podemos encontrar que el dado no esta cargado y por ende, las frecuencias observadas siguen una distribucion uniforme, esto es asi debido a que (χ^5 = 10.8, p = 0.0554). Gracias a que el p value es mayor a 0.05, con poca significancia, no se rechaza la hipotesis nula, por lo que efectivamente el dado no esta alterado para tener preferencia por cierto numero en especifico, y las variaciones existentes en los resultados pueden ser atribuidas al azar, por la falta de significacia.

Estadística descriptiva y visualizaciones:

library(ggplot2)

# Crear el data frame con los datos (expandiendo frecuencias a filas)
cara <- c(rep(1, 15), rep(2, 15), rep(3, 5), rep(4, 8), rep(5, 12), rep(6, 5))
datos_dado <- data.frame(Cara = cara)

# Generar tabla de frecuencias con xtabs (para una variable)
dado_frec <- xtabs(~ Cara, data = datos_dado)
print(dado_frec)
## Cara
##  1  2  3  4  5  6 
## 15 15  5  8 12  5
df_obs <- data.frame(Cara = names(dado_frec), Frecuencia = as.numeric(dado_frec), Tipo = "Observada")
df_esp <- data.frame(Cara = 1:6, Frecuencia = esperadas, Tipo = "Esperada")
df <- rbind(df_obs, df_esp)

ggplot(df, aes(x = Cara, y = Frecuencia, fill = Tipo)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Frecuencias Observadas vs Esperadas del Dado",
       y = "Frecuencia", x = "Cara del Dado") +
  theme_minimal() +
  scale_fill_manual(values = c("Observada" = "blue", "Esperada" = "red"))

# Estadística descriptiva adicional
# Frecuencias absolutas (ya en la tabla)
print("Frecuencias absolutas:")
## [1] "Frecuencias absolutas:"
print(dado_frec)
## Cara
##  1  2  3  4  5  6 
## 15 15  5  8 12  5
# Frecuencias relativas
print("Frecuencias relativas:")
## [1] "Frecuencias relativas:"
prop.table(dado_frec)
## Cara
##          1          2          3          4          5          6 
## 0.25000000 0.25000000 0.08333333 0.13333333 0.20000000 0.08333333

De loss 60 datos recopilados de los tiros de dados se puede observar que el numero 1 y 2 fueron las caras más frecuentes con un 25% de ser obtenidas, 3 y 6 fueron las caras menos obtenidas con un 8%, 5 fue obtenido en un 20%, con 8 tiradas en donde salio esa cara. Mientras que 4 fue obtenido en un 13%. Esto nos permite observar que a pesar de que todos los numeros no fueron obtenidos de igual proporcion, aun es posible encontrar vestigios de una proporcion uniforme, con cambios probablemente generados por el azar.

2 - ¿Todos los colores gustan por igual?

En una encuesta a 200 personas sobre su color favorito para un producto, las respuestas fueron: * Rojo: 40 * Azul: 50 * Verde: 30 * Amarillo: 40 * Negro: 40 ¿Existe preferencia uniforme entre los colores o algunas opciones destacan más que otras?

Prueba estadística adecuada:

prueba chi-cuadrado de bondad de ajuste: Queremos comparar las frecuencias observadas con las esperadas bajo la hipótesis de preferencia uniforme.

Hipótesis (H0 y H1):

  • Hipótesis nula H0: La proporción de preferencia es igual en los 5 colores
  • Hipótesis alternativa H1: Al menos una categoría tiene una proporción diferente a las otras.

Prueba chi-cuadrado de bondad de ajuste:

# Datos observados
colores <- c("Rojo", "Azul", "Verde", "Amarillo", "Negro")
frecuencias_observadas <- c(40, 50, 30, 40, 40)

# Total de encuestados
n <- sum(frecuencias_observadas)

# Frecuencia esperada si todos gustan por igual
frecuencias_esperadas <- rep(n / length(colores), length(colores))

# Prueba de bondad de ajuste Chi-cuadrado
prueba <- chisq.test(frecuencias_observadas, p = rep(1/length(colores), length(colores)))

# Resultados
prueba
## 
##  Chi-squared test for given probabilities
## 
## data:  frecuencias_observadas
## X-squared = 5, df = 4, p-value = 0.2873

La prueba de bondad de ajuste indica que no existen diferencias significativas en la preferencia de color para rechazar H0, (χ² = 5, gl = 4, p = 0.2873). Aunque se ven algunas variaciones el valor p obtenido: p-value = 0.2873, es mayor que 0.05 por lo que no hay evidencia estadísticamente significativa, por lo que se puede decir que las variaciones que hay son atribuibles al azar y no se rechaza la hipótesis nula que era que las preferencias de color son uniformes entre los participantes.

Estadística descriptiva y visualizaciones:

# Estadística descriptiva
datos <- data.frame(Color = colores, Frecuencia = frecuencias_observadas)
datos
##      Color Frecuencia
## 1     Rojo         40
## 2     Azul         50
## 3    Verde         30
## 4 Amarillo         40
## 5    Negro         40
# Visualización
library(ggplot2)

ggplot(datos, aes(x = Color, y = Frecuencia, fill = Color)) +
  geom_bar(stat = "identity") +
  labs(title = "Preferencias de color para el producto",
       x = "Color",
       y = "Frecuencia de elección") +
  theme_minimal()

De las 200 personas encuestadas se puede observar que el azul fue el color más elegido con un 25% de las preferencias, 50 personas eligiendolo, verde fue el menos elegido con un 15%, con 30 personas eligiendolo, rojo, amarillo y negro tuvieron proporciones iguales, cada uno con un 20%, o 40 personas eligiendolos, por lo que se puede decir que las preferencias están relativamente distribuidas entre los colores.

Conclusión:

Con base en la prueba de bondad de ajuste, se concluye que no existen diferencias estadísticamente significativas en las preferencias de color de los encuestados. Por lo tanto, esto significa que no hay una preferencia clara por un color especifico, a pesar de que existen ciertas variaciones no son proporcionalmente significativas para poder afirmar que exista una tendencia real en la población.

3 - ¿La edad influye en las decisiones de compra?

Un estudio analiza el comportamiento de compra de productos tecnológicos según grupos de edad:

• Menores de 30: 150 compran, 850 no

• 30 a 45 años: 200 compran, 800 no

• Mayores de 45: 50 compran, 950 no

¿Existe una asociación entre la edad y la decisión de compra?

prueba chi-cuadrado de independencia:

Se utiliza la prueba chi - cuadrado de independencia debido a que el objetivo de la pregunta es encontrar si existe una relacion de asociacion entre dos variables categoricas.

Hipótesis (H0 y H1):

  • Hipótesis nula H0: ; No existe asociacion entre la edad y la decision de compra.

  • Hipótesis alternativa H1: Existe asociacion entre la edad y la decision de compra.

Prueba chi-cuadrado de independencia:

edad <- c(rep("<30", 1000), rep("30-45", 1000), rep(">45", 1000))
compra <- c(rep("Sí", 150), rep("No", 850),  # <30
            rep("Sí", 200), rep("No", 800),  # 30-45
            rep("Sí", 50), rep("No", 950))   # >45
datos_compra <- data.frame(Edad = edad, Compra = compra)
datos_compra$Edad <- as.factor(datos_compra$Edad)
datos_compra$Compra <- as.factor(datos_compra$Compra)
compra_frec <- xtabs(~ Edad + Compra, data = datos_compra)
print(compra_frec)
##        Compra
## Edad     No  Sí
##   <30   850 150
##   >45   950  50
##   30-45 800 200
library(lsr)
## Warning: package 'lsr' was built under R version 4.4.3
resultado_asociacion <- associationTest(formula = ~ Edad + Compra, data = datos_compra)
print(resultado_asociacion) 
## 
##      Chi-square test of categorical association
## 
## Variables:   Edad, Compra 
## 
## Hypotheses: 
##    null:        variables are independent of one another
##    alternative: some contingency exists between variables
## 
## Observed contingency table:
##        Compra
## Edad     No  Sí
##   <30   850 150
##   >45   950  50
##   30-45 800 200
## 
## Expected contingency table under the null hypothesis:
##        Compra
## Edad     No  Sí
##   <30   867 133
##   >45   867 133
##   30-45 867 133
## 
## Test results: 
##    X-squared statistic:  100.962 
##    degrees of freedom:  2 
##    p-value:  <.001 
## 
## Other information: 
##    estimated effect size (Cramer's v):  0.183

Con los resultados obtenidos por la prueba de indepencia podemos encontrar una asociacion significativa entre la edad y la decision de compra. Esto debido a que (X^2(2) = 100.9, p < 0.001), donde observamos un p value mucho menos a 0.05 y por ende, tomamos la decision de rechazar la hipotesis nula debido a la significancia de los resultados. Esto se refuerza aun mas con el Cramér’s V = 0.183, que indica una asociacion moderada entre las variables.

Estadística descriptiva y visualizaciones:

# Visualización
library(ggplot2)
df <- as.data.frame(as.table(compra_frec))
names(df) <- c("Edad", "Compra", "Frecuencia")

ggplot(df, aes(x = Edad, y = Frecuencia, fill = Compra)) +
  geom_bar(stat = "identity", position = "fill") +
  labs(title = "Distribución de Compra por Edad",
       y = "Proporción", x = "Edad") +
  theme_minimal() +
  scale_fill_manual(values = c("No" = "lightcoral", "Sí" = "lightgreen"))

# Estadística descriptiva
print("Frecuencias absolutas:")
## [1] "Frecuencias absolutas:"
print(compra_frec)
##        Compra
## Edad     No  Sí
##   <30   850 150
##   >45   950  50
##   30-45 800 200
print("Frecuencias relativas por edad:")
## [1] "Frecuencias relativas por edad:"
prop.table(compra_frec, margin = 1)
##        Compra
## Edad      No   Sí
##   <30   0.85 0.15
##   >45   0.95 0.05
##   30-45 0.80 0.20
print("Frecuencias relativas totales:")
## [1] "Frecuencias relativas totales:"
prop.table(compra_frec)
##        Compra
## Edad            No         Sí
##   <30   0.28333333 0.05000000
##   >45   0.31666667 0.01666667
##   30-45 0.26666667 0.06666667

Con los datos obtenidos mediante las tablas de frecuencia podemos reforzar la idea de que existe una relacion entre la edad y la decision de compra,ya que encontramos que las personas menores de 30 años tienen una proporcion de compra del 5%, mientras que las de 30 y 45 años alcanzan el valor mas alto, con 6.7 %. En el otro lado, los mayores de 45% son quienes menos compran con solo un 1.7 %.

4 - ¿El género influye en la preferencia por un producto?

Se evaluó la preferencia por dos versiones de un producto según el género: * Hombres: 300 prefieren A, 200 prefieren B * Mujeres: 250 prefieren A, 250 prefieren B ¿Hay relación entre el género y la elección del producto?

Prueba estadística adecuada:

prueba chi-cuadrado de independencia: Ya que ambas son variables categóricas, para evaluar si realmente existe una asociación entre las dos variables y se usa esta prueba aplicada a una tabla de contingencia.

Hipótesis (H0 y H1):

  • Hipótesis nula H0: No existe relación entre el género y la preferencia del producto
  • Hipótesis alternativa H1: Existe relación entre el género y la preferencia del producto.

Prueba chi-cuadrado de independencia y tabla de contingencia:

#Datos y tabla de contingencia

# Crear tabla de contingencia
tabla <- matrix(c(300, 200,
                  250, 250),
                nrow = 2, byrow = TRUE)

colnames(tabla) <- c("Producto A", "Producto B")
rownames(tabla) <- c("Hombres", "Mujeres")

tabla <- as.table(tabla)
tabla
##         Producto A Producto B
## Hombres        300        200
## Mujeres        250        250
# Prueba Chi-cuadrado de independencia
prueba_genero <- chisq.test(tabla)
prueba_genero
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  tabla
## X-squared = 9.701, df = 1, p-value = 0.001842

La prueba de chi-cuadrado de independencia nos muestra que se rechaza la hipótesis nula, el valor de p (p-value) es 0.001842, el cual es menor al valor de alfa o 0.05 lo que indica que se rechaza H0 y se acepta la hipótesis alternativa, lo que implica que si existe una relación significativa entre género y la preferencia por los productos.

Estadística descriptiva y visualizaciones:

# Convertir a data frame para visualización
library(ggplot2)
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
datos <- as.data.frame(tabla)
colnames(datos) <- c("Genero", "Producto", "Frecuencia")

# Calcular proporciones dentro de cada género
datos <- datos %>%
  group_by(Genero) %>%
  mutate(Proporcion = Frecuencia / sum(Frecuencia))

# Gráfico de barras comparativo
ggplot(datos, aes(x = Producto, y = Proporcion, fill = Genero)) +
  geom_col(position = "dodge") +
  geom_text(aes(label = scales::percent(Proporcion, accuracy = 0.1)),
            position = position_dodge(0.9), vjust = -0.3) +
  labs(title = "Preferencia de producto según género",
       x = "Producto",
       y = "Proporción dentro de cada género") +
  scale_y_continuous(labels = scales::percent_format(accuracy = 1)) +
  theme_minimal()

En el grupo de hombres el 60% prefiere el producto A mientras que el 40% prefiere el B, por otra parte entre las mujeres las preferencias se encuentran equilibradas en un 50%-50%, por lo anterior se puede inferir que el género si influye en la elección del producto, además se puede ver una preferencia de los hombres al producto A.

Conclusión Se puede concluir que el género si influye significativamente en la elección y preferencia hacia el producto, ya que la prueba de chi-cuadrado muestra que las diferencias no se deben al azar. tal como se puede ver la preferencia por el producto A es mayor en hmbbres mientras que las mujeres no muestran una preferencia. Esto sugiere que las estrategias de marketing podrían considerar el género como un factor relevante al diseñar campañas o versiones del producto.

5 - ¿El tiempo de respuesta afecta la satisfacción?

Una empresa registra el tiempo de respuesta y la satisfacción: • Menos de 24h: 400 satisfechos, 100 insatisfechos

• Más de 24h: 200 satisfechos, 300 insatisfechos

¿Existe relación entre el tiempo de atención y la satisfacción?

Prueba estadística adecuada:

prueba chi-cuadrado de independencia: Se utiliza una prueba de independencia debido a que se esta buscando evaluar la asociacion entre dos variables categoricas con multiples observaciones e independientes de la otra, en este caso el tiempo de atencion y la satisfacción.

Hipótesis (H0 y H1):

  • Hipótesis nula H0: No existe relación entre el tiempo de atención y la satisfacción
  • Hipótesis alternativa H1: Existe relación entre el tiempo de atención y la satisfacción

prueba chi-cuadrado de independencia:

tiempo <- c(rep("Menos_24h", 400 + 100), rep("Mas_24h", 200 + 300))
satisfaccion <- c(rep("Satisfecho", 400), rep("Insatisfecho", 100), rep("Satisfecho", 200), rep("Insatisfecho", 300))

datos_satisfaccion <- data.frame(Tiempo = tiempo, Satisfaccion = satisfaccion)
datos_satisfaccion$Tiempo <- as.factor(datos_satisfaccion$Tiempo)
datos_satisfaccion$Satisfaccion <- as.factor(datos_satisfaccion$Satisfaccion)
satisfaccion_frec <- xtabs(~ Tiempo + Satisfaccion, data = datos_satisfaccion)
print(satisfaccion_frec)
##            Satisfaccion
## Tiempo      Insatisfecho Satisfecho
##   Mas_24h            300        200
##   Menos_24h          100        400
library(lsr)
resultado_5 <- associationTest(formula = ~ Tiempo + Satisfaccion, data = datos_satisfaccion)
print(resultado_5)
## 
##      Chi-square test of categorical association
## 
## Variables:   Tiempo, Satisfaccion 
## 
## Hypotheses: 
##    null:        variables are independent of one another
##    alternative: some contingency exists between variables
## 
## Observed contingency table:
##            Satisfaccion
## Tiempo      Insatisfecho Satisfecho
##   Mas_24h            300        200
##   Menos_24h          100        400
## 
## Expected contingency table under the null hypothesis:
##            Satisfaccion
## Tiempo      Insatisfecho Satisfecho
##   Mas_24h            200        300
##   Menos_24h          200        300
## 
## Test results: 
##    X-squared statistic:  165.004 
##    degrees of freedom:  1 
##    p-value:  <.001 
## 
## Other information: 
##    estimated effect size (Cramer's v):  0.406 
##    Yates' continuity correction has been applied

Los resultados obtenidos nos presentan evidencia que indica la presencia de una relacion entre las variables categoricas de tiempo de atencion y satisfaccion, esto se reafirma con lo brindado por la prueba de independencia (X^2(1) = 165.0, p < .001) Donde el p value es menor a 0.001, lo que señala que la relacion entre ambas variables es muy significativa y se descarte el factor de azar, por lo mismo se rechaza la hipotesis nula.

Estadística descriptiva y visualizaciones:

# Visualización: Gráfico de barras apiladas
# Cargar ggplot2 si no está cargado
library(ggplot2)

# Convertir a data frame para ggplot
df <- as.data.frame(as.table(satisfaccion_frec))
names(df) <- c("Tiempo", "Satisfaccion", "Frecuencia")

ggplot(df, aes(x = Tiempo, y = Frecuencia, fill = Satisfaccion)) +
  geom_bar(stat = "identity", position = "fill") +  # position = "fill" para porcentajes
  labs(title = "Distribución de Satisfacción por Tiempo de Respuesta",
       y = "Proporción", x = "Tiempo de Respuesta") +
  theme_minimal() +
  scale_fill_manual(values = c("Satisfecho" = "lightgreen", "Insatisfecho" = "lightcoral"))

# Frecuencias absolutas (ya en la tabla)
print("Frecuencias absolutas:")
## [1] "Frecuencias absolutas:"
print(satisfaccion_frec)
##            Satisfaccion
## Tiempo      Insatisfecho Satisfecho
##   Mas_24h            300        200
##   Menos_24h          100        400
# Frecuencias relativas (por filas, es decir, por tiempo de respuesta)
print("Frecuencias relativas por tiempo de respuesta:")
## [1] "Frecuencias relativas por tiempo de respuesta:"
prop.table(satisfaccion_frec, margin = 1)
##            Satisfaccion
## Tiempo      Insatisfecho Satisfecho
##   Mas_24h            0.6        0.4
##   Menos_24h          0.2        0.8

Con la frecuencia relativa del tiempo de respuesta y la satisfaccion, podemos encontrar que el 60% de las personas que son atendidas en un periodo de mas de 24 horas tienden a estar insatisfechas mientras que el 40% estan satisfechas. Por el contrario, aquellas a las que se les responde en un periodo menor a las 24 horas, el 80% suele estar satisfecho, mientras que el 20% insatisfechos.

6 - ¿Un tratamiento poco común es más eficaz?

  1. ¿Un tratamiento poco común es más eficaz?

Se comparan dos métodos para tratar una enfermedad rara:

• Método A: 2 mejoraron, 8 no

• Método B: 10 mejoraron, 2 no

¿Alguno de los tratamientos muestra mayor efectividad?

Prueba estadística adecuada:

Prueba exacta de Fisher: Para estas variables, la mejor opcion seria la prueba de fisher de independencia, esto debido a que las variables tienen muy pocas observaciones, lo que podria afectar los resultados de la prueba de independencia. Ademas, se utiliza cuando ambas variables medibles son independientes de la otra.

Hipótesis (H0 y H1):

  • Hipótesis nula H0: No existe asociación entre el metodo de tratamiento y los resultados. (Ninguno de los tratamientos muestra mayor efectividad que el otro)
  • Hipótesis alternativa H1: Existe asociación entre entre el metodo de tratamiento y los resultados (Alguno de los tratamientos muestra mayor efectividad que el otro)

Prueba exacta de Fisher:

# Usamos expand.grid para generar las filas basadas en las frecuencias
metodo <- c(rep("A", 2 + 8), rep("B", 10 + 2))
resultado <- c(rep("Mejoraron", 2), rep("No", 8), rep("Mejoraron", 10), rep("No", 2))

datos_tratamiento <- data.frame(Metodo = metodo, Resultado = resultado)

# Convertir a factores
datos_tratamiento$Metodo <- as.factor(datos_tratamiento$Metodo)
datos_tratamiento$Resultado <- as.factor(datos_tratamiento$Resultado)
tratamiento_frec <- xtabs(~ Metodo + Resultado, data = datos_tratamiento)
print(tratamiento_frec)
##       Resultado
## Metodo Mejoraron No
##      A         2  8
##      B        10  2
resultado_fisher <- fisher.test(tratamiento_frec)
print(resultado_fisher)
## 
##  Fisher's Exact Test for Count Data
## 
## data:  tratamiento_frec
## p-value = 0.008284
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.003443304 0.589703401
## sample estimates:
## odds ratio 
## 0.06077883

Los resultados de la prueba Fisher indican que existe una relacion entre el metodo de tratamiento y los resultados, especificamente una mayor efectividad de parte del tratamiento B que del tratamiento A. Esto se refuerza con el p value obtenido, el cual es de 0.008, considerablemente por debajo de 0.05. Por lo que se rechaza la hipotesis nula y encontramos un nivel de significancia alto en los resultados

Estadística descriptiva y visualizaciones:

# Cargar ggplot2 si no está cargado
library(ggplot2)

# Convertir a data frame para ggplot
df <- as.data.frame(as.table(tratamiento_frec))
names(df) <- c("Metodo", "Resultado", "Frecuencia")

ggplot(df, aes(x = Metodo, y = Frecuencia, fill = Resultado)) +
  geom_bar(stat = "identity", position = "fill") +  # position = "fill" para porcentajes
  labs(title = "Distribución de Resultados por Método de Tratamiento",
       y = "Proporción", x = "Método") +
  theme_minimal() +
  scale_fill_manual(values = c("Mejoraron" = "lightgreen", "No" = "lightcoral"))

print("Frecuencias absolutas:")
## [1] "Frecuencias absolutas:"
print(tratamiento_frec)
##       Resultado
## Metodo Mejoraron No
##      A         2  8
##      B        10  2
print("Frecuencias relativas por método:")
## [1] "Frecuencias relativas por método:"
prop.table(tratamiento_frec, margin = 1)  
##       Resultado
## Metodo Mejoraron        No
##      A 0.2000000 0.8000000
##      B 0.8333333 0.1666667

Mediante las tablas de frecuencia podemos encontrar que aquellas personas a las que se les aplico el tratamiento A, el 20% mejoraron, mientras que el 80% no presentaron ninguna mejoria. Por el contrario, con el metodo B, el 83% mejoraron y el 16% no lo hicieron. Datos que reafirman la decision de rechazar la hipotesis nula debido a que nos permiten ver la amplia diferencia presente en los resultados de ambos metodos.

7 - ¿La exposición a un químico está asociada a una enfermedad?

En un estudio ocupacional:

Exposición Enfermos Sanos
Expuestos 10 8
No expuestos 1 12

¿Existe asociación entre la exposición al químico y la enfermedad?

Prueba estadística adecuada:

Prueba exacta de Fisher: Aunque se usaría una prueba de chi-cuadrado de independencia ya que permite determinar si existe una relación significativa entre la exposición al químico y la presencia de enfermedad, es más apropiado una prueba de fisher pues algunos conteos son muy pequeños.

Hipótesis (H0 y H1):

  • Hipótesis nula H0: No existe asociación entre la exposición y la enfermedad
  • Hipótesis alternativa H1: Existe asociación entre la exposición y la enfermedad

Prueba exacta de Fisher:

# Crear tabla de contingencia
#se crean los datos
tabla_quimico <- matrix(c(10, 8,
                          1, 12),
                        nrow = 2, byrow = TRUE)

colnames(tabla_quimico) <- c("Enfermo", "Sano")
rownames(tabla_quimico) <- c("Expuesto", "No expuesto")

tabla_quimico <- as.table(tabla_quimico)
tabla_quimico
##             Enfermo Sano
## Expuesto         10    8
## No expuesto       1   12
# Prueba Chi-cuadrado de independencia como ejemplo
prueba_quimico <- chisq.test(tabla_quimico, correct = TRUE) # incluye corrección de continuidad
## Warning in chisq.test(tabla_quimico, correct = TRUE): Chi-squared approximation
## may be incorrect
prueba_quimico  #visualización
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  tabla_quimico
## X-squared = 5.6076, df = 1, p-value = 0.01788
#Ya que nos da como respuesta "Chi-squared approximation may be incorrect" se usa la de fisher
#fisher

#Ya que hay datos muy pequeños lo mejor es usar una prueba exacta de fisher
# Revisar valores esperados
prueba_quimico$expected
##              Enfermo      Sano
## Expuesto    6.387097 11.612903
## No expuesto 4.612903  8.387097
# En caso de valores esperados pequeños:
fisher.test(tabla_quimico)
## 
##  Fisher's Exact Test for Count Data
## 
## data:  tabla_quimico
## p-value = 0.008448
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##    1.457627 700.737833
## sample estimates:
## odds ratio 
##   13.74559

Tal como dice la prueba de fisher, el valor de p (p-value) es menor al valor de alfa 0.05 siendo 0.008448, por lo que se rechaza la hipótesis nula que dice que no existe asociación, por lo tanto se acepta hipótesis alternativa que dice que si existe una asociación entre exposición y enfermedad.

Estadística descriptiva y visualizaciones:

library(ggplot2)
library(dplyr)
library(scales)
## Warning: package 'scales' was built under R version 4.4.3
# Convertir tabla a data frame
datos_quimico <- as.data.frame(tabla_quimico)
colnames(datos_quimico) <- c("Exposicion", "Salud", "Frecuencia")

# Calcular proporciones dentro de cada grupo de exposición
datos_quimico <- datos_quimico %>%
  group_by(Exposicion) %>%
  mutate(Proporcion = Frecuencia / sum(Frecuencia))

# Gráfico comparativo
ggplot(datos_quimico, aes(x = Salud, y = Proporcion, fill = Exposicion)) +
  geom_col(position = "dodge") +
  geom_text(aes(label = percent(Proporcion, accuracy = 0.1)),
            position = position_dodge(0.9), vjust = -0.3) +
  labs(title = "Relación entre exposición al químico y enfermedad",
       x = "Estado de salud",
       y = "Proporción dentro del grupo") +
  scale_y_continuous(labels = percent_format(accuracy = 1)) +
  theme_minimal()

Entre todas las personas expuestas 10 de 18, 55.6%, se encuentran enfermos. Entre los no expuestos 1 de 13, 7.7%, se encuentra enfermo, por esto mismo la proporción de enfermos es mayor entre los que estuvieron expuestos, lo que sugiere que la exposición si podría incrementar el riesgo de la enfermedad.

Conclusión Se concluye que la exposición al químico esta significativamente asociada con la enfermedad, ya que se muestra una proporción mucho mayor de enfermos entre quienes estuvieron expuestos, lo que indica una posible relación causal.por lo que sería recomendable implementar medidas de prevención para reducir la exposición.

8 - ¿El rediseño del sitio web impacta en las compras?

Se analiza la tasa de conversión antes y después del rediseño:

¿El rediseño afectó la tasa de compra?

Prueba estadística adecuada:

Prueba McNemar: Depende si los datos fueron tomados a la misma población o a grupos diferentes, en último caso se haría una prueba de independencia de chi-cuadrado, pero se entiende el enunciado como que fue al mismo grupo de personas, encuestados antes y después ya que la cantidad de personas encuestadas parece encajar con esta respuesta.

Hipótesis (H0 y H1):

  • Hipótesis nula H0: No hay diferencia en la proporción de compradores antes y después del rediseño.
  • Hipótesis alternativa H1: Sí hay diferencia en la proporción de compradores antes y después del rediseño.

Prueba McNemar:

#crea datos y lleva a cabo prueba
# Crear tabla de contingencia pareada
tabla_mcnemar <- matrix(c(70, 10,
                          30, 90),
                        nrow = 2, byrow = TRUE)

colnames(tabla_mcnemar) <- c("Después_Compró", "Después_NoCompró")
rownames(tabla_mcnemar) <- c("Antes_Compró", "Antes_NoCompró")

tabla_mcnemar <- as.table(tabla_mcnemar)
tabla_mcnemar
##                Después_Compró Después_NoCompró
## Antes_Compró               70               10
## Antes_NoCompró             30               90
# Prueba de McNemar
mcnemar.test(tabla_mcnemar, correct = TRUE)
## 
##  McNemar's Chi-squared test with continuity correction
## 
## data:  tabla_mcnemar
## McNemar's chi-squared = 9.025, df = 1, p-value = 0.002663

La prueba McNemar da un p-value o valor de p de 0.002663, el cuál es menor a 0.05 por lo que se rechaza la hipótesis nula, esto sugiere que si se puede encontrar una diferencia en la proporción de compradores antes y después del rediseño, por lo que si hubo una diferencia que provoco el rediseño, en este caso, no se puede considerar muy positivo.

Estadística descriptiva y visualizaciones:

# Librerías
library(ggplot2)
library(dplyr)
library(scales)

# Tabla de contingencia pareada (ejemplo)
tabla_mcnemar <- matrix(c(70, 10,
                          30, 90),
                        nrow = 2, byrow = TRUE)

colnames(tabla_mcnemar) <- c("Después_Compró", "Después_NoCompró")
rownames(tabla_mcnemar) <- c("Antes_Compró", "Antes_NoCompró")

# Convertir tabla en data frame correctamente
datos_mcnemar <- as.data.frame(as.table(tabla_mcnemar))

# Renombrar columnas
colnames(datos_mcnemar) <- c("Antes", "Después", "Frecuencia")

# Calcular proporciones
total <- sum(datos_mcnemar$Frecuencia)
datos_mcnemar <- datos_mcnemar %>%
  mutate(Proporcion = Frecuencia / total)

# Mostrar tabla descriptiva
datos_mcnemar
##            Antes          Después Frecuencia Proporcion
## 1   Antes_Compró   Después_Compró         70       0.35
## 2 Antes_NoCompró   Después_Compró         30       0.15
## 3   Antes_Compró Después_NoCompró         10       0.05
## 4 Antes_NoCompró Después_NoCompró         90       0.45
library(ggplot2)

ggplot(datos_mcnemar, aes(x = Antes, y = Proporcion, fill = Después)) +
  geom_col(position = "dodge") +
  geom_text(aes(label = percent(Proporcion, accuracy = 0.1)),
            position = position_dodge(0.9), vjust = -0.3) +
  labs(title = "Cambio en la decisión de compra antes y después del rediseño",
       x = "Situación antes del rediseño",
       y = "Proporción del total",
       fill = "Situación después") +
  scale_y_continuous(labels = percent_format(accuracy = 1)) +
  theme_minimal()

70 personas compraron antes y también después del rediseño, 90 personas no compraron ni antes ni después, 10 personas compraron antes pero dejaron de comprar después, 30 personas no compraron antes pero empezaron a comprar después.

Conclusión Ya que se rechazó la hipótesis nula, esto sugiere que el rediseño del sitio web si tuvo un impacto significativo en las compras. Pero observando los datos estos sugieren que este impacto fue negativo para el sitio web, pues aunque hubo algunas nuevas compras (30 personas que no compraban antes),Hubo menos compradores totales después (40 compraron vs. 80 antes).

9 - ¿La campaña publicitaria tuvo efecto?

Se evalúa el conocimiento de una marca antes y después de una campaña: • Antes: 100 conocían la marca, 100 no • Después: 120 conocían la marca, 80 no ¿La campaña logró mejorar el conocimiento de la marca?

Prueba estadística adecuada:

Prueba McNemar: Ya que los datos fueron tomados para un antes y después, ya que se comparan respuestas dicotómicas, en este caso conoce / no conoce, y toma asi información de dos momentos diferentes con los mismos individuos.

Hipótesis (H0 y H1):

  • Hipótesis nula H0: La campaña no tuvo efectos, la proporción no cambio después de la campaña publicitaria.
  • Hipótesis alternativa H1: La campaña si tuvo efectos, la proporción cambio después de la campaña publicitaria.

Prueba McNemar:

#crea información

# Crear la tabla 2x2
tabla_campaña <- matrix(c(90, 10,
                          30, 70),
                        nrow = 2, byrow = TRUE)

colnames(tabla_campaña) <- c("Después_Conoce", "Después_NoConoce")
rownames(tabla_campaña) <- c("Antes_Conocía", "Antes_NoConocía")

# Aplicar prueba de McNemar
prueba_campaña <- mcnemar.test(tabla_campaña)
prueba_campaña
## 
##  McNemar's Chi-squared test with continuity correction
## 
## data:  tabla_campaña
## McNemar's chi-squared = 9.025, df = 1, p-value = 0.002663

En esta prueba McNemar el valor p, o p-value es 0.002663, menor que el valor de alfa el cuál es 0.05, por lo quese rechaza la hipótesis nula, esto da a entender que la campaña publicitaria si tuvo un efecto significativo en el conocimiento de la marca

Estadística descriptiva y visualizaciones:

library(ggplot2)
library(dplyr)
library(scales)

tabla_campaña <- matrix(c(90, 10,
                          30, 70),
                        nrow = 2, byrow = TRUE)
colnames(tabla_campaña) <- c("Después_Conoce", "Después_NoConoce")
rownames(tabla_campaña) <- c("Antes_Conoce", "Antes_NoConoce")

datos_campaña <- as.data.frame(as.table(tabla_campaña))
colnames(datos_campaña) <- c("Antes", "Después", "Frecuencia")
datos_campaña <- datos_campaña %>%
  mutate(Proporcion = Frecuencia / sum(Frecuencia))

# Gráfico de barras comparativo
ggplot(datos_campaña, aes(x = Antes, y = Proporcion, fill = Después)) +
  geom_col(position = "dodge", width = 0.7) +
  geom_text(aes(label = percent(Proporcion, accuracy = 0.1)),
            position = position_dodge(0.7), vjust = -0.4, size = 4) +
  labs(title = "Conocimiento de la marca antes y después de la campaña",
       x = "Situación antes de la campaña",
       y = "Proporción del total",
       fill = "Situación después") +
  scale_y_continuous(labels = percent_format(accuracy = 1)) +
  theme_minimal(base_size = 13)

30 personas que no conocían la marca antes, la conocieron después, mientras que solo 10 personas que la conocían antes, dejaron de conocerla, el conocimiento de la marca aumentó del 50% al 60% tras la campaña.

Conclusión

Se concluye que la campaña publicitaria tuvo un efecto significativo en el conocimiento de la marca. Después de la campaña, aumentó la proporción de personas que reconocen la marca, lo que sugiere que la estrategia fue efectiva para mejorar el reconocimiento en el público.