Se lanza un dado 60 veces y se registran estos resultados: 1: 15, 2: 15, 3: 5, 4: 8, 5: 12, 6: 5. ¿Podemos afirmar que el dado está cargado o tiene distribución uniforme?
Prueba estadistica adecuada:
La prueba estadistica adecuada para este ejercicio es la prueba de bondad debido a que buscamos encontrar que tan cercanos estan los datos de la hipotesis nula, en este caso midiendo la frecuencia observadas, con las esperadas en la hipotesis nula.
Hipótesis nula H0: Las frecuencias observadas siguen una distribucion uniforme
# Datos observados
observadas <- c(15, 15, 5, 8, 12, 5)
caras <- c("1", "2", "3", "4", "5", "6")
total_lanzamientos <- sum(observadas)
esperadas <- rep(total_lanzamientos / 6, 6)
chisq.test(observadas, p = rep(1/6, 6))
##
## Chi-squared test for given probabilities
##
## data: observadas
## X-squared = 10.8, df = 5, p-value = 0.05549
De los resultados obtenidos por la prueba de bondad de ajuste podemos encontrar que el dado no esta cargado y por ende, las frecuencias observadas siguen una distribucion uniforme, esto es asi debido a que (χ^5 = 10.8, p = 0.0554). Gracias a que el p value es mayor a 0.05, con poca significancia, no se rechaza la hipotesis nula, por lo que efectivamente el dado no esta alterado para tener preferencia por cierto numero en especifico, y las variaciones existentes en los resultados pueden ser atribuidas al azar, por la falta de significacia.
library(ggplot2)
# Crear el data frame con los datos (expandiendo frecuencias a filas)
cara <- c(rep(1, 15), rep(2, 15), rep(3, 5), rep(4, 8), rep(5, 12), rep(6, 5))
datos_dado <- data.frame(Cara = cara)
# Generar tabla de frecuencias con xtabs (para una variable)
dado_frec <- xtabs(~ Cara, data = datos_dado)
print(dado_frec)
## Cara
## 1 2 3 4 5 6
## 15 15 5 8 12 5
df_obs <- data.frame(Cara = names(dado_frec), Frecuencia = as.numeric(dado_frec), Tipo = "Observada")
df_esp <- data.frame(Cara = 1:6, Frecuencia = esperadas, Tipo = "Esperada")
df <- rbind(df_obs, df_esp)
ggplot(df, aes(x = Cara, y = Frecuencia, fill = Tipo)) +
geom_bar(stat = "identity", position = "dodge") +
labs(title = "Frecuencias Observadas vs Esperadas del Dado",
y = "Frecuencia", x = "Cara del Dado") +
theme_minimal() +
scale_fill_manual(values = c("Observada" = "blue", "Esperada" = "red"))
# Estadística descriptiva adicional
# Frecuencias absolutas (ya en la tabla)
print("Frecuencias absolutas:")
## [1] "Frecuencias absolutas:"
print(dado_frec)
## Cara
## 1 2 3 4 5 6
## 15 15 5 8 12 5
# Frecuencias relativas
print("Frecuencias relativas:")
## [1] "Frecuencias relativas:"
prop.table(dado_frec)
## Cara
## 1 2 3 4 5 6
## 0.25000000 0.25000000 0.08333333 0.13333333 0.20000000 0.08333333
De loss 60 datos recopilados de los tiros de dados se puede observar que el numero 1 y 2 fueron las caras más frecuentes con un 25% de ser obtenidas, 3 y 6 fueron las caras menos obtenidas con un 8%, 5 fue obtenido en un 20%, con 8 tiradas en donde salio esa cara. Mientras que 4 fue obtenido en un 13%. Esto nos permite observar que a pesar de que todos los numeros no fueron obtenidos de igual proporcion, aun es posible encontrar vestigios de una proporcion uniforme, con cambios probablemente generados por el azar.
En una encuesta a 200 personas sobre su color favorito para un producto, las respuestas fueron: * Rojo: 40 * Azul: 50 * Verde: 30 * Amarillo: 40 * Negro: 40 ¿Existe preferencia uniforme entre los colores o algunas opciones destacan más que otras?
prueba chi-cuadrado de bondad de ajuste: Queremos comparar las frecuencias observadas con las esperadas bajo la hipótesis de preferencia uniforme.
# Datos observados
colores <- c("Rojo", "Azul", "Verde", "Amarillo", "Negro")
frecuencias_observadas <- c(40, 50, 30, 40, 40)
# Total de encuestados
n <- sum(frecuencias_observadas)
# Frecuencia esperada si todos gustan por igual
frecuencias_esperadas <- rep(n / length(colores), length(colores))
# Prueba de bondad de ajuste Chi-cuadrado
prueba <- chisq.test(frecuencias_observadas, p = rep(1/length(colores), length(colores)))
# Resultados
prueba
##
## Chi-squared test for given probabilities
##
## data: frecuencias_observadas
## X-squared = 5, df = 4, p-value = 0.2873
La prueba de bondad de ajuste indica que no existen diferencias significativas en la preferencia de color para rechazar H0, (χ² = 5, gl = 4, p = 0.2873). Aunque se ven algunas variaciones el valor p obtenido: p-value = 0.2873, es mayor que 0.05 por lo que no hay evidencia estadísticamente significativa, por lo que se puede decir que las variaciones que hay son atribuibles al azar y no se rechaza la hipótesis nula que era que las preferencias de color son uniformes entre los participantes.
# Estadística descriptiva
datos <- data.frame(Color = colores, Frecuencia = frecuencias_observadas)
datos
## Color Frecuencia
## 1 Rojo 40
## 2 Azul 50
## 3 Verde 30
## 4 Amarillo 40
## 5 Negro 40
# Visualización
library(ggplot2)
ggplot(datos, aes(x = Color, y = Frecuencia, fill = Color)) +
geom_bar(stat = "identity") +
labs(title = "Preferencias de color para el producto",
x = "Color",
y = "Frecuencia de elección") +
theme_minimal()
De las 200 personas encuestadas se puede observar que el azul fue el color más elegido con un 25% de las preferencias, 50 personas eligiendolo, verde fue el menos elegido con un 15%, con 30 personas eligiendolo, rojo, amarillo y negro tuvieron proporciones iguales, cada uno con un 20%, o 40 personas eligiendolos, por lo que se puede decir que las preferencias están relativamente distribuidas entre los colores.
Conclusión:
Con base en la prueba de bondad de ajuste, se concluye que no existen diferencias estadísticamente significativas en las preferencias de color de los encuestados. Por lo tanto, esto significa que no hay una preferencia clara por un color especifico, a pesar de que existen ciertas variaciones no son proporcionalmente significativas para poder afirmar que exista una tendencia real en la población.
Un estudio analiza el comportamiento de compra de productos tecnológicos según grupos de edad:
• Menores de 30: 150 compran, 850 no
• 30 a 45 años: 200 compran, 800 no
• Mayores de 45: 50 compran, 950 no
¿Existe una asociación entre la edad y la decisión de compra?
prueba chi-cuadrado de independencia:
Se utiliza la prueba chi - cuadrado de independencia debido a que el objetivo de la pregunta es encontrar si existe una relacion de asociacion entre dos variables categoricas.
Hipótesis nula H0: ; No existe asociacion entre la edad y la decision de compra.
Hipótesis alternativa H1: Existe asociacion entre la edad y la decision de compra.
edad <- c(rep("<30", 1000), rep("30-45", 1000), rep(">45", 1000))
compra <- c(rep("Sí", 150), rep("No", 850), # <30
rep("Sí", 200), rep("No", 800), # 30-45
rep("Sí", 50), rep("No", 950)) # >45
datos_compra <- data.frame(Edad = edad, Compra = compra)
datos_compra$Edad <- as.factor(datos_compra$Edad)
datos_compra$Compra <- as.factor(datos_compra$Compra)
compra_frec <- xtabs(~ Edad + Compra, data = datos_compra)
print(compra_frec)
## Compra
## Edad No Sí
## <30 850 150
## >45 950 50
## 30-45 800 200
library(lsr)
## Warning: package 'lsr' was built under R version 4.4.3
resultado_asociacion <- associationTest(formula = ~ Edad + Compra, data = datos_compra)
print(resultado_asociacion)
##
## Chi-square test of categorical association
##
## Variables: Edad, Compra
##
## Hypotheses:
## null: variables are independent of one another
## alternative: some contingency exists between variables
##
## Observed contingency table:
## Compra
## Edad No Sí
## <30 850 150
## >45 950 50
## 30-45 800 200
##
## Expected contingency table under the null hypothesis:
## Compra
## Edad No Sí
## <30 867 133
## >45 867 133
## 30-45 867 133
##
## Test results:
## X-squared statistic: 100.962
## degrees of freedom: 2
## p-value: <.001
##
## Other information:
## estimated effect size (Cramer's v): 0.183
Con los resultados obtenidos por la prueba de indepencia podemos encontrar una asociacion significativa entre la edad y la decision de compra. Esto debido a que (X^2(2) = 100.9, p < 0.001), donde observamos un p value mucho menos a 0.05 y por ende, tomamos la decision de rechazar la hipotesis nula debido a la significancia de los resultados. Esto se refuerza aun mas con el Cramér’s V = 0.183, que indica una asociacion moderada entre las variables.
# Visualización
library(ggplot2)
df <- as.data.frame(as.table(compra_frec))
names(df) <- c("Edad", "Compra", "Frecuencia")
ggplot(df, aes(x = Edad, y = Frecuencia, fill = Compra)) +
geom_bar(stat = "identity", position = "fill") +
labs(title = "Distribución de Compra por Edad",
y = "Proporción", x = "Edad") +
theme_minimal() +
scale_fill_manual(values = c("No" = "lightcoral", "Sí" = "lightgreen"))
# Estadística descriptiva
print("Frecuencias absolutas:")
## [1] "Frecuencias absolutas:"
print(compra_frec)
## Compra
## Edad No Sí
## <30 850 150
## >45 950 50
## 30-45 800 200
print("Frecuencias relativas por edad:")
## [1] "Frecuencias relativas por edad:"
prop.table(compra_frec, margin = 1)
## Compra
## Edad No Sí
## <30 0.85 0.15
## >45 0.95 0.05
## 30-45 0.80 0.20
print("Frecuencias relativas totales:")
## [1] "Frecuencias relativas totales:"
prop.table(compra_frec)
## Compra
## Edad No Sí
## <30 0.28333333 0.05000000
## >45 0.31666667 0.01666667
## 30-45 0.26666667 0.06666667
Con los datos obtenidos mediante las tablas de frecuencia podemos reforzar la idea de que existe una relacion entre la edad y la decision de compra,ya que encontramos que las personas menores de 30 años tienen una proporcion de compra del 5%, mientras que las de 30 y 45 años alcanzan el valor mas alto, con 6.7 %. En el otro lado, los mayores de 45% son quienes menos compran con solo un 1.7 %.
Se evaluó la preferencia por dos versiones de un producto según el género: * Hombres: 300 prefieren A, 200 prefieren B * Mujeres: 250 prefieren A, 250 prefieren B ¿Hay relación entre el género y la elección del producto?
prueba chi-cuadrado de independencia: Ya que ambas son variables categóricas, para evaluar si realmente existe una asociación entre las dos variables y se usa esta prueba aplicada a una tabla de contingencia.
#Datos y tabla de contingencia
# Crear tabla de contingencia
tabla <- matrix(c(300, 200,
250, 250),
nrow = 2, byrow = TRUE)
colnames(tabla) <- c("Producto A", "Producto B")
rownames(tabla) <- c("Hombres", "Mujeres")
tabla <- as.table(tabla)
tabla
## Producto A Producto B
## Hombres 300 200
## Mujeres 250 250
# Prueba Chi-cuadrado de independencia
prueba_genero <- chisq.test(tabla)
prueba_genero
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: tabla
## X-squared = 9.701, df = 1, p-value = 0.001842
La prueba de chi-cuadrado de independencia nos muestra que se rechaza la hipótesis nula, el valor de p (p-value) es 0.001842, el cual es menor al valor de alfa o 0.05 lo que indica que se rechaza H0 y se acepta la hipótesis alternativa, lo que implica que si existe una relación significativa entre género y la preferencia por los productos.
# Convertir a data frame para visualización
library(ggplot2)
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
datos <- as.data.frame(tabla)
colnames(datos) <- c("Genero", "Producto", "Frecuencia")
# Calcular proporciones dentro de cada género
datos <- datos %>%
group_by(Genero) %>%
mutate(Proporcion = Frecuencia / sum(Frecuencia))
# Gráfico de barras comparativo
ggplot(datos, aes(x = Producto, y = Proporcion, fill = Genero)) +
geom_col(position = "dodge") +
geom_text(aes(label = scales::percent(Proporcion, accuracy = 0.1)),
position = position_dodge(0.9), vjust = -0.3) +
labs(title = "Preferencia de producto según género",
x = "Producto",
y = "Proporción dentro de cada género") +
scale_y_continuous(labels = scales::percent_format(accuracy = 1)) +
theme_minimal()
En el grupo de hombres el 60% prefiere el producto A mientras que el 40% prefiere el B, por otra parte entre las mujeres las preferencias se encuentran equilibradas en un 50%-50%, por lo anterior se puede inferir que el género si influye en la elección del producto, además se puede ver una preferencia de los hombres al producto A.
Conclusión Se puede concluir que el género si influye significativamente en la elección y preferencia hacia el producto, ya que la prueba de chi-cuadrado muestra que las diferencias no se deben al azar. tal como se puede ver la preferencia por el producto A es mayor en hmbbres mientras que las mujeres no muestran una preferencia. Esto sugiere que las estrategias de marketing podrían considerar el género como un factor relevante al diseñar campañas o versiones del producto.
Una empresa registra el tiempo de respuesta y la satisfacción: • Menos de 24h: 400 satisfechos, 100 insatisfechos
• Más de 24h: 200 satisfechos, 300 insatisfechos
¿Existe relación entre el tiempo de atención y la satisfacción?
prueba chi-cuadrado de independencia: Se utiliza una prueba de independencia debido a que se esta buscando evaluar la asociacion entre dos variables categoricas con multiples observaciones e independientes de la otra, en este caso el tiempo de atencion y la satisfacción.
prueba chi-cuadrado de independencia:
tiempo <- c(rep("Menos_24h", 400 + 100), rep("Mas_24h", 200 + 300))
satisfaccion <- c(rep("Satisfecho", 400), rep("Insatisfecho", 100), rep("Satisfecho", 200), rep("Insatisfecho", 300))
datos_satisfaccion <- data.frame(Tiempo = tiempo, Satisfaccion = satisfaccion)
datos_satisfaccion$Tiempo <- as.factor(datos_satisfaccion$Tiempo)
datos_satisfaccion$Satisfaccion <- as.factor(datos_satisfaccion$Satisfaccion)
satisfaccion_frec <- xtabs(~ Tiempo + Satisfaccion, data = datos_satisfaccion)
print(satisfaccion_frec)
## Satisfaccion
## Tiempo Insatisfecho Satisfecho
## Mas_24h 300 200
## Menos_24h 100 400
library(lsr)
resultado_5 <- associationTest(formula = ~ Tiempo + Satisfaccion, data = datos_satisfaccion)
print(resultado_5)
##
## Chi-square test of categorical association
##
## Variables: Tiempo, Satisfaccion
##
## Hypotheses:
## null: variables are independent of one another
## alternative: some contingency exists between variables
##
## Observed contingency table:
## Satisfaccion
## Tiempo Insatisfecho Satisfecho
## Mas_24h 300 200
## Menos_24h 100 400
##
## Expected contingency table under the null hypothesis:
## Satisfaccion
## Tiempo Insatisfecho Satisfecho
## Mas_24h 200 300
## Menos_24h 200 300
##
## Test results:
## X-squared statistic: 165.004
## degrees of freedom: 1
## p-value: <.001
##
## Other information:
## estimated effect size (Cramer's v): 0.406
## Yates' continuity correction has been applied
Los resultados obtenidos nos presentan evidencia que indica la presencia de una relacion entre las variables categoricas de tiempo de atencion y satisfaccion, esto se reafirma con lo brindado por la prueba de independencia (X^2(1) = 165.0, p < .001) Donde el p value es menor a 0.001, lo que señala que la relacion entre ambas variables es muy significativa y se descarte el factor de azar, por lo mismo se rechaza la hipotesis nula.
# Visualización: Gráfico de barras apiladas
# Cargar ggplot2 si no está cargado
library(ggplot2)
# Convertir a data frame para ggplot
df <- as.data.frame(as.table(satisfaccion_frec))
names(df) <- c("Tiempo", "Satisfaccion", "Frecuencia")
ggplot(df, aes(x = Tiempo, y = Frecuencia, fill = Satisfaccion)) +
geom_bar(stat = "identity", position = "fill") + # position = "fill" para porcentajes
labs(title = "Distribución de Satisfacción por Tiempo de Respuesta",
y = "Proporción", x = "Tiempo de Respuesta") +
theme_minimal() +
scale_fill_manual(values = c("Satisfecho" = "lightgreen", "Insatisfecho" = "lightcoral"))
# Frecuencias absolutas (ya en la tabla)
print("Frecuencias absolutas:")
## [1] "Frecuencias absolutas:"
print(satisfaccion_frec)
## Satisfaccion
## Tiempo Insatisfecho Satisfecho
## Mas_24h 300 200
## Menos_24h 100 400
# Frecuencias relativas (por filas, es decir, por tiempo de respuesta)
print("Frecuencias relativas por tiempo de respuesta:")
## [1] "Frecuencias relativas por tiempo de respuesta:"
prop.table(satisfaccion_frec, margin = 1)
## Satisfaccion
## Tiempo Insatisfecho Satisfecho
## Mas_24h 0.6 0.4
## Menos_24h 0.2 0.8
Con la frecuencia relativa del tiempo de respuesta y la satisfaccion, podemos encontrar que el 60% de las personas que son atendidas en un periodo de mas de 24 horas tienden a estar insatisfechas mientras que el 40% estan satisfechas. Por el contrario, aquellas a las que se les responde en un periodo menor a las 24 horas, el 80% suele estar satisfecho, mientras que el 20% insatisfechos.
Se comparan dos métodos para tratar una enfermedad rara:
• Método A: 2 mejoraron, 8 no
• Método B: 10 mejoraron, 2 no
¿Alguno de los tratamientos muestra mayor efectividad?
Prueba exacta de Fisher: Para estas variables, la mejor opcion seria la prueba de fisher de independencia, esto debido a que las variables tienen muy pocas observaciones, lo que podria afectar los resultados de la prueba de independencia. Ademas, se utiliza cuando ambas variables medibles son independientes de la otra.
# Usamos expand.grid para generar las filas basadas en las frecuencias
metodo <- c(rep("A", 2 + 8), rep("B", 10 + 2))
resultado <- c(rep("Mejoraron", 2), rep("No", 8), rep("Mejoraron", 10), rep("No", 2))
datos_tratamiento <- data.frame(Metodo = metodo, Resultado = resultado)
# Convertir a factores
datos_tratamiento$Metodo <- as.factor(datos_tratamiento$Metodo)
datos_tratamiento$Resultado <- as.factor(datos_tratamiento$Resultado)
tratamiento_frec <- xtabs(~ Metodo + Resultado, data = datos_tratamiento)
print(tratamiento_frec)
## Resultado
## Metodo Mejoraron No
## A 2 8
## B 10 2
resultado_fisher <- fisher.test(tratamiento_frec)
print(resultado_fisher)
##
## Fisher's Exact Test for Count Data
##
## data: tratamiento_frec
## p-value = 0.008284
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 0.003443304 0.589703401
## sample estimates:
## odds ratio
## 0.06077883
Los resultados de la prueba Fisher indican que existe una relacion entre el metodo de tratamiento y los resultados, especificamente una mayor efectividad de parte del tratamiento B que del tratamiento A. Esto se refuerza con el p value obtenido, el cual es de 0.008, considerablemente por debajo de 0.05. Por lo que se rechaza la hipotesis nula y encontramos un nivel de significancia alto en los resultados
# Cargar ggplot2 si no está cargado
library(ggplot2)
# Convertir a data frame para ggplot
df <- as.data.frame(as.table(tratamiento_frec))
names(df) <- c("Metodo", "Resultado", "Frecuencia")
ggplot(df, aes(x = Metodo, y = Frecuencia, fill = Resultado)) +
geom_bar(stat = "identity", position = "fill") + # position = "fill" para porcentajes
labs(title = "Distribución de Resultados por Método de Tratamiento",
y = "Proporción", x = "Método") +
theme_minimal() +
scale_fill_manual(values = c("Mejoraron" = "lightgreen", "No" = "lightcoral"))
print("Frecuencias absolutas:")
## [1] "Frecuencias absolutas:"
print(tratamiento_frec)
## Resultado
## Metodo Mejoraron No
## A 2 8
## B 10 2
print("Frecuencias relativas por método:")
## [1] "Frecuencias relativas por método:"
prop.table(tratamiento_frec, margin = 1)
## Resultado
## Metodo Mejoraron No
## A 0.2000000 0.8000000
## B 0.8333333 0.1666667
Mediante las tablas de frecuencia podemos encontrar que aquellas personas a las que se les aplico el tratamiento A, el 20% mejoraron, mientras que el 80% no presentaron ninguna mejoria. Por el contrario, con el metodo B, el 83% mejoraron y el 16% no lo hicieron. Datos que reafirman la decision de rechazar la hipotesis nula debido a que nos permiten ver la amplia diferencia presente en los resultados de ambos metodos.
En un estudio ocupacional:
| Exposición | Enfermos | Sanos |
|---|---|---|
| Expuestos | 10 | 8 |
| No expuestos | 1 | 12 |
¿Existe asociación entre la exposición al químico y la enfermedad?
Prueba exacta de Fisher: Aunque se usaría una prueba de chi-cuadrado de independencia ya que permite determinar si existe una relación significativa entre la exposición al químico y la presencia de enfermedad, es más apropiado una prueba de fisher pues algunos conteos son muy pequeños.
# Crear tabla de contingencia
#se crean los datos
tabla_quimico <- matrix(c(10, 8,
1, 12),
nrow = 2, byrow = TRUE)
colnames(tabla_quimico) <- c("Enfermo", "Sano")
rownames(tabla_quimico) <- c("Expuesto", "No expuesto")
tabla_quimico <- as.table(tabla_quimico)
tabla_quimico
## Enfermo Sano
## Expuesto 10 8
## No expuesto 1 12
# Prueba Chi-cuadrado de independencia como ejemplo
prueba_quimico <- chisq.test(tabla_quimico, correct = TRUE) # incluye corrección de continuidad
## Warning in chisq.test(tabla_quimico, correct = TRUE): Chi-squared approximation
## may be incorrect
prueba_quimico #visualización
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: tabla_quimico
## X-squared = 5.6076, df = 1, p-value = 0.01788
#Ya que nos da como respuesta "Chi-squared approximation may be incorrect" se usa la de fisher
#fisher
#Ya que hay datos muy pequeños lo mejor es usar una prueba exacta de fisher
# Revisar valores esperados
prueba_quimico$expected
## Enfermo Sano
## Expuesto 6.387097 11.612903
## No expuesto 4.612903 8.387097
# En caso de valores esperados pequeños:
fisher.test(tabla_quimico)
##
## Fisher's Exact Test for Count Data
##
## data: tabla_quimico
## p-value = 0.008448
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 1.457627 700.737833
## sample estimates:
## odds ratio
## 13.74559
Tal como dice la prueba de fisher, el valor de p (p-value) es menor al valor de alfa 0.05 siendo 0.008448, por lo que se rechaza la hipótesis nula que dice que no existe asociación, por lo tanto se acepta hipótesis alternativa que dice que si existe una asociación entre exposición y enfermedad.
library(ggplot2)
library(dplyr)
library(scales)
## Warning: package 'scales' was built under R version 4.4.3
# Convertir tabla a data frame
datos_quimico <- as.data.frame(tabla_quimico)
colnames(datos_quimico) <- c("Exposicion", "Salud", "Frecuencia")
# Calcular proporciones dentro de cada grupo de exposición
datos_quimico <- datos_quimico %>%
group_by(Exposicion) %>%
mutate(Proporcion = Frecuencia / sum(Frecuencia))
# Gráfico comparativo
ggplot(datos_quimico, aes(x = Salud, y = Proporcion, fill = Exposicion)) +
geom_col(position = "dodge") +
geom_text(aes(label = percent(Proporcion, accuracy = 0.1)),
position = position_dodge(0.9), vjust = -0.3) +
labs(title = "Relación entre exposición al químico y enfermedad",
x = "Estado de salud",
y = "Proporción dentro del grupo") +
scale_y_continuous(labels = percent_format(accuracy = 1)) +
theme_minimal()
Entre todas las personas expuestas 10 de 18, 55.6%, se encuentran
enfermos. Entre los no expuestos 1 de 13, 7.7%, se encuentra enfermo,
por esto mismo la proporción de enfermos es mayor entre los que
estuvieron expuestos, lo que sugiere que la exposición si podría
incrementar el riesgo de la enfermedad.
Conclusión Se concluye que la exposición al químico esta significativamente asociada con la enfermedad, ya que se muestra una proporción mucho mayor de enfermos entre quienes estuvieron expuestos, lo que indica una posible relación causal.por lo que sería recomendable implementar medidas de prevención para reducir la exposición.
Se analiza la tasa de conversión antes y después del rediseño:
¿El rediseño afectó la tasa de compra?
Prueba McNemar: Depende si los datos fueron tomados a la misma población o a grupos diferentes, en último caso se haría una prueba de independencia de chi-cuadrado, pero se entiende el enunciado como que fue al mismo grupo de personas, encuestados antes y después ya que la cantidad de personas encuestadas parece encajar con esta respuesta.
#crea datos y lleva a cabo prueba
# Crear tabla de contingencia pareada
tabla_mcnemar <- matrix(c(70, 10,
30, 90),
nrow = 2, byrow = TRUE)
colnames(tabla_mcnemar) <- c("Después_Compró", "Después_NoCompró")
rownames(tabla_mcnemar) <- c("Antes_Compró", "Antes_NoCompró")
tabla_mcnemar <- as.table(tabla_mcnemar)
tabla_mcnemar
## Después_Compró Después_NoCompró
## Antes_Compró 70 10
## Antes_NoCompró 30 90
# Prueba de McNemar
mcnemar.test(tabla_mcnemar, correct = TRUE)
##
## McNemar's Chi-squared test with continuity correction
##
## data: tabla_mcnemar
## McNemar's chi-squared = 9.025, df = 1, p-value = 0.002663
La prueba McNemar da un p-value o valor de p de 0.002663, el cuál es menor a 0.05 por lo que se rechaza la hipótesis nula, esto sugiere que si se puede encontrar una diferencia en la proporción de compradores antes y después del rediseño, por lo que si hubo una diferencia que provoco el rediseño, en este caso, no se puede considerar muy positivo.
# Librerías
library(ggplot2)
library(dplyr)
library(scales)
# Tabla de contingencia pareada (ejemplo)
tabla_mcnemar <- matrix(c(70, 10,
30, 90),
nrow = 2, byrow = TRUE)
colnames(tabla_mcnemar) <- c("Después_Compró", "Después_NoCompró")
rownames(tabla_mcnemar) <- c("Antes_Compró", "Antes_NoCompró")
# Convertir tabla en data frame correctamente
datos_mcnemar <- as.data.frame(as.table(tabla_mcnemar))
# Renombrar columnas
colnames(datos_mcnemar) <- c("Antes", "Después", "Frecuencia")
# Calcular proporciones
total <- sum(datos_mcnemar$Frecuencia)
datos_mcnemar <- datos_mcnemar %>%
mutate(Proporcion = Frecuencia / total)
# Mostrar tabla descriptiva
datos_mcnemar
## Antes Después Frecuencia Proporcion
## 1 Antes_Compró Después_Compró 70 0.35
## 2 Antes_NoCompró Después_Compró 30 0.15
## 3 Antes_Compró Después_NoCompró 10 0.05
## 4 Antes_NoCompró Después_NoCompró 90 0.45
library(ggplot2)
ggplot(datos_mcnemar, aes(x = Antes, y = Proporcion, fill = Después)) +
geom_col(position = "dodge") +
geom_text(aes(label = percent(Proporcion, accuracy = 0.1)),
position = position_dodge(0.9), vjust = -0.3) +
labs(title = "Cambio en la decisión de compra antes y después del rediseño",
x = "Situación antes del rediseño",
y = "Proporción del total",
fill = "Situación después") +
scale_y_continuous(labels = percent_format(accuracy = 1)) +
theme_minimal()
70 personas compraron antes y también después del rediseño, 90 personas no compraron ni antes ni después, 10 personas compraron antes pero dejaron de comprar después, 30 personas no compraron antes pero empezaron a comprar después.
Conclusión Ya que se rechazó la hipótesis nula, esto sugiere que el rediseño del sitio web si tuvo un impacto significativo en las compras. Pero observando los datos estos sugieren que este impacto fue negativo para el sitio web, pues aunque hubo algunas nuevas compras (30 personas que no compraban antes),Hubo menos compradores totales después (40 compraron vs. 80 antes).
Se evalúa el conocimiento de una marca antes y después de una campaña: • Antes: 100 conocían la marca, 100 no • Después: 120 conocían la marca, 80 no ¿La campaña logró mejorar el conocimiento de la marca?
Prueba McNemar: Ya que los datos fueron tomados para un antes y después, ya que se comparan respuestas dicotómicas, en este caso conoce / no conoce, y toma asi información de dos momentos diferentes con los mismos individuos.
#crea información
# Crear la tabla 2x2
tabla_campaña <- matrix(c(90, 10,
30, 70),
nrow = 2, byrow = TRUE)
colnames(tabla_campaña) <- c("Después_Conoce", "Después_NoConoce")
rownames(tabla_campaña) <- c("Antes_Conocía", "Antes_NoConocía")
# Aplicar prueba de McNemar
prueba_campaña <- mcnemar.test(tabla_campaña)
prueba_campaña
##
## McNemar's Chi-squared test with continuity correction
##
## data: tabla_campaña
## McNemar's chi-squared = 9.025, df = 1, p-value = 0.002663
En esta prueba McNemar el valor p, o p-value es 0.002663, menor que el valor de alfa el cuál es 0.05, por lo quese rechaza la hipótesis nula, esto da a entender que la campaña publicitaria si tuvo un efecto significativo en el conocimiento de la marca
library(ggplot2)
library(dplyr)
library(scales)
tabla_campaña <- matrix(c(90, 10,
30, 70),
nrow = 2, byrow = TRUE)
colnames(tabla_campaña) <- c("Después_Conoce", "Después_NoConoce")
rownames(tabla_campaña) <- c("Antes_Conoce", "Antes_NoConoce")
datos_campaña <- as.data.frame(as.table(tabla_campaña))
colnames(datos_campaña) <- c("Antes", "Después", "Frecuencia")
datos_campaña <- datos_campaña %>%
mutate(Proporcion = Frecuencia / sum(Frecuencia))
# Gráfico de barras comparativo
ggplot(datos_campaña, aes(x = Antes, y = Proporcion, fill = Después)) +
geom_col(position = "dodge", width = 0.7) +
geom_text(aes(label = percent(Proporcion, accuracy = 0.1)),
position = position_dodge(0.7), vjust = -0.4, size = 4) +
labs(title = "Conocimiento de la marca antes y después de la campaña",
x = "Situación antes de la campaña",
y = "Proporción del total",
fill = "Situación después") +
scale_y_continuous(labels = percent_format(accuracy = 1)) +
theme_minimal(base_size = 13)
30 personas que no conocían la marca antes, la conocieron después, mientras que solo 10 personas que la conocían antes, dejaron de conocerla, el conocimiento de la marca aumentó del 50% al 60% tras la campaña.
Conclusión
Se concluye que la campaña publicitaria tuvo un efecto significativo en el conocimiento de la marca. Después de la campaña, aumentó la proporción de personas que reconocen la marca, lo que sugiere que la estrategia fue efectiva para mejorar el reconocimiento en el público.