# Importamos las base de datos de carreras universitarias
library(readxl)
base1 <- read_excel("D:Econometrics_1_ANOVA/data1.xlsx", sheet = 1)
# Convertirmos a factor la columna Carreras universitarias
base1$Carreras_universitarias <- as.factor(base1$Carreras_universitarias)
# Observamos las primeras 6 observaciones del dataset
head(base1)
# Observamos en terminos generales el dataset
str(base1)
## tibble [120 × 2] (S3: tbl_df/tbl/data.frame)
## $ Carreras_universitarias: Factor w/ 3 levels "Administración",..: 3 3 3 3 3 3 3 3 3 3 ...
## $ Frecuencia : num [1:120] 11 14 7 15 11 13 11 16 10 15 ...
# Gráfico de barras
library(tidyverse) # Esta librería contiene los paquetes para procesar datos y graficar
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.1 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.1
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
# Histogramas
base1 %>%
filter(Carreras_universitarias == "Economía") %>%
ggplot(aes(Frecuencia)) +
geom_histogram(binwidth = 1, fill = "blue", col = "black") +
xlab("Relaciones sexuales") +
ggtitle("Histograma de frecuencia de relaciones sexuales por carrera universitaria")
base1 %>%
filter(Carreras_universitarias == "Administración") %>%
ggplot(aes(Frecuencia)) +
geom_histogram(binwidth = 1, fill = "red", col = "black") +
xlab("Relaciones sexuales") +
ggtitle("Histograma de frecuencia de relaciones sexuales por carrera universitaria")
base1 %>%
filter(Carreras_universitarias == "Contaduría") %>%
ggplot(aes(Frecuencia)) +
geom_histogram(binwidth = 1, fill = "green", col = "black") +
xlab("Relaciones sexuales") +
ggtitle("Histograma de frecuencia de relaciones sexuales por carrera universitaria")
# Diagrama de caja
p <- base1 %>%
ggplot(aes(Carreras_universitarias, Frecuencia, fill=Carreras_universitarias)) +
geom_boxplot() +
scale_y_continuous() +
xlab("") +
ggtitle("Diagrama de caja de frecuencia de relaciones sexuales") +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
p + geom_point(alpha = 0.5)
# Gráfico de densidad
base1 %>%
ggplot(aes(Frecuencia, fill = Carreras_universitarias)) +
ggtitle("Diagrama de densidad de frecuencia de relaciones sexuales") +
geom_density()
# Estadistcas descriptivas
resumen_carrera <- base1 %>%
group_by(`Carreras_universitarias`) %>%
summarise(frecuencia_total = sum(Frecuencia),
promedio = mean(Frecuencia),
desviacion_estandar = sd(Frecuencia),
mediana = median(Frecuencia),
maximo = max(Frecuencia),
minimo = min(Frecuencia))
resumen_carrera
Se puede observar, a partir de los gráficos y las estadísticas descriptivas, que el promedio de veces que los estudiantes de Economía tienen relaciones sexuales es de 11.60 veces, en comparación con 6.90 veces en Administración y 5.45 veces en Contaduría. Esto sugiere que los estudiantes de Economía, en promedio, tienen una mayor frecuencia de actividad sexual que sus compañeros de otras carreras. Al analizar las diferencias en los promedios, se puede confirmar que los comportamientos varían entre las tres disciplinas. En Economía, el estudiante con menor actividad sexual tiene 6 encuentros al mes, mientras que el de mayor frecuencia alcanza 20. En Administración, las cifras oscilan entre 0 y 16, y en Contaduría van desde 0 hasta 11. En cuanto a la variabilidad (medida por la varianza), los resultados son notablemente distintos, siendo de 9.99 para Economía, 14.82 para Administración y 7.03 para Contaduría.
Los gráficos de densidad, boxplot y el histograma de frecuencia muestran en terminos simple el comportamiento de los estudiantes de las carreras universitarias, respecto a la actividad sexual, mostrando variaciones y dispersiones entre los estudiantes de las distintas carreras universitarias.
Test ANOVA
\[H_0:\mu_1=\mu_2=\mu_3\] \[H_1:\mu_i\neq\mu_2\]
Regla de decisión de la prueba de hipotesis
Rechazar Ho si \(F=\frac{MCG}{MCD} > F_{K-1, n-k, \alpha}\)
Anova <- aov( lm(Frecuencia ~ Carreras_universitarias, data = base1) )
summary(Anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## Carreras_universitarias 2 826.9 413.4 38.98 1.07e-13 ***
## Residuals 117 1241.1 10.6
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
\(F=\frac{826.9}{1241.1}=38.98 > F_{K-1, n-k, \alpha}=3\)
Como el F-calculado es mayor al F-critico, rechazamos la hipótesis nula, por lo tanto, concluimos que existen diferencias significativas en las medias en las relaciones sexuales de los tres programas universitarios (economía, administración y contaduría).
La frecuencia de relaciones sexuales (número de encuentros por alumno y por programa) varía considerablemente entre los estudiantes de las distintas carreras universitarias. Esta diferencia se puede observar claramente mediante los métodos gráficos (como los boxplots, histogramas y curvas de densidad), los cuales muestran comportamientos dispares. Además, esta variabilidad se confirma mediante la prueba F de Fisher, aplicada en el análisis de varianza (salida de la estimación, se rechazó de la hipótesis nula 𝐻0 en ANOVA), donde se rechaza la hipótesis nula que planteaba que las medias de las relaciones sexuales eran iguales para todas las carreras.
Tukey <- TukeyHSD(Anova)
Tukey
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = lm(Frecuencia ~ Carreras_universitarias, data = base1))
##
## $Carreras_universitarias
## diff lwr upr p adj
## Contaduría-Administración -1.45 -3.178861 0.2788605 0.1189269
## Economía-Administración 4.70 2.971139 6.4288605 0.0000000
## Economía-Contaduría 6.15 4.421139 7.8788605 0.0000000
plot(Tukey)
Las diferencias entre los estudiantes de Economía y Contaduría son estadísticamente significativas y más pronunciadas en comparación con otras combinaciones de carreras, con una diferencia de 6.15 veces en la frecuencia de relaciones sexuales
library(ggplot2)
summary(Anova$residuals)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -6.900 -1.900 0.400 0.000 2.175 9.100
# Crear gráficos utilizando ggplot2
data <- data.frame(residuals = Anova$residuals)
# Gráfico de residuos
ggplot(data, aes(x = seq_along(residuals), y = residuals)) +
geom_point() +
labs(title = "Diagrama de dispersión de los residuos", x = "Index", y = "Residuos") +
theme_minimal()
# Gráfico de caja
ggplot(data, aes(y = residuals)) +
geom_boxplot() +
labs(title = "Diagrama de caja de los residuos", y = "Residuos") +
theme_minimal()
# Histograma
ggplot(data, aes(x = residuals)) +
geom_histogram(binwidth = 1, fill = "blue", color = "black") +
labs(title = "Histograma de los residuos", x = "Residuos", y = "Frequencia") +
theme_minimal()
# Gráfico QQ
ggplot(data, aes(sample = residuals)) +
stat_qq() +
stat_qq_line() +
labs(title = "QQ Plot de los residuos") +
theme_minimal()
shapiro.test(Anova$residuals)
##
## Shapiro-Wilk normality test
##
## data: Anova$residuals
## W = 0.98473, p-value = 0.1945
Al analizar el gráfico de dispersión junto con la línea de ajuste, se puede apreciar que el ajuste es casi perfecto, lo que indica que los residuos siguen una distribución normal. Además, el histograma presenta una forma de campana, lo que refuerza la hipótesis de que los residuos se distribuyen normalmente de manera anticipada.
kruskal.test(Frecuencia ~ Carreras_universitarias, data = base1)
##
## Kruskal-Wallis rank sum test
##
## data: Frecuencia by Carreras_universitarias
## Kruskal-Wallis chi-squared = 51.504, df = 2, p-value = 6.547e-12
Promover la educación sobre salud sexual y reproductiva para prevenir embarazos no deseados entre los estudiantes universitarios, asegurando que tengan acceso a información adecuada y a métodos anticonceptivos. Se realizarán charlas, talleres y campañas informativas para que los estudiantes comprendan los riesgos de los embarazos no deseados y aprendan sobre las opciones anticonceptivas disponibles. Estas actividades serán realizadas por profesionales de la salud y estarán abiertas a todos los estudiantes. Se ofrecerán métodos anticonceptivos gratuitos o a bajo costo en los centros de salud universitaria, como preservativos, píldoras anticonceptivas y otros métodos. Los estudiantes podrán acceder a estos recursos de manera fácil y confidencial. Los cursos y talleres de educación sexual integral serán parte del programa educativo de la universidad. Además, se promoverán contenidos educativos sobre la importancia de la planificación familiar y el respeto mutuo en las relaciones sexuales.
# Importamos las base de datos de salarios por provincia
library(readxl)
base2 <- read_excel("D:Econometrics_1_ANOVA/data1.xlsx", sheet = 2)
# Convertirmos a factor la columna Carreras Universitarias
base2$`Provincias` <- as.factor(base2$`Provincias`)
# Observamos las primeras 6 observaciones del dataset
head(base2)
# Observamos en terminos generales el dataset
str(base2)
## tibble [150 × 2] (S3: tbl_df/tbl/data.frame)
## $ Provincias: Factor w/ 3 levels "Alicante","Castellón",..: 3 3 3 3 3 3 3 3 3 3 ...
## $ Salario : num [1:150] 299 313 300 321 308 312 300 310 281 308 ...
# Gráfico de barras
library(tidyverse)
# Histogramas
base2 %>%
filter(`Provincias` == "Valencia") %>%
ggplot(aes(Salario)) +
geom_histogram(binwidth = 1, fill = "blue", col = "black") +
xlab("Relaciones sexuales") +
ggtitle("Histograma de frecuencia de relaciones sexuales por carrera universitaria")
base2 %>%
filter(`Provincias` == "Castellón") %>%
ggplot(aes(Salario)) +
geom_histogram(binwidth = 1, fill = "red", col = "black") +
xlab("Relaciones sexuales") +
ggtitle("Histograma de frecuencia de relaciones sexuales por carrera universitaria")
base2 %>%
filter(`Provincias` == "Alicante") %>%
ggplot(aes(Salario)) +
geom_histogram(binwidth = 1, fill = "green", col = "black") +
xlab("Relaciones sexuales") +
ggtitle("Histograma de frecuencia de relaciones sexuales por carrera universitaria")
# Diagrama de caja
p <- base2 %>%
ggplot(aes(`Provincias`, Salario, fill = `Provincias`)) +
geom_boxplot() +
scale_y_continuous() +
xlab("") +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
p + geom_point(alpha = 0.5)
# Gráfico de densidad
base2 %>%
ggplot(aes(Salario, fill = `Provincias`)) +
geom_density()
# Estadistcas descriptivas
resumen_provincias <- base2 %>%
group_by(`Provincias`) %>%
summarise(frecuencia_total = sum(Salario),
promedio = mean(Salario),
desviacion_estandar = sd(Salario),
mediana = median(Salario),
maximo = max(Salario),
minimo = min(Salario))
resumen_provincias
Si se observa los distintos gráficos y estadisticas descriptivas de la base de datos 2 (contiene informacion de tres ciudades y sus respectivos salarios) nos muestra que el salario promedio por semana en Valencia es de 300.5 euros, en Castellón de 242.4 euros y en Alicante de 279.1 euros. Esto indica que los habitantes de Valencia ganan más por semana en comparación con los de las otras dos provincias. Al analizar las diferencias en los salarios, se nota que las cifras varían entre las tres provincias. En Valencia, el salario más bajo es de 276.0 euros/semana y el más alto de 321 euros, mientras que en Castellón el mínimo es de 229.0 euros y el máximo de 261.0 euros. En Alicante, el salario más bajo es de 265.0 euros y el más alto de 304.0 euros por semana. Además, al revisar las estadísticas de variación, como la varianza, se observa que son bastante diferentes: 91.54 para Valencia, 67.71 para Castellón y 73.84 para Alicante. Los gráficos de densidad, boxplot y el histograma de frecuencia muestran en terminos simple comportamiento de los salarios semanales de las tres ciudades o provincias de España, mostrando variaciones y dispersiones entre las provincias.
Test ANOVA
\[H_0:\mu_1=\mu_2=\mu_3\] \[H_1:\mu_i\neq\mu_2\]
Regla de decisión
Rechazar Ho si \(F=\frac{MCG}{MCD} > F_{K-1, n-k, \alpha}\)
Anova1 <- aov( lm(Salario ~ Provincias, data = base2) )
summary(Anova1)
## Df Sum Sq Mean Sq F value Pr(>F)
## Provincias 2 86713 43356 558 <2e-16 ***
## Residuals 147 11422 78
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
\(F=\frac{86713}{11422}=7.59 > F_{K-1, n-k, \alpha}=3\)
Como el F-calculado es mayor al F-critico, rechazamos la hipótesis nula, por lo tanto, concluimos que existen diferencias significativas en la medias de los salarios en euros por semana en las tres provincias de la comunidad Valenciana (Valencia, Castellón y Alicante)
Los salarios más altos por semana en las distintas provincias de la Comunidad Valenciana muestran diferencias notables. Esto queda claro al observar los gráficos (boxplot, histograma y densidad), donde se ve que los comportamientos varían. Además, la prueba F de Fisher, utilizada en el análisis de varianza (tabla ANOVA), confirma estas diferencias, ya que se rechaza la hipótesis nula de que los salarios medios son iguales en todas las provincias.
Tukey1 <- TukeyHSD(Anova1)
Tukey1
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = lm(Salario ~ Provincias, data = base2))
##
## $Provincias
## diff lwr upr p adj
## Castellón-Alicante -36.70 -40.87415 -32.52585 0
## Valencia-Alicante 21.54 17.36585 25.71415 0
## Valencia-Castellón 58.24 54.06585 62.41415 0
plot(Tukey1)
Las diferencias salariales entre Valencia y Castellón son estadísticamente significativas y más marcadas que en otras combinaciones de provincias. En particular, se observa una brecha salarial de 58.24 euros por semana, lo que indica que, en promedio, los trabajadores en Valencia ganan considerablemente más que aquellos en Castellón. Esta diferencia es notablemente mayor que la registrada entre otras provincias de la Comunidad Valenciana. El análisis de varianza confirma que esta disparidad no es fruto del azar y que hay factores estructurales o económicos que explican las variaciones salariales entre estas dos provincias. Este hallazgo sugiere que existen diferencias en el mercado laboral, en los tipos de empleo o en las industrias predominantes que podrían estar influyendo en los niveles salariales en cada región.
library(ggplot2)
summary(Anova1$residuals)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -24.640 -6.400 0.480 0.000 6.825 24.900
# Crear gráficos utilizando ggplot2
data1 <- data.frame(residuals = Anova1$residuals)
# Gráfico de residuos
ggplot(data, aes(x = seq_along(residuals), y = residuals)) +
geom_point() +
labs(title = "Dispersión de los residuos", x = "Index", y = "Residuos") +
theme_minimal()
# Gráfico de caja
ggplot(data, aes(y = residuals)) +
geom_boxplot() +
labs(title = "Diagrama de caja", y = "Residuos") +
theme_minimal()
# Histograma
ggplot(data, aes(x = residuals)) +
geom_histogram(binwidth = 1, fill = "blue", color = "black") +
labs(title = "Histograma de los residuos", x = "Residuos", y = "Frecuencia") +
theme_minimal()
# Gráfico QQ
ggplot(data, aes(sample = residuals)) +
stat_qq() +
stat_qq_line() +
labs(title = "QQ Plot de los residuos") +
theme_minimal()
Al analizar el gráfico de dispersión junto con la línea de ajuste, se
puede observar que el ajuste es prácticamente perfecto. Esto sugiere que
los datos se ajustan de manera coherente con el modelo propuesto, lo que
a su vez indica que los residuos están distribuidos de manera normal.
Este comportamiento es crucial, ya que la normalidad de los residuos es
un supuesto fundamental en muchos modelos estadísticos, como la
regresión lineal, que requiere que los errores o desviaciones del modelo
sigan una distribución normal para garantizar la validez de los
resultados.
Además, el histograma de los residuos muestra una forma de campana, lo que refuerza aún más la idea de que siguen una distribución normal. La simetría y el patrón característico de esta distribución son señales claras de que, a priori, no existen sesgos significativos en los datos que puedan estar afectando la precisión del modelo. En conjunto, estos elementos gráficos proporcionan una fuerte evidencia de que los residuos cumplen con los supuestos estadísticos necesarios, lo que fortalece la fiabilidad de las conclusiones que se puedan extraer del análisis
shapiro.test(Anova$residuals)
##
## Shapiro-Wilk normality test
##
## data: Anova$residuals
## W = 0.98473, p-value = 0.1945
kruskal.test(Salario ~ Provincias, data = base2)
##
## Kruskal-Wallis rank sum test
##
## data: Salario by Provincias
## Kruskal-Wallis chi-squared = 126.23, df = 2, p-value < 2.2e-16
A partir de la evidencia empirica mostrada por el análisis de varianza y los diferentes gráficos y estadisticas descriptivas podemos evidenciar una notable diferencia en los salarios semanales entre las provincias de Castellón, Valencia y Alicante, como se ha observado en los análisis, plantea un desafío para la cohesión económica de la Comunidad Valenciana. Para abordar esta disparidad, es fundamental implementar políticas públicas que promuevan la equidad salarial y el desarrollo económico equilibrado en las tres provincias. Una posible medida sería incentivar la diversificación de las economías locales, promoviendo sectores productivos en las provincias con salarios más bajos, como Castellón, mediante inversiones en infraestructura, tecnología y capacitación laboral. Además, se podrían establecer programas de incentivos fiscales para empresas que apuesten por crear empleos de calidad en estas provincias, lo que ayudaría a elevar los salarios sin generar disparidades excesivas entre los territorios. Paralelamente, es crucial fomentar la formación profesional y la educación superior alineada con las necesidades del mercado laboral de cada provincia, para que los trabajadores puedan acceder a empleos mejor remunerados. La mejora en la conectividad interprovincial también sería un paso clave para integrar los mercados laborales, permitiendo que los empleados puedan acceder a oportunidades en otras provincias sin perder la calidad de vida. Estas políticas deben estar acompañadas de una monitorización constante para ajustar las medidas según los resultados obtenidos, con el objetivo de lograr un crecimiento económico más equitativo y reducir las desigualdades salariales dentro de la Comunidad Valenciana.