data <- read.csv("Result_new.csv")
data_IS <- subset(data, data$Country.Name %in% c("India", "Spain"))
clearData <- na.omit(data_IS[, c("Country.Name", "Year", "Exports", "GDP", "GDP_PC", "HDI" ,"Unemployment" , "Fertility.Rate", "Literacy")])
Antes de comenzar con el estudio, hemos de
cargar y analizar los datos que tenemos. En nuestro caso, los hemos
obtenido de Kaggle.
El comando \(read.csv\) sirve para
leer y guardar el dataset, que guardamos en la variable “data”. Ya que
sólo nos interesan los datos relativos a la India y España, guardamos
estos en “data_IS”.
Por último, vemos que hay muchas filas con
valores \(NA\), como el HDI del que no
hay datos previos a 1990. El comando \(na.omit\) sirve para eliminar las filas con
valores vacíos. Además, también depuramos las columnas, ya que no
usaremos todas, y nos quedamos sólo con aquellas importantes.
y=clearData$Literacy[clearData$Country.Name=="Spain"]
x=clearData$HDI[clearData$Country.Name=="Spain"]
plot(y,x, ylab = "HDI", xlab = "Alfabetización ( % )", main = "España")
y=clearData$Literacy[clearData$Country.Name=="India"]
x=clearData$HDI[clearData$Country.Name=="India"]
plot(y,x, ylab = "HDI", xlab = "Alfabetización ( % )", main = "India")
Como podemos observar, en ambos casos, la alfabetización está relacionada con el índice de desarrollo humano.
s1=sd(clearData$HDI[clearData$Country.Name=="Spain"])
s2=sd(clearData$HDI[clearData$Country.Name=="India"])
s2^2/s1^2
## [1] 2.892757
Son distintas, ya que el resultado es mayor que 2.
bar_x1=mean(clearData$HDI[clearData$Country.Name=="Spain"])
bar_x2=mean(clearData$HDI[clearData$Country.Name=="India"])
alpha=0.04
n1=length(clearData$HDI[clearData$Country.Name=="Spain"])
n2=length(clearData$HDI[clearData$Country.Name=="India"])
Ya que son muestras independientes, con sigma desconocida, y distinta, lo resolvemos de la siguiente manera:
nu_arriba=(((s1^2)/(n1))+((s2^2)/(n2)))^2
nu_abajo=((((s1^2)/(n1))^2)/(n1-1))+((((s2^2)/(n2))^2)/(n2-1))
nu=ceiling(nu_arriba/nu_abajo)
t_alpha2=qt(1-alpha/2,nu)
izq = (bar_x1-bar_x2)-t_alpha2*sqrt(((s1^2)/(n1))+((s2^2)/(n2)))
der = (bar_x1-bar_x2)+t_alpha2*sqrt(((s1^2)/(n1))+((s2^2)/(n2)))
cat("(",izq,", ",der,")")
## ( 0.2711288 , 0.3342905 )
Viendo el intervalo de confianza, podemos deducir que es distinta, debido a que \(0\) no está en el intervalo de confianza.
H0: \(\mu\)1 \(\leq\) \(\mu\)2
H1: \(\mu\)2 \(>\) \(\mu\)1
s1=sd(clearData$Fertility.Rate[clearData$Country.Name=="Spain"])
s2=sd(clearData$Fertility.Rate[clearData$Country.Name=="India"])
s2^2/s1^2
## [1] 52.92238
Son distintas, ya que el resultado es mayor que 2.
bar_x1=mean(clearData$Fertility.Rate[clearData$Country.Name=="Spain"])
bar_x2=mean(clearData$Fertility.Rate[clearData$Country.Name=="India"])
d_0=0
n1=length(clearData$Fertility.Rate[clearData$Country.Name=="Spain"])
n2=length(clearData$Fertility.Rate[clearData$Country.Name=="India"])
t_s=((bar_x2-bar_x1)-d_0)/sqrt(((s1^2)/(n1))+((s2^2/(n2))))
nu_arriba=(((s1^2)/(n1))+((s2^2)/(n2)))^2
nu_abajo=((((s1^2)/(n1))^2)/(n1-1))+((((s2^2)/(n2))^2)/(n2-1))
nu=ceiling(nu_arriba/nu_abajo)
1-pt(t_s,nu)
## [1] 1.110223e-16
Como p-valor \(< 0.05\), se rechaza H0, por lo que podemos afirmar que la India tiene mayor tasa de fertilidad que España.
barplot(clearData$Fertility.Rate[clearData$Country.Name=="Spain"], space = 0.5, names.arg = clearData$Year[clearData$Country.Name=="Spain"], ylim = c(0,4), main = "España")
barplot(clearData$Fertility.Rate[clearData$Country.Name=="India"], space = 0.5, names.arg = clearData$Year[clearData$Country.Name=="India"], ylim = c(0,4), main = "India")
H0: \(\mu\)1 \(\leq\) \(\mu\)2
H1: \(\mu\)1 \(>\) \(\mu\)2
s1=sd(clearData$HDI[clearData$Country.Name=="Spain"])
s2=sd(clearData$HDI[clearData$Country.Name=="India"])
s2^2/s1^2
## [1] 2.892757
Son distintas, ya que el resultado es mayor que 2.
bar_x1=mean(clearData$HDI[clearData$Country.Name=="Spain"])
bar_x2=mean(clearData$HDI[clearData$Country.Name=="India"])
d_0=0
n1=length(clearData$HDI[clearData$Country.Name=="Spain"])
n2=length(clearData$HDI[clearData$Country.Name=="India"])
t_s=((bar_x1-bar_x2)-d_0)/sqrt(((s1^2)/(n1))+((s2^2/(n2))))
nu_arriba=(((s1^2)/(n1))+((s2^2)/(n2)))^2
nu_abajo=((((s1^2)/(n1))^2)/(n1-1))+((((s2^2)/(n2))^2)/(n2-1))
nu=ceiling(nu_arriba/nu_abajo)
1-pt(t_s,nu)
## [1] 0
Como p-valor \(<\) alpha(0.05), rechazamos H0 y podemos concluir que España tiene mayor índice de desarrollo humano que la India.
barplot(clearData$HDI[clearData$Country.Name=="Spain"], space = 0.5, names.arg = clearData$Year[clearData$Country.Name=="Spain"], ylim = c(0,1), main = "España")
barplot(clearData$HDI[clearData$Country.Name=="India"], space = 0.5, names.arg = clearData$Year[clearData$Country.Name=="India"], ylim = c(0,1), main = "India")