Análisis España e India
Estudio de la evolución como país de España e India.

Previa al estudio

data <- read.csv("Result_new.csv")
data_IS <- subset(data, data$Country.Name %in% c("India", "Spain"))
clearData <- na.omit(data_IS[, c("Country.Name", "Year", "Exports", "GDP", "GDP_PC", "HDI" ,"Unemployment" , "Fertility.Rate", "Literacy")])

Antes de comenzar con el estudio, hemos de cargar y analizar los datos que tenemos. En nuestro caso, los hemos obtenido de Kaggle.
El comando \(read.csv\) sirve para leer y guardar el dataset, que guardamos en la variable “data”. Ya que sólo nos interesan los datos relativos a la India y España, guardamos estos en “data_IS”.
Por último, vemos que hay muchas filas con valores \(NA\), como el HDI del que no hay datos previos a 1990. El comando \(na.omit\) sirve para eliminar las filas con valores vacíos. Además, también depuramos las columnas, ya que no usaremos todas, y nos quedamos sólo con aquellas importantes.


¿Hay relación entre el nivel de alfabetización y el nivel de desarrollo de ambos países?

y=clearData$Literacy[clearData$Country.Name=="Spain"]
x=clearData$HDI[clearData$Country.Name=="Spain"]
plot(y,x, ylab = "HDI", xlab = "Alfabetización ( % )", main = "España")

y=clearData$Literacy[clearData$Country.Name=="India"]
x=clearData$HDI[clearData$Country.Name=="India"]
plot(y,x, ylab = "HDI", xlab = "Alfabetización ( % )", main = "India")

Como podemos observar, en ambos casos, la alfabetización está relacionada con el índice de desarrollo humano.


¿Al 96% la media de HDI (índice de desarrollo humano) es igual en India y España?

s1=sd(clearData$HDI[clearData$Country.Name=="Spain"])
s2=sd(clearData$HDI[clearData$Country.Name=="India"])
s2^2/s1^2
## [1] 2.892757

Son distintas, ya que el resultado es mayor que 2.

bar_x1=mean(clearData$HDI[clearData$Country.Name=="Spain"])
bar_x2=mean(clearData$HDI[clearData$Country.Name=="India"])
alpha=0.04
n1=length(clearData$HDI[clearData$Country.Name=="Spain"])
n2=length(clearData$HDI[clearData$Country.Name=="India"])

Ya que son muestras independientes, con sigma desconocida, y distinta, lo resolvemos de la siguiente manera:

nu_arriba=(((s1^2)/(n1))+((s2^2)/(n2)))^2
nu_abajo=((((s1^2)/(n1))^2)/(n1-1))+((((s2^2)/(n2))^2)/(n2-1))
nu=ceiling(nu_arriba/nu_abajo)
t_alpha2=qt(1-alpha/2,nu)
izq = (bar_x1-bar_x2)-t_alpha2*sqrt(((s1^2)/(n1))+((s2^2)/(n2)))
der = (bar_x1-bar_x2)+t_alpha2*sqrt(((s1^2)/(n1))+((s2^2)/(n2)))

cat("(",izq,", ",der,")")
## ( 0.2711288 ,  0.3342905 )

Viendo el intervalo de confianza, podemos deducir que es distinta, debido a que \(0\) no está en el intervalo de confianza.


¿Apoyan los datos la afirmación de que el grado de fertilidad es mayor en la India que en España?

H0: \(\mu\)1 \(\leq\) \(\mu\)2
H1: \(\mu\)2 \(>\) \(\mu\)1

s1=sd(clearData$Fertility.Rate[clearData$Country.Name=="Spain"])
s2=sd(clearData$Fertility.Rate[clearData$Country.Name=="India"])
s2^2/s1^2
## [1] 52.92238

Son distintas, ya que el resultado es mayor que 2.

bar_x1=mean(clearData$Fertility.Rate[clearData$Country.Name=="Spain"])
bar_x2=mean(clearData$Fertility.Rate[clearData$Country.Name=="India"])
d_0=0
n1=length(clearData$Fertility.Rate[clearData$Country.Name=="Spain"])
n2=length(clearData$Fertility.Rate[clearData$Country.Name=="India"])
t_s=((bar_x2-bar_x1)-d_0)/sqrt(((s1^2)/(n1))+((s2^2/(n2))))

nu_arriba=(((s1^2)/(n1))+((s2^2)/(n2)))^2
nu_abajo=((((s1^2)/(n1))^2)/(n1-1))+((((s2^2)/(n2))^2)/(n2-1))
nu=ceiling(nu_arriba/nu_abajo)
1-pt(t_s,nu)
## [1] 1.110223e-16

Como p-valor \(< 0.05\), se rechaza H0, por lo que podemos afirmar que la India tiene mayor tasa de fertilidad que España.

barplot(clearData$Fertility.Rate[clearData$Country.Name=="Spain"], space = 0.5, names.arg = clearData$Year[clearData$Country.Name=="Spain"], ylim = c(0,4), main = "España")

barplot(clearData$Fertility.Rate[clearData$Country.Name=="India"], space = 0.5, names.arg = clearData$Year[clearData$Country.Name=="India"], ylim = c(0,4), main = "India")


Con todo esto, ¿podemos concluir que España tiene mayor grado de desarrollo que India?

H0: \(\mu\)1 \(\leq\) \(\mu\)2
H1: \(\mu\)1 \(>\) \(\mu\)2

s1=sd(clearData$HDI[clearData$Country.Name=="Spain"])
s2=sd(clearData$HDI[clearData$Country.Name=="India"])
s2^2/s1^2
## [1] 2.892757

Son distintas, ya que el resultado es mayor que 2.

bar_x1=mean(clearData$HDI[clearData$Country.Name=="Spain"])
bar_x2=mean(clearData$HDI[clearData$Country.Name=="India"])
d_0=0
n1=length(clearData$HDI[clearData$Country.Name=="Spain"])
n2=length(clearData$HDI[clearData$Country.Name=="India"])
t_s=((bar_x1-bar_x2)-d_0)/sqrt(((s1^2)/(n1))+((s2^2/(n2))))

nu_arriba=(((s1^2)/(n1))+((s2^2)/(n2)))^2
nu_abajo=((((s1^2)/(n1))^2)/(n1-1))+((((s2^2)/(n2))^2)/(n2-1))
nu=ceiling(nu_arriba/nu_abajo)
1-pt(t_s,nu)
## [1] 0

Como p-valor \(<\) alpha(0.05), rechazamos H0 y podemos concluir que España tiene mayor índice de desarrollo humano que la India.

barplot(clearData$HDI[clearData$Country.Name=="Spain"], space = 0.5, names.arg = clearData$Year[clearData$Country.Name=="Spain"], ylim = c(0,1), main = "España")

barplot(clearData$HDI[clearData$Country.Name=="India"], space = 0.5, names.arg = clearData$Year[clearData$Country.Name=="India"], ylim = c(0,1), main = "India")