Análisis España e India Estudio de la evolución como país de España e India.

Previa al estudio

data <- read.csv("Result_new.csv")
data_IS <- subset(data, data$Country.Name %in% c("India", "Spain"))
clearData <- na.omit(data_IS[, c("Country.Name", "Year", "Exports", "GDP", "GDP_PC", "HDI" ,"Unemployment" , "Fertility.Rate", "Literacy")])

Antes de comenzar con el estudio, hemos de cargar y analizar los datos que tenemos. En nuestro caso, los hemos obtenido de Kaggle.
El comando \(read.csv\) sirve para leer y guardar el dataset, que guardamos en la variable “data”. Ya que sólo nos interesan los datos relativos a la India y España, guardamos estos en “data_IS”.
Por último, vemos que hay muchas filas con valores \(NA\), como el HDI del que no hay datos previos a 1990. El comando \(na.omit\) sirve para eliminar las filas con valores vacíos. Además, también depuramos las columnas, ya que no usaremos todas, y nos quedamos sólo con aquellas importantes.

¿Hay relación entre el nivel de alfabetización y el nivel de desarrollo de ambos países?

y=clearData$Literacy[clearData$Country.Name=="Spain"]
x=clearData$HDI[clearData$Country.Name=="Spain"]
plot(y,x, ylab = "HDI", xlab = "Alfabetización ( % )", main = "España")

y=clearData$Literacy[clearData$Country.Name=="India"]
x=clearData$HDI[clearData$Country.Name=="India"]
plot(y,x, ylab = "HDI", xlab = "Alfabetización ( % )", main = "India")

Como podemos observar, en ambos casos, la alfabetización está relacionada con el índice de desarrollo humano.

¿Al 96% la media de HDI (índice de desarrollo humano) es igual en India y España?

s1=sd(clearData$HDI[clearData$Country.Name=="Spain"])
s2=sd(clearData$HDI[clearData$Country.Name=="India"])
s2^2/s1^2

## [1] 2.892757

Son distintas, ya que el resultado es mayor que 2.

bar_x1=mean(clearData$HDI[clearData$Country.Name=="Spain"])
bar_x2=mean(clearData$HDI[clearData$Country.Name=="India"])
alpha=0.04
n1=length(clearData$HDI[clearData$Country.Name=="Spain"])
n2=length(clearData$HDI[clearData$Country.Name=="India"])

Ya que son muestras independientes, con sigma desconocida, y distinta, lo resolvemos de la siguiente manera:

nu_arriba=(((s1^2)/(n1))+((s2^2)/(n2)))^2
nu_abajo=((((s1^2)/(n1))^2)/(n1-1))+((((s2^2)/(n2))^2)/(n2-1))
nu=ceiling(nu_arriba/nu_abajo)
t_alpha2=qt(1-alpha/2,nu)
izq = (bar_x1-bar_x2)-t_alpha2*sqrt(((s1^2)/(n1))+((s2^2)/(n2)))
der = (bar_x1-bar_x2)+t_alpha2*sqrt(((s1^2)/(n1))+((s2^2)/(n2)))

cat("(",izq,", ",der,")")

## ( 0.2711288 ,  0.3342905 )

Viendo el intervalo de confianza, podemos deducir que es distinta, debido a que \(0\) no está en el intervalo de confianza.

¿Apoyan los datos la afirmación de que el grado de fertilidad es mayor en la India que en España?

H₀: \(\mu\)₁ \(\leq\) \(\mu\)₂
H₁: \(\mu\)₂ \(>\) \(\mu\)₁

s1=sd(clearData$Fertility.Rate[clearData$Country.Name=="Spain"])
s2=sd(clearData$Fertility.Rate[clearData$Country.Name=="India"])
s2^2/s1^2

## [1] 52.92238

Son distintas, ya que el resultado es mayor que 2.

bar_x1=mean(clearData$Fertility.Rate[clearData$Country.Name=="Spain"])
bar_x2=mean(clearData$Fertility.Rate[clearData$Country.Name=="India"])
d_0=0
n1=length(clearData$Fertility.Rate[clearData$Country.Name=="Spain"])
n2=length(clearData$Fertility.Rate[clearData$Country.Name=="India"])
t_s=((bar_x2-bar_x1)-d_0)/sqrt(((s1^2)/(n1))+((s2^2/(n2))))

nu_arriba=(((s1^2)/(n1))+((s2^2)/(n2)))^2
nu_abajo=((((s1^2)/(n1))^2)/(n1-1))+((((s2^2)/(n2))^2)/(n2-1))
nu=ceiling(nu_arriba/nu_abajo)
1-pt(t_s,nu)

## [1] 1.110223e-16

Como p-valor \(< 0.05\), se rechaza H₀, por lo que podemos afirmar que la India tiene mayor tasa de fertilidad que España.

barplot(clearData$Fertility.Rate[clearData$Country.Name=="Spain"], space = 0.5, names.arg = clearData$Year[clearData$Country.Name=="Spain"], ylim = c(0,4), main = "España")

barplot(clearData$Fertility.Rate[clearData$Country.Name=="India"], space = 0.5, names.arg = clearData$Year[clearData$Country.Name=="India"], ylim = c(0,4), main = "India")

Con todo esto, ¿podemos concluir que España tiene mayor grado de desarrollo que India?

H₀: \(\mu\)₁ \(\leq\) \(\mu\)₂
H₁: \(\mu\)₁ \(>\) \(\mu\)₂

s1=sd(clearData$HDI[clearData$Country.Name=="Spain"])
s2=sd(clearData$HDI[clearData$Country.Name=="India"])
s2^2/s1^2

## [1] 2.892757

Son distintas, ya que el resultado es mayor que 2.

bar_x1=mean(clearData$HDI[clearData$Country.Name=="Spain"])
bar_x2=mean(clearData$HDI[clearData$Country.Name=="India"])
d_0=0
n1=length(clearData$HDI[clearData$Country.Name=="Spain"])
n2=length(clearData$HDI[clearData$Country.Name=="India"])
t_s=((bar_x1-bar_x2)-d_0)/sqrt(((s1^2)/(n1))+((s2^2/(n2))))

nu_arriba=(((s1^2)/(n1))+((s2^2)/(n2)))^2
nu_abajo=((((s1^2)/(n1))^2)/(n1-1))+((((s2^2)/(n2))^2)/(n2-1))
nu=ceiling(nu_arriba/nu_abajo)
1-pt(t_s,nu)

## [1] 0

Como p-valor \(<\) alpha(0.05), rechazamos H₀ y podemos concluir que España tiene mayor índice de desarrollo humano que la India.

barplot(clearData$HDI[clearData$Country.Name=="Spain"], space = 0.5, names.arg = clearData$Year[clearData$Country.Name=="Spain"], ylim = c(0,1), main = "España")

barplot(clearData$HDI[clearData$Country.Name=="India"], space = 0.5, names.arg = clearData$Year[clearData$Country.Name=="India"], ylim = c(0,1), main = "India")

Bandera de España

Bandera de la India

Trabajo banco de datos

Daniel Requena Muñoz, Juan Luis López Martínez, Javier Martínez Francó.

14 de mayo de 2023.

Previa al estudio

¿Hay relación entre el nivel de alfabetización y el nivel de desarrollo de ambos países?

¿Al 96% la media de HDI (índice de desarrollo humano) es igual en India y España?

¿Apoyan los datos la afirmación de que el grado de fertilidad es mayor en la India que en España?

Con todo esto, ¿podemos concluir que España tiene mayor grado de desarrollo que India?