Carga de datos, instalación de paquetes a utilizar

1) Pregunta 1. Importe la base de datos a R y determine el número de UE y de variables en la base de datos. ¿cuántas UE tienen al menos un dato faltante y cuántas tienen la información completa?.

library("kdensity")
library(stats)
library(readr)
library(ggplot2)
library(patchwork)
twins<-read.csv("C:\\Users\\jmunoz\\Downloads\\twins.csv")
dim(twins)
## [1] 183  16

La base de datos tiene 183 datos con 16 columnas, además tiene valores identificados por un . que serian los valores na, los reemplazaremos por NA para que R los identifique correctamente.

twins[twins == "."] <- NA
colSums(is.na(twins))
## ï..DLHRWAGE      DEDUC1         AGE       AGESQ     HRWAGEH      WHITEH 
##          34           0           0           0          22           0 
##       MALEH       EDUCH     HRWAGEL      WHITEL       MALEL       EDUCL 
##           0           0          21           0           0           0 
##      DEDUC2        DTEN    DMARRIED      DUNCOV 
##           0           4           0           0

Hay cuatro variables que tienen datos faltantes, y 12 con la información completa.

Pregunta 2.

Remueva de la base de datos los registros con al menos un dato faltante. ¿cuál es la dimensión de la tabla resultante?.

datos<-na.omit(twins)
dim(datos)
## [1] 147  16

La dimension de la nueva variables es 147 por 16

Pregunta 3.

Clasifique las variables EDUCL, EDUCH, HRWAGEL, HRWAGEH según su escala y clase, teniendo en cuenta que:

Pregunta 4.

Describa de manera gráfica el salario por hora autoreportado por el gemelo 1 y por el gemelo 2 univariadamente a partir de un diagrama de caja.

¿Qué características observa los datos en términos de centro, localización y dispersión?.

ggplot(datos, aes(y=as.numeric(HRWAGEL)))+geom_boxplot(fill="lightblue")+
  ggtitle('Diagrama de cajas salario gemelo 1')

ggplot(datos, aes(y=as.numeric(HRWAGEH)))+geom_boxplot(fill="pink")+
  ggtitle('Diagrama de cajas salario gemelo 2')

Al analizar los graficos de caja podemos mencionar que las medianas del salario de ambos gemelos es parecida, tambien existe una mayor variabilidad en el salario del gemelo 2, por ello tiene mas puntos atipicos que el salario del gemelo 1.

Los puntos extremos superior e inferior tambien son más lejanos para el salario del gemelo 2 que el del 1.

Pregunta 5.

Determine las observaciones atípicas univariadas para la variables HRWAGEL y HRWAGEH usando el diagrama de caja de Tukey. ¿cuál variable presenta mayor número de atipicidades?

Valores atípicos para cada salario de los gemelos

boxplot(as.numeric(datos$HRWAGEL),plot=FALSE)$out
## [1]  34.00000  96.15375  33.33333  50.00000  30.00000 100.00000
boxplot(as.numeric(datos$HRWAGEH),plot=FALSE)$out
##  [1] 35.00000 37.50000 41.66667 57.69225 40.00000 30.00000 32.50000 61.53846
##  [9] 37.50000 60.00000 33.33333

El salario de los gemelos 2 tiene mayor cantidad de datos atipicos que el del gemelo 1.

Pregunta 6.

Describa de manera gráfica el salario por hora autoreportado por el gemelo 1 y por el gemelo 2 bivariadamente a partir de un diagrama de dispersión entre las variables. Añada la estimación kernel de la densidad marginal de cada variable.

ggplot(datos, aes(x=as.numeric(HRWAGEL), y=as.numeric(HRWAGEH))) + geom_point(alpha=0.4, col="blue")+
  ggtitle("Diagrama de dispersión salario de gemelos")

Estimación de kernel para cada variable

k=kdensity(as.numeric(datos$HRWAGEL))
k1=kdensity(as.numeric(datos$HRWAGEH))
plot(k,main="Estimación kernel salario gemelo 1")

plot(k1,main="Estimación kernel salario gemelo 2")

Pregunta 7. Categorice las variables EDUCL y EDUCH como sigue

Dada esta nueva categorización de las variables ¿cuántos pares de gemelos tienen niveles educativos diferentes? ¿cuántos tienen niveles educativos iguales?.

##                      
##                       Posgrado Pregrado Primaria_secundaria
##   Posgrado                  33       16                   0
##   Pregrado                  10       84                   1
##   Primaria_secundaria        0        2                   1

Pregunta 8.

Para el siguiente punto considere la discretización del punto anterior y seleccione aquellos gemelos con el mismo nivel de estudio. Considerando únicamente las parejas de gemelos con educación superior (pregrado y posgrado), realice un diagrama de dispersión para el salario por hora autoreportado por el gemelo 1 y por el gemelo 2. Diferencie el color de los puntos por el nivel de escolaridad alcanzado. ¿Observa diferencias entre las distribuciones bivariadas de los dos grupos? ¿Qué puede concluir acerca de la relación entre el nivel educativo y los ingresos?.

muestra<-subset(datos,EDUCL!="Primaria_secundaria" & EDUCH!="Primaria_secundaria")
muestra1<-subset(muestra, EDUCL== "Pregrado" & EDUCH=="Pregrado")
p<-ggplot(data = muestra1,aes(y =as.numeric(HRWAGEL) , x = as.numeric(HRWAGEH)))+
  geom_point(color="green")+
  theme(legend.position = "none")+
xlab('Salario gemelo 2')+
  ylab('Salario gemelo 1')+
  ggtitle('Salario de los gemelos nivel pregrado')
muestra2<-subset(muestra, EDUCL== "Posgrado" & EDUCH=="Posgrado")
p1<-ggplot(data = muestra2,aes(y =as.numeric(HRWAGEL) , x = as.numeric(HRWAGEH),color="green"))+
  geom_point()+
  theme(legend.position = "none")+
  xlab('Salario gemelo 2')+ylab('Salario gemelo 1')+
  ggtitle('Salario de los gemelos nivel posgrado')
p/p1