Carga de datos, instalación de paquetes a utilizar
1) Pregunta 1. Importe la base de datos a R y determine el número de UE y de variables en la base de datos. ¿cuántas UE tienen al menos un dato faltante y cuántas tienen la información completa?.
library("kdensity")
library(stats)
library(readr)
library(ggplot2)
library(patchwork)
twins<-read.csv("C:\\Users\\jmunoz\\Downloads\\twins.csv")
dim(twins)
## [1] 183 16
La base de datos tiene 183 datos con 16 columnas, además tiene valores identificados por un . que serian los valores na, los reemplazaremos por NA para que R los identifique correctamente.
twins[twins == "."] <- NA
colSums(is.na(twins))
## ï..DLHRWAGE DEDUC1 AGE AGESQ HRWAGEH WHITEH
## 34 0 0 0 22 0
## MALEH EDUCH HRWAGEL WHITEL MALEL EDUCL
## 0 0 21 0 0 0
## DEDUC2 DTEN DMARRIED DUNCOV
## 0 4 0 0
Hay cuatro variables que tienen datos faltantes, y 12 con la información completa.
Pregunta 2.
Remueva de la base de datos los registros con al menos un dato faltante. ¿cuál es la dimensión de la tabla resultante?.
datos<-na.omit(twins)
dim(datos)
## [1] 147 16
La dimension de la nueva variables es 147 por 16
Pregunta 3.
Clasifique las variables EDUCL, EDUCH, HRWAGEL, HRWAGEH según su escala y clase, teniendo en cuenta que:
Pregunta 4.
Describa de manera gráfica el salario por hora autoreportado por el gemelo 1 y por el gemelo 2 univariadamente a partir de un diagrama de caja.
¿Qué características observa los datos en términos de centro, localización y dispersión?.
ggplot(datos, aes(y=as.numeric(HRWAGEL)))+geom_boxplot(fill="lightblue")+
ggtitle('Diagrama de cajas salario gemelo 1')
ggplot(datos, aes(y=as.numeric(HRWAGEH)))+geom_boxplot(fill="pink")+
ggtitle('Diagrama de cajas salario gemelo 2')
Al analizar los graficos de caja podemos mencionar que las medianas del salario de ambos gemelos es parecida, tambien existe una mayor variabilidad en el salario del gemelo 2, por ello tiene mas puntos atipicos que el salario del gemelo 1.
Los puntos extremos superior e inferior tambien son más lejanos para el salario del gemelo 2 que el del 1.
Pregunta 5.
Determine las observaciones atípicas univariadas para la variables HRWAGEL y HRWAGEH usando el diagrama de caja de Tukey. ¿cuál variable presenta mayor número de atipicidades?
Valores atípicos para cada salario de los gemelos
boxplot(as.numeric(datos$HRWAGEL),plot=FALSE)$out
## [1] 34.00000 96.15375 33.33333 50.00000 30.00000 100.00000
boxplot(as.numeric(datos$HRWAGEH),plot=FALSE)$out
## [1] 35.00000 37.50000 41.66667 57.69225 40.00000 30.00000 32.50000 61.53846
## [9] 37.50000 60.00000 33.33333
El salario de los gemelos 2 tiene mayor cantidad de datos atipicos que el del gemelo 1.
Pregunta 6.
Describa de manera gráfica el salario por hora autoreportado por el gemelo 1 y por el gemelo 2 bivariadamente a partir de un diagrama de dispersión entre las variables. Añada la estimación kernel de la densidad marginal de cada variable.
ggplot(datos, aes(x=as.numeric(HRWAGEL), y=as.numeric(HRWAGEH))) + geom_point(alpha=0.4, col="blue")+
ggtitle("Diagrama de dispersión salario de gemelos")
Estimación de kernel para cada variable
k=kdensity(as.numeric(datos$HRWAGEL))
k1=kdensity(as.numeric(datos$HRWAGEH))
plot(k,main="Estimación kernel salario gemelo 1")
plot(k1,main="Estimación kernel salario gemelo 2")
Pregunta 7. Categorice las variables EDUCL y EDUCH como sigue
Dada esta nueva categorización de las variables ¿cuántos pares de gemelos tienen niveles educativos diferentes? ¿cuántos tienen niveles educativos iguales?.
##
## Posgrado Pregrado Primaria_secundaria
## Posgrado 33 16 0
## Pregrado 10 84 1
## Primaria_secundaria 0 2 1
Pregunta 8.
Para el siguiente punto considere la discretización del punto anterior y seleccione aquellos gemelos con el mismo nivel de estudio. Considerando únicamente las parejas de gemelos con educación superior (pregrado y posgrado), realice un diagrama de dispersión para el salario por hora autoreportado por el gemelo 1 y por el gemelo 2. Diferencie el color de los puntos por el nivel de escolaridad alcanzado. ¿Observa diferencias entre las distribuciones bivariadas de los dos grupos? ¿Qué puede concluir acerca de la relación entre el nivel educativo y los ingresos?.
muestra<-subset(datos,EDUCL!="Primaria_secundaria" & EDUCH!="Primaria_secundaria")
muestra1<-subset(muestra, EDUCL== "Pregrado" & EDUCH=="Pregrado")
p<-ggplot(data = muestra1,aes(y =as.numeric(HRWAGEL) , x = as.numeric(HRWAGEH)))+
geom_point(color="green")+
theme(legend.position = "none")+
xlab('Salario gemelo 2')+
ylab('Salario gemelo 1')+
ggtitle('Salario de los gemelos nivel pregrado')
muestra2<-subset(muestra, EDUCL== "Posgrado" & EDUCH=="Posgrado")
p1<-ggplot(data = muestra2,aes(y =as.numeric(HRWAGEL) , x = as.numeric(HRWAGEH),color="green"))+
geom_point()+
theme(legend.position = "none")+
xlab('Salario gemelo 2')+ylab('Salario gemelo 1')+
ggtitle('Salario de los gemelos nivel posgrado')
p/p1