Antes de iniciar, nos aseguramos de haber instalado las librer?as necesarias.

library(tidyverse)
library(summarytools)

En caso de no tenerlas, instalamos las librer?as copiando y pegando el siguiente c?digo en la consola.

# install.packages("tidyverse")
# install.packages("summarytools")

Luego podemos comenzar con el an?lisis de datos. Para ello, crear un nuevo script con el nombre de analisisBivar y copiar y ejecutar cada uno de los c?digos R detallados m?s adelante.

1 Lectura de datos.

Leemos los datos desde SPSS con la librer?a haven y utilizando el enlace hacia los datos:

library(haven)
enlace<-"http://portal.susalud.gob.pe/wp-content/uploads/archivo/base-de-datos/2015/CUESTIONARIO%2002%20-%20CAPITULOS.sav"
datossalud = read_sav(enlace)

2 Exploración básica.

Exploramos variables que interesan en el an?lisis. La funci?n attr muestra detalles de las variables.

Observaremos la variable C2P1: profesi?n

head(datossalud$C2P1)
## <labelled<double>[6]>: ¿CUÁL ES SU PROFESIÓN?
## [1] 2 2 2 2 2 1
## 
## Labels:
##  value       label
##      1      Médico
##      2 Enfermero/a

Variable C2P4: sexo.

head(datossalud$C2P4)
## <labelled<double>[6]>: SEXO
## [1] 2 2 2 2 2 1
## 
## Labels:
##  value  label
##      1 Hombre
##      2  Mujer

Variable C2P2EDAD: Tipo de contrato.

head(datossalud$C2P2EDAD)
## [1] 40 42 27 31 38 67

Seleccionamos los datos de los m?dicos y adem?s solo las variables de inter?s con el siguiente c?digo:

datostemp <- datossalud[,c("C2P1","C2P4","C2P2EDAD")]
names(datostemp) = c("profesion","sexo","edad")
datos <- datostemp[datostemp$profesion==1,]

Y finalmente observamos los datos:

head(datos)
profesion sexo edad
1 1 67
1 1 54
1 2 35
1 1 43
1 1 38
1 1 46

3 Exploración univariada.

Ahora, realizamos el an?lisis de las variables de inter?s: Sexo y Edad

Para la variable sexo realizamos una tabla de frecuencias y observamos los resultados.

tabla_sexo  = table(datos$sexo)
tabla_sexo
## 
##    1    2 
## 1657  562

La variable cuantitativa edad se analiza utilizando medidas de posici?n central, dispersi?n y adem?s con un histograma.

summary(datos$edad)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   24.00   37.00   46.00   46.45   56.00   88.00
sd(datos$edad)
## [1] 11.38578
# Coeficiente de variaci?n.
cv = sd(datos$edad)/mean(datos$edad)
cv
## [1] 0.2451299
library(summarytools)
histo<- hist(datos$edad, 
            main="Histograma de las edades", 
            color='yellow')

cortes <- histo$breaks # Cortes para la variable a partir del histograma
var_cat <- cut(datos$edad,cortes) # categorizada
freq(var_cat) # Tabla de frecuencias
## Frequencies  
## var_cat  
## Type: Factor  
## 
##                 Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ------------- ------ --------- -------------- --------- --------------
##       (20,25]      2     0.090          0.090     0.090          0.090
##       (25,30]    173     7.796          7.886     7.796          7.886
##       (30,35]    309    13.925         21.812    13.925         21.812
##       (35,40]    300    13.520         35.331    13.520         35.331
##       (40,45]    291    13.114         48.445    13.114         48.445
##       (45,50]    291    13.114         61.559    13.114         61.559
##       (50,55]    260    11.717         73.276    11.717         73.276
##       (55,60]    301    13.565         86.841    13.565         86.841
##       (60,65]    213     9.599         96.440     9.599         96.440
##       (65,70]     66     2.974         99.414     2.974         99.414
##       (70,75]      7     0.315         99.730     0.315         99.730
##       (75,80]      2     0.090         99.820     0.090         99.820
##       (80,85]      3     0.135         99.955     0.135         99.955
##       (85,90]      1     0.045        100.000     0.045        100.000
##          <NA>      0                              0.000        100.000
##         Total   2219   100.000        100.000   100.000        100.000

4 Análisis bivariado.

4.1 Exploración

Comenzamos observando las diferencias entre los dos grupos: hombres y mujeres Podemos utilizar histogramas o boxplots para observar las diferencias.

Con histogramas:

config_grafico <- par(mfrow=c(1,2))
hist(datos$edad[datos$sexo==1],
     prob=T,xlab="Edad (años)",ylab="Densidad",
     main="Hombres",xlim=c(20,90),ylim=c(0,0.04))
hist(datos$edad[datos$sexo==2],
     prob=T,xlab="Edad (años)",ylab="Densidad",
     main="Mujeres",xlim=c(20,90))

par(config_grafico)

O utilizando boxplots:

boxplot(edad~sexo,
        datos,
        xlab="Sexo",
        ylab="Edad (años)", 
        xaxt="n")
axis(1, at=1:2,
     labels=c("Hombre","Mujer"))

Aquí podemos colocar la interpretación de la gráfica

  • ?Qui?n tiene mayor edad?
  • ?Qui?n tiene mayor dispersi?n en sus datos?

Para una comparaci?n cuantitativa, veremos los siguientes resultados con las medidas de resumen:

by(datos$edad,datos$sexo,summary)
## datos$sexo: 1
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   24.00   38.00   48.00   47.77   57.00   88.00 
## ------------------------------------------------------------ 
## datos$sexo: 2
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   25.00   34.00   40.00   42.56   51.00   68.00
by(datos$edad,datos$sexo,mean)
## datos$sexo: 1
## [1] 47.76524
## ------------------------------------------------------------ 
## datos$sexo: 2
## [1] 42.56406
by(datos$edad,datos$sexo,sd)
## datos$sexo: 1
## [1] 11.2988
## ------------------------------------------------------------ 
## datos$sexo: 2
## [1] 10.74499

?Qu? conclusiones obtiene a partir de este an?lisis?

4.2 Prueba de hipótesis.

Evaluamos ahora si existe o no asociaci?n entre el sexo y la edad mediante una prueba de hip?tesis.

Realizamos esta prueba utilizando la prueba t.test.

Las hip?tesis que estamos utilizando para esta prueba son las siguientes:

  • \(H_0:\) La edad promedio es la misma entre hombre y mujeres.
  • \(H_1:\) La edad promedio es diferente entre hombre y mujeres.
t.test(edad~sexo,datos)
## 
##  Welch Two Sample t-test
## 
## data:  edad by sexo
## t = 9.7861, df = 1012.4, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  4.158236 6.244127
## sample estimates:
## mean in group 1 mean in group 2 
##        47.76524        42.56406

Observamos el p-valor y concluimos:

  • A un 5% de significaci?n, concluimos que existe evidencia de una diferencia estadisticamente significativa entre las edades de hombre y muejres m?dicos.

5 Ejercicio

  1. Crear un nuevo script, copiar el c?digo y cambiar la profesi?n para realizar un an?lisis de la asociaci?n entre el sexo y las edades de los enfermeros(as).

  2. Crear un reporte con sus resultados y conclusiones. Sus conclusiones deben responder las siguientes preguntas:

  • ?Son diferentes las edades entre hombre y mujeres para el grupo de enfermeros? (Observar y comparar boxplots)
  • ?Qu? grupo tiene mayor edad? (Comparar medidas de posici?n central)
  • ?Qu? grupo tiene mayor dispersi?n de edades? (Comparar medidas de dispersi?n)
  • ?Existe evidencia entre una relaci?n entre el sexo y la edad en el grupo de enfermeros? (Realizar prueba de hip?tesis y concluir)

\[Y \sim \mathcal{N}(\mu=40,\,\sigma^{2}=15^2 ) \]

Prueba de introducción de códio LateX: \(H_0:\) En una sola línea.

Ahora en dos: \[ H_0: \]

\[ Me_M < Me_H \]