Antes de iniciar, nos aseguramos de haber instalado las librer?as necesarias.

library(tidyverse)
library(summarytools)

En caso de no tenerlas, instalamos las librer?as copiando y pegando el siguiente c?digo en la consola.

# install.packages("tidyverse")
# install.packages("summarytools")

Luego podemos comenzar con el an?lisis de datos. Para ello, crear un nuevo script con el nombre de analisisBivar y copiar y ejecutar cada uno de los c?digos R detallados m?s adelante.

1 Lectura de datos.

Leemos los datos desde SPSS con la librer?a haven y utilizando el enlace hacia los datos:

library(haven)
enlace<-"http://portal.susalud.gob.pe/wp-content/uploads/archivo/base-de-datos/2015/CUESTIONARIO%2002%20-%20CAPITULOS.sav"
datossalud = read_sav(enlace)

2 Exploración básica.

Exploramos variables que interesan en el an?lisis. La funci?n attr muestra detalles de las variables.

Observaremos la variable C2P1: profesi?n

head(datossalud$C2P1)

## <labelled<double>[6]>: ¿CUÁL ES SU PROFESIÓN?
## [1] 2 2 2 2 2 1
## 
## Labels:
##  value       label
##      1      Médico
##      2 Enfermero/a

Variable C2P4: sexo.

head(datossalud$C2P4)

## <labelled<double>[6]>: SEXO
## [1] 2 2 2 2 2 1
## 
## Labels:
##  value  label
##      1 Hombre
##      2  Mujer

Variable C2P2EDAD: Tipo de contrato.

head(datossalud$C2P2EDAD)

## [1] 40 42 27 31 38 67

Seleccionamos los datos de los m?dicos y adem?s solo las variables de inter?s con el siguiente c?digo:

datostemp <- datossalud[,c("C2P1","C2P4","C2P2EDAD")]
names(datostemp) = c("profesion","sexo","edad")
datos <- datostemp[datostemp$profesion==1,]

Y finalmente observamos los datos:

head(datos)

profesion	sexo	edad
1	1	67
1	1	54
1	2	35
1	1	43
1	1	38
1	1	46

3 Exploración univariada.

Ahora, realizamos el an?lisis de las variables de inter?s: Sexo y Edad

Para la variable sexo realizamos una tabla de frecuencias y observamos los resultados.

tabla_sexo  = table(datos$sexo)
tabla_sexo

## 
##    1    2 
## 1657  562

La variable cuantitativa edad se analiza utilizando medidas de posici?n central, dispersi?n y adem?s con un histograma.

summary(datos$edad)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   24.00   37.00   46.00   46.45   56.00   88.00

sd(datos$edad)

## [1] 11.38578

# Coeficiente de variaci?n.
cv = sd(datos$edad)/mean(datos$edad)
cv

## [1] 0.2451299

library(summarytools)
histo<- hist(datos$edad, 
            main="Histograma de las edades", 
            color='yellow')

cortes <- histo$breaks # Cortes para la variable a partir del histograma
var_cat <- cut(datos$edad,cortes) # categorizada
freq(var_cat) # Tabla de frecuencias

## Frequencies  
## var_cat  
## Type: Factor  
## 
##                 Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ------------- ------ --------- -------------- --------- --------------
##       (20,25]      2     0.090          0.090     0.090          0.090
##       (25,30]    173     7.796          7.886     7.796          7.886
##       (30,35]    309    13.925         21.812    13.925         21.812
##       (35,40]    300    13.520         35.331    13.520         35.331
##       (40,45]    291    13.114         48.445    13.114         48.445
##       (45,50]    291    13.114         61.559    13.114         61.559
##       (50,55]    260    11.717         73.276    11.717         73.276
##       (55,60]    301    13.565         86.841    13.565         86.841
##       (60,65]    213     9.599         96.440     9.599         96.440
##       (65,70]     66     2.974         99.414     2.974         99.414
##       (70,75]      7     0.315         99.730     0.315         99.730
##       (75,80]      2     0.090         99.820     0.090         99.820
##       (80,85]      3     0.135         99.955     0.135         99.955
##       (85,90]      1     0.045        100.000     0.045        100.000
##          <NA>      0                              0.000        100.000
##         Total   2219   100.000        100.000   100.000        100.000

4 Análisis bivariado.

4.1 Exploración

Comenzamos observando las diferencias entre los dos grupos: hombres y mujeres Podemos utilizar histogramas o boxplots para observar las diferencias.

Con histogramas:

config_grafico <- par(mfrow=c(1,2))
hist(datos$edad[datos$sexo==1],
     prob=T,xlab="Edad (años)",ylab="Densidad",
     main="Hombres",xlim=c(20,90),ylim=c(0,0.04))
hist(datos$edad[datos$sexo==2],
     prob=T,xlab="Edad (años)",ylab="Densidad",
     main="Mujeres",xlim=c(20,90))

par(config_grafico)

O utilizando boxplots:

boxplot(edad~sexo,
        datos,
        xlab="Sexo",
        ylab="Edad (años)", 
        xaxt="n")
axis(1, at=1:2,
     labels=c("Hombre","Mujer"))

Aquí podemos colocar la interpretación de la gráfica

?Qui?n tiene mayor edad?
?Qui?n tiene mayor dispersi?n en sus datos?

Para una comparaci?n cuantitativa, veremos los siguientes resultados con las medidas de resumen:

by(datos$edad,datos$sexo,summary)

## datos$sexo: 1
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   24.00   38.00   48.00   47.77   57.00   88.00 
## ------------------------------------------------------------ 
## datos$sexo: 2
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   25.00   34.00   40.00   42.56   51.00   68.00

by(datos$edad,datos$sexo,mean)

## datos$sexo: 1
## [1] 47.76524
## ------------------------------------------------------------ 
## datos$sexo: 2
## [1] 42.56406

by(datos$edad,datos$sexo,sd)

## datos$sexo: 1
## [1] 11.2988
## ------------------------------------------------------------ 
## datos$sexo: 2
## [1] 10.74499

?Qu? conclusiones obtiene a partir de este an?lisis?

4.2 Prueba de hipótesis.

Evaluamos ahora si existe o no asociaci?n entre el sexo y la edad mediante una prueba de hip?tesis.

Realizamos esta prueba utilizando la prueba t.test.

Las hip?tesis que estamos utilizando para esta prueba son las siguientes:

\(H_0:\) La edad promedio es la misma entre hombre y mujeres.
\(H_1:\) La edad promedio es diferente entre hombre y mujeres.

t.test(edad~sexo,datos)

## 
##  Welch Two Sample t-test
## 
## data:  edad by sexo
## t = 9.7861, df = 1012.4, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  4.158236 6.244127
## sample estimates:
## mean in group 1 mean in group 2 
##        47.76524        42.56406

Observamos el p-valor y concluimos:

A un 5% de significaci?n, concluimos que existe evidencia de una diferencia estadisticamente significativa entre las edades de hombre y muejres m?dicos.

5 Ejercicio

Crear un nuevo script, copiar el c?digo y cambiar la profesi?n para realizar un an?lisis de la asociaci?n entre el sexo y las edades de los enfermeros(as).
Crear un reporte con sus resultados y conclusiones. Sus conclusiones deben responder las siguientes preguntas:

?Son diferentes las edades entre hombre y mujeres para el grupo de enfermeros? (Observar y comparar boxplots)
?Qu? grupo tiene mayor edad? (Comparar medidas de posici?n central)
?Qu? grupo tiene mayor dispersi?n de edades? (Comparar medidas de dispersi?n)
?Existe evidencia entre una relaci?n entre el sexo y la edad en el grupo de enfermeros? (Realizar prueba de hip?tesis y concluir)

\[Y \sim \mathcal{N}(\mu=40,\,\sigma^{2}=15^2 ) \]

Prueba de introducción de códio LateX: \(H_0:\) En una sola línea.

Ahora en dos: \[ H_0: \]

\[ Me_M < Me_H \]

Análisis bivariado: Cualitativa vs. Cuantitativa

Percy Hermosa Altez

10 de mayo de 2021