Antes de iniciar, nos aseguramos de haber instalado las librer?as necesarias.
library(tidyverse)
library(summarytools)
En caso de no tenerlas, instalamos las librer?as copiando y pegando el siguiente c?digo en la consola.
# install.packages("tidyverse")
# install.packages("summarytools")
Luego podemos comenzar con el an?lisis de datos. Para ello, crear un nuevo script con el nombre de analisisBivar y copiar y ejecutar cada uno de los c?digos R detallados m?s adelante.
Leemos los datos desde SPSS con la librer?a haven y utilizando el enlace hacia los datos:
library(haven)
enlace<-"http://portal.susalud.gob.pe/wp-content/uploads/archivo/base-de-datos/2015/CUESTIONARIO%2002%20-%20CAPITULOS.sav"
datossalud = read_sav(enlace)
Exploramos variables que interesan en el an?lisis. La funci?n attr muestra detalles de las variables.
Observaremos la variable C2P1: profesi?n
head(datossalud$C2P1)
## <labelled<double>[6]>: ¿CUÁL ES SU PROFESIÓN?
## [1] 2 2 2 2 2 1
##
## Labels:
## value label
## 1 Médico
## 2 Enfermero/a
Variable C2P4: sexo.
head(datossalud$C2P4)
## <labelled<double>[6]>: SEXO
## [1] 2 2 2 2 2 1
##
## Labels:
## value label
## 1 Hombre
## 2 Mujer
Variable C2P2EDAD: Tipo de contrato.
head(datossalud$C2P2EDAD)
## [1] 40 42 27 31 38 67
Seleccionamos los datos de los m?dicos y adem?s solo las variables de inter?s con el siguiente c?digo:
datostemp <- datossalud[,c("C2P1","C2P4","C2P2EDAD")]
names(datostemp) = c("profesion","sexo","edad")
datos <- datostemp[datostemp$profesion==1,]
Y finalmente observamos los datos:
head(datos)
profesion | sexo | edad |
---|---|---|
1 | 1 | 67 |
1 | 1 | 54 |
1 | 2 | 35 |
1 | 1 | 43 |
1 | 1 | 38 |
1 | 1 | 46 |
Ahora, realizamos el an?lisis de las variables de inter?s: Sexo y Edad
Para la variable sexo realizamos una tabla de frecuencias y observamos los resultados.
tabla_sexo = table(datos$sexo)
tabla_sexo
##
## 1 2
## 1657 562
La variable cuantitativa edad se analiza utilizando medidas de posici?n central, dispersi?n y adem?s con un histograma.
summary(datos$edad)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 24.00 37.00 46.00 46.45 56.00 88.00
sd(datos$edad)
## [1] 11.38578
# Coeficiente de variaci?n.
cv = sd(datos$edad)/mean(datos$edad)
cv
## [1] 0.2451299
library(summarytools)
histo<- hist(datos$edad,
main="Histograma de las edades",
color='yellow')
cortes <- histo$breaks # Cortes para la variable a partir del histograma
var_cat <- cut(datos$edad,cortes) # categorizada
freq(var_cat) # Tabla de frecuencias
## Frequencies
## var_cat
## Type: Factor
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## ------------- ------ --------- -------------- --------- --------------
## (20,25] 2 0.090 0.090 0.090 0.090
## (25,30] 173 7.796 7.886 7.796 7.886
## (30,35] 309 13.925 21.812 13.925 21.812
## (35,40] 300 13.520 35.331 13.520 35.331
## (40,45] 291 13.114 48.445 13.114 48.445
## (45,50] 291 13.114 61.559 13.114 61.559
## (50,55] 260 11.717 73.276 11.717 73.276
## (55,60] 301 13.565 86.841 13.565 86.841
## (60,65] 213 9.599 96.440 9.599 96.440
## (65,70] 66 2.974 99.414 2.974 99.414
## (70,75] 7 0.315 99.730 0.315 99.730
## (75,80] 2 0.090 99.820 0.090 99.820
## (80,85] 3 0.135 99.955 0.135 99.955
## (85,90] 1 0.045 100.000 0.045 100.000
## <NA> 0 0.000 100.000
## Total 2219 100.000 100.000 100.000 100.000
Comenzamos observando las diferencias entre los dos grupos: hombres y mujeres Podemos utilizar histogramas o boxplots para observar las diferencias.
Con histogramas:
config_grafico <- par(mfrow=c(1,2))
hist(datos$edad[datos$sexo==1],
prob=T,xlab="Edad (años)",ylab="Densidad",
main="Hombres",xlim=c(20,90),ylim=c(0,0.04))
hist(datos$edad[datos$sexo==2],
prob=T,xlab="Edad (años)",ylab="Densidad",
main="Mujeres",xlim=c(20,90))
par(config_grafico)
O utilizando boxplots:
boxplot(edad~sexo,
datos,
xlab="Sexo",
ylab="Edad (años)",
xaxt="n")
axis(1, at=1:2,
labels=c("Hombre","Mujer"))
Aquí podemos colocar la interpretación de la gráfica
Para una comparaci?n cuantitativa, veremos los siguientes resultados con las medidas de resumen:
by(datos$edad,datos$sexo,summary)
## datos$sexo: 1
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 24.00 38.00 48.00 47.77 57.00 88.00
## ------------------------------------------------------------
## datos$sexo: 2
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 25.00 34.00 40.00 42.56 51.00 68.00
by(datos$edad,datos$sexo,mean)
## datos$sexo: 1
## [1] 47.76524
## ------------------------------------------------------------
## datos$sexo: 2
## [1] 42.56406
by(datos$edad,datos$sexo,sd)
## datos$sexo: 1
## [1] 11.2988
## ------------------------------------------------------------
## datos$sexo: 2
## [1] 10.74499
?Qu? conclusiones obtiene a partir de este an?lisis?
Evaluamos ahora si existe o no asociaci?n entre el sexo y la edad mediante una prueba de hip?tesis.
Realizamos esta prueba utilizando la prueba t.test.
Las hip?tesis que estamos utilizando para esta prueba son las siguientes:
t.test(edad~sexo,datos)
##
## Welch Two Sample t-test
##
## data: edad by sexo
## t = 9.7861, df = 1012.4, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 4.158236 6.244127
## sample estimates:
## mean in group 1 mean in group 2
## 47.76524 42.56406
Observamos el p-valor y concluimos:
Crear un nuevo script, copiar el c?digo y cambiar la profesi?n para realizar un an?lisis de la asociaci?n entre el sexo y las edades de los enfermeros(as).
Crear un reporte con sus resultados y conclusiones. Sus conclusiones deben responder las siguientes preguntas:
\[Y \sim \mathcal{N}(\mu=40,\,\sigma^{2}=15^2 ) \]
Prueba de introducción de códio LateX: \(H_0:\) En una sola línea.
Ahora en dos: \[ H_0: \]
\[ Me_M < Me_H \]