En la encuesta se pregunta a los entrevistados que identifiquen si, para algunos problemas, consideran que se está gastanto mucho, lo necesario o poco en ellos, queremos analizar si esta respuesta puede explicarse con algunas otras sobre demográficos, religión e inclinación política.
Usando las variables NATMASS, AGE, SEX, SEI, REGION y POLVIEWS realice el siguiente análisis.
library(rsconnect)
library(haven)
library(dplyr)
library(ggplot2)
datos <- read_sav("C:/Users/Rafae/Desktop/CIENCIA_DE_DATOS/GSS2006.sav")
# Filtramos las variables para trabajar
###### 1
data <- datos %>%
select(NATMASS, AGE, SEX, SEI, REGION, POLVIEWS)
data <- as.data.frame(data)
data <- na.omit(data)
data$NATMASS <- as.factor(data$NATMASS)
data$NATMASS <- factor(data$NATMASS, labels = c("Too little","About right","Too much"))
data$NATMASS <- relevel(data$NATMASS, ref = "About right")
str(data$NATMASS)
## Factor w/ 3 levels "About right",..: 2 1 1 3 2 1 1 1 2 1 ...
data$POLVIEWS <- as.factor(data$POLVIEWS)
data$POLVIEWS <- factor(data$POLVIEWS, labels =c("Extremely Liberal","Liberal","Slightly Liberal","Moderate","Slightly Conservative","Conservative","Extremely Conservative"))
str(data$POLVIEWS)
## Factor w/ 7 levels "Extremely Liberal",..: 1 3 6 3 4 6 3 4 4 4 ...
ggplot(data, aes(x = POLVIEWS, fill = NATMASS)) + geom_bar(position = "fill")
Convertimos ambas variables a una binaria y después a factor, ya que eran las únicas variables de tipo numerico, aunque también consideré quitarlas
La transformación la hice tomando en cuenta la media de ambas variables y transforme a 0 si es menor a la media y 1 si es mayor
data$AGE[data$AGE<mean(data$AGE)] <- 0
data$AGE[data$AGE>mean(data$AGE)] <- 1
data$AGE <- as.factor(data$AGE)
data$SEI[data$SEI<mean(data$SEI)] <- 0
data$SEI[data$SEI>mean(data$SEI)] <- 1
data$SEI <- as.factor(data$SEI)