Modelo de Regresión Múltiple sobre Frecuencia de Publicaciones

0.1 1. Introducción
0.2 2. Carga y limpieza de datos
0.3 3. Análisis exploratorio
0.4 4. Estadísticas descriptivas
0.5 5. Modelo de regresión lineal múltiple
0.6 6. Evaluación de supuestos
0.7 7. Conclusiones

0.1 1. Introducción

Este informe presenta un análisis de regresión lineal múltiple con el fin de entender cómo ciertos factores relacionados con la personalidad y las conductas sociales pueden predecir la frecuencia de publicaciones en redes sociales. Se han considerado variables como el tiempo que una persona pasa sola, su asistencia a eventos sociales, la frecuencia con la que sale de casa y el tamaño de su círculo de amistades. La motivación de este estudio radica en la hipótesis de que las personas más activas socialmente podrían mostrar un mayor nivel de actividad en redes.

0.2 2. Carga y limpieza de datos

# Cargar datos
df <- read.csv("personality_dataset.csv")

# Eliminar filas incompletas
df <- df %>% drop_na()

# Convertir variables categóricas a numéricas
df$Stage_fear <- ifelse(df$Stage_fear == "Yes", 1, 0)
df$Drained_after_socializing <- ifelse(df$Drained_after_socializing == "Yes", 1, 0)

# Resumen de los datos
summary(df)

##  Time_spent_Alone   Stage_fear     Social_event_attendance Going_outside  
##  Min.   : 0.000   Min.   :0.0000   Min.   : 0.00           Min.   :0.000  
##  1st Qu.: 2.000   1st Qu.:0.0000   1st Qu.: 2.00           1st Qu.:1.000  
##  Median : 4.000   Median :0.0000   Median : 3.00           Median :3.000  
##  Mean   : 4.519   Mean   :0.4894   Mean   : 3.94           Mean   :3.013  
##  3rd Qu.: 8.000   3rd Qu.:1.0000   3rd Qu.: 6.00           3rd Qu.:5.000  
##  Max.   :11.000   Max.   :1.0000   Max.   :10.00           Max.   :7.000  
##  Drained_after_socializing Friends_circle_size Post_frequency  
##  Min.   :0.0000            Min.   : 0.000      Min.   : 0.000  
##  1st Qu.:0.0000            1st Qu.: 3.000      1st Qu.: 1.000  
##  Median :0.0000            Median : 5.000      Median : 3.000  
##  Mean   :0.4874            Mean   : 6.251      Mean   : 3.557  
##  3rd Qu.:1.0000            3rd Qu.:10.000      3rd Qu.: 6.000  
##  Max.   :1.0000            Max.   :15.000      Max.   :10.000  
##  Personality       
##  Length:2585       
##  Class :character  
##  Mode  :character  
##                    
##                    
##

0.3 3. Análisis exploratorio

pairs(~ Post_frequency + Time_spent_Alone + Social_event_attendance + Going_outside + Friends_circle_size, 
      data = df, main = "Relación entre variables")

Interpretación:
Se observa una tendencia positiva entre la frecuencia de publicaciones y variables como la asistencia a eventos sociales, el salir de casa y el tamaño del círculo de amistades. Por otro lado, el tiempo pasado en soledad muestra una relación inversa con la actividad en redes.

0.4 4. Estadísticas descriptivas

media_tiempo_solas <- mean(df$Time_spent_Alone)
get_mode <- function(v) {
  uniqv <- unique(v)
  uniqv[which.max(tabulate(match(v, uniqv)))]
}
moda_tiempo_solas <- get_mode(df$Time_spent_Alone)

media_tiempo_solas

## [1] 4.518762

moda_tiempo_solas

## [1] 0

Estas estadísticas muestran que el tiempo promedio que los encuestados pasan solos es de aproximadamente 4.5 horas, siendo la moda 0 (es decir, muchos encuestados no pasan tiempo solos).

0.5 5. Modelo de regresión lineal múltiple

modelo <- lm(Post_frequency ~ Time_spent_Alone + Social_event_attendance + Going_outside + Friends_circle_size, data = df)
summary(modelo)

## 
## Call:
## lm(formula = Post_frequency ~ Time_spent_Alone + Social_event_attendance + 
##     Going_outside + Friends_circle_size, data = df)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.7632 -1.1227 -0.0642  1.0094  5.0817 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)              1.46424    0.14939   9.802  < 2e-16 ***
## Time_spent_Alone        -0.17077    0.01567 -10.901  < 2e-16 ***
## Social_event_attendance  0.24973    0.01921  12.997  < 2e-16 ***
## Going_outside            0.42313    0.02531  16.717  < 2e-16 ***
## Friends_circle_size      0.09694    0.01253   7.736 1.46e-14 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.637 on 2580 degrees of freedom
## Multiple R-squared:  0.6876, Adjusted R-squared:  0.6872 
## F-statistic:  1420 on 4 and 2580 DF,  p-value: < 2.2e-16

Interpretación del modelo:
la fórmula general del Modelo de Regresión Lineal Múltiple es la siguiente: Y = β₀ + β₁·X₁ + β₂·X₂ + β₃·X₃ + … + βₚ·Xₚ + ε - Todas las variables predictoras son estadísticamente significativas. - A mayor tiempo en soledad, menor es la frecuencia de publicaciones. - La participación en eventos sociales, salir con frecuencia y tener un grupo amplio de amistades predicen mayor actividad en redes sociales. - El R² ajustado es una medida de qué tan bien el modelo logra predecir o explicar la variable dependiente (Post_frequency). -Un valor de 0.687 significa que el modelo explica el 68.7% de lo que hace que una persona publique más o menos. -Es decir, el modelo es bastante sólido (aunque no perfecto) para entender qué factores influyen en esa conducta. -En los resultados del modelo, los valores de p (probabilidad de que esa relación sea solo por azar) fueron muy bajos (< 0.05), lo que indica que es muy poco probable que estas asociaciones ocurran por casualidad.

0.6 6. Evaluación de supuestos

par(mfrow = c(2, 2))
plot(modelo)

Diagnóstico visual: - El gráfico Q-Q sugiere una distribución casi normal de los residuos. - El gráfico de escala vs localización revela ligera heterocedasticidad. - No hay puntos claramente influyentes.

# Normalidad
ad.test(modelo$residuals)

## 
##  Anderson-Darling normality test
## 
## data:  modelo$residuals
## A = 2.1936, p-value = 1.447e-05

# Heterocedasticidad
bptest(modelo)

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 457.95, df = 4, p-value < 2.2e-16

0.7 7. Conclusiones

Los resultados respaldan la hipótesis de que la sociabilidad está positivamente relacionada con la frecuencia de publicaciones en redes sociales. Las personas que participan más en eventos sociales, salen con mayor frecuencia y tienen un círculo de amistades más amplio tienden a ser más activas digitalmente.

Este modelo no solo ayuda a comprender los patrones de conducta en plataformas digitales, sino que también sugiere que la personalidad y las costumbres sociales pueden ser indicadores útiles para analizar la interacción en entornos virtuales.

Sin embargo, es importante considerar que este análisis es correlacional. No se puede afirmar causalidad. Además, se recomienda profundizar en estudios futuros incorporando variables psicológicas más detalladas y análisis longitudinales para observar cambios en el tiempo.