Este informe presenta un análisis de regresión lineal múltiple con el fin de entender cómo ciertos factores relacionados con la personalidad y las conductas sociales pueden predecir la frecuencia de publicaciones en redes sociales. Se han considerado variables como el tiempo que una persona pasa sola, su asistencia a eventos sociales, la frecuencia con la que sale de casa y el tamaño de su círculo de amistades. La motivación de este estudio radica en la hipótesis de que las personas más activas socialmente podrían mostrar un mayor nivel de actividad en redes.
# Cargar datos
df <- read.csv("personality_dataset.csv")
# Eliminar filas incompletas
df <- df %>% drop_na()
# Convertir variables categóricas a numéricas
df$Stage_fear <- ifelse(df$Stage_fear == "Yes", 1, 0)
df$Drained_after_socializing <- ifelse(df$Drained_after_socializing == "Yes", 1, 0)
# Resumen de los datos
summary(df)
## Time_spent_Alone Stage_fear Social_event_attendance Going_outside
## Min. : 0.000 Min. :0.0000 Min. : 0.00 Min. :0.000
## 1st Qu.: 2.000 1st Qu.:0.0000 1st Qu.: 2.00 1st Qu.:1.000
## Median : 4.000 Median :0.0000 Median : 3.00 Median :3.000
## Mean : 4.519 Mean :0.4894 Mean : 3.94 Mean :3.013
## 3rd Qu.: 8.000 3rd Qu.:1.0000 3rd Qu.: 6.00 3rd Qu.:5.000
## Max. :11.000 Max. :1.0000 Max. :10.00 Max. :7.000
## Drained_after_socializing Friends_circle_size Post_frequency
## Min. :0.0000 Min. : 0.000 Min. : 0.000
## 1st Qu.:0.0000 1st Qu.: 3.000 1st Qu.: 1.000
## Median :0.0000 Median : 5.000 Median : 3.000
## Mean :0.4874 Mean : 6.251 Mean : 3.557
## 3rd Qu.:1.0000 3rd Qu.:10.000 3rd Qu.: 6.000
## Max. :1.0000 Max. :15.000 Max. :10.000
## Personality
## Length:2585
## Class :character
## Mode :character
##
##
##
pairs(~ Post_frequency + Time_spent_Alone + Social_event_attendance + Going_outside + Friends_circle_size,
data = df, main = "Relación entre variables")
Interpretación:
Se observa una tendencia positiva entre la frecuencia de publicaciones y
variables como la asistencia a eventos sociales, el salir de casa y el
tamaño del círculo de amistades. Por otro lado, el tiempo pasado en
soledad muestra una relación inversa con la actividad en redes.
media_tiempo_solas <- mean(df$Time_spent_Alone)
get_mode <- function(v) {
uniqv <- unique(v)
uniqv[which.max(tabulate(match(v, uniqv)))]
}
moda_tiempo_solas <- get_mode(df$Time_spent_Alone)
media_tiempo_solas
## [1] 4.518762
moda_tiempo_solas
## [1] 0
Estas estadísticas muestran que el tiempo promedio que los encuestados pasan solos es de aproximadamente 4.5 horas, siendo la moda 0 (es decir, muchos encuestados no pasan tiempo solos).
modelo <- lm(Post_frequency ~ Time_spent_Alone + Social_event_attendance + Going_outside + Friends_circle_size, data = df)
summary(modelo)
##
## Call:
## lm(formula = Post_frequency ~ Time_spent_Alone + Social_event_attendance +
## Going_outside + Friends_circle_size, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.7632 -1.1227 -0.0642 1.0094 5.0817
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.46424 0.14939 9.802 < 2e-16 ***
## Time_spent_Alone -0.17077 0.01567 -10.901 < 2e-16 ***
## Social_event_attendance 0.24973 0.01921 12.997 < 2e-16 ***
## Going_outside 0.42313 0.02531 16.717 < 2e-16 ***
## Friends_circle_size 0.09694 0.01253 7.736 1.46e-14 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.637 on 2580 degrees of freedom
## Multiple R-squared: 0.6876, Adjusted R-squared: 0.6872
## F-statistic: 1420 on 4 and 2580 DF, p-value: < 2.2e-16
Interpretación del modelo:
la fórmula general del Modelo de Regresión Lineal Múltiple es la
siguiente: Y = β₀ + β₁·X₁ + β₂·X₂ + β₃·X₃ + … + βₚ·Xₚ + ε - Todas las
variables predictoras son estadísticamente significativas. - A mayor
tiempo en soledad, menor es la frecuencia de publicaciones. - La
participación en eventos sociales, salir con frecuencia y tener un grupo
amplio de amistades predicen mayor actividad en redes sociales. - El R²
ajustado es una medida de qué tan bien el modelo logra predecir o
explicar la variable dependiente (Post_frequency). -Un valor de 0.687
significa que el modelo explica el 68.7% de lo que hace que una persona
publique más o menos. -Es decir, el modelo es bastante sólido (aunque no
perfecto) para entender qué factores influyen en esa conducta. -En los
resultados del modelo, los valores de p (probabilidad de que esa
relación sea solo por azar) fueron muy bajos (< 0.05), lo que indica
que es muy poco probable que estas asociaciones ocurran por
casualidad.
par(mfrow = c(2, 2))
plot(modelo)
Diagnóstico visual: - El gráfico Q-Q sugiere una distribución casi normal de los residuos. - El gráfico de escala vs localización revela ligera heterocedasticidad. - No hay puntos claramente influyentes.
# Normalidad
ad.test(modelo$residuals)
##
## Anderson-Darling normality test
##
## data: modelo$residuals
## A = 2.1936, p-value = 1.447e-05
# Heterocedasticidad
bptest(modelo)
##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 457.95, df = 4, p-value < 2.2e-16
Los resultados respaldan la hipótesis de que la sociabilidad está positivamente relacionada con la frecuencia de publicaciones en redes sociales. Las personas que participan más en eventos sociales, salen con mayor frecuencia y tienen un círculo de amistades más amplio tienden a ser más activas digitalmente.
Este modelo no solo ayuda a comprender los patrones de conducta en plataformas digitales, sino que también sugiere que la personalidad y las costumbres sociales pueden ser indicadores útiles para analizar la interacción en entornos virtuales.
Sin embargo, es importante considerar que este análisis es correlacional. No se puede afirmar causalidad. Además, se recomienda profundizar en estudios futuros incorporando variables psicológicas más detalladas y análisis longitudinales para observar cambios en el tiempo.