En el mes de junio, mientras se trataba en la cámara de diputados la ley del aborto, se recogieron y almacenaron tweets durante 10 días (desde el 7 al 17 de junio de 2018), contando con la información de 329.782 tweets. En el mes de agosto se realizó igual relevamiento pero sólo el día 3 de agosto, día del debate en senadores.
Estadisticos de junio
## favorite_count retweet_count favorited retweeted
## Min. : 0.00 Min. : 0 False:1041585 False:1041585
## 1st Qu.: 0.00 1st Qu.: 8
## Median : 0.00 Median : 149
## Mean : 2.13 Mean : 2437
## 3rd Qu.: 0.00 3rd Qu.: 1111
## Max. :51902.00 Max. :43247
## posicion dia
## Length:1041585 Min. :2018-06-07
## Class :character 1st Qu.:2018-06-11
## Mode :character Median :2018-06-13
## Mean :2018-06-12
## 3rd Qu.:2018-06-14
## Max. :2018-06-17
Estadisticos de agosto
## favorite_count retweet_count favorited retweeted
## Min. :0 Min. :0 False:120902 False:120902
## 1st Qu.:0 1st Qu.:0
## Median :0 Median :0
## Mean :0 Mean :0
## 3rd Qu.:0 3rd Qu.:0
## Max. :0 Max. :0
## posicion dia
## Length:120902 Min. :2018-08-03
## Class :character 1st Qu.:2018-08-03
## Mode :character Median :2018-08-03
## Mean :2018-08-03
## 3rd Qu.:2018-08-03
## Max. :2018-08-03
Si se consideran las bases de junio y agosto, existen 351 tweets duplicados según su identificación; ninguno exactamente igual al de su par; sin embargo si se elimina la variable posición, existen 132 tweets exactamente iguales.
Si se analiza la fecha de publicación se observa que el día con más tweets fue el 13 de junio, día en que inició el debate en la cámara de diputados. Como se mencionó anteriormente, para agosto, se recolectaron twitters sólo del día 03, acumulando un total de 120887.
En promedio, se publicaron 96874 por día, con un máximo de 302478, ocurrido el día del debate en diputados. El 03 de agosto (debate en senadores) se alcanzó un total de 120902 twitters únicos. El mínimo de tweets diarios fue de 15304, día 17 de junio de 2018.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 15304 39621 79638 96874 122901 302478
Cantidad de Favoritos - Me gusta
En relación a la cantidad de favoritos, si se compara el mes de junio con el mes de agosto, se observa que en este último ningun tweet obtuvo ‘me gusta’, vale aclarar que sólo se recogieron tweets durante un día (03/08/2018). Para el mes de junio el promedio de me gusta es de 2,13 por tweet, sin embargo la mediana en cero indica que el 50% de los tweets no tienen ningun me gusta.
## # A tibble: 2 x 6
## base cant_tw min mediana media stdv
## <chr> <int> <dbl> <dbl> <dbl> <dbl>
## 1 06_Junio 1041585 0 0 2.13 89.6
## 2 08_Agosto 120902 0 0 0 0
Quantiles cantidad de favoritos que tiene el tweet - Junio
## 10% 25% 50% 75% 90%
## 0 0 0 0 1
Quantiles cantidad de favoritos que tiene el tweet - Agosto
## 10% 25% 50% 75% 90%
## 0 0 0 0 0
Analizando los cuantiles de la distribución, se observa que sólo el 10% de los tweets recibió al menos un megusta, para ser más precisos, solo el 8.9673261% de los tweets tiene por lo menos un me gusta.
En el mes de junio, el 50% de los tweets fueron retweetearon 149 veces o menos y hubo un 25% de tweets que se retweetearon 1111 veces o mas (Q3). Al realizar el conteo de los tweets retweeteados se puede observar que existen 927792 tweets que han sido retweeteados, y solo hay algunos tweets que atípicamente fueron retwiteados más de 4879 veces (Q90). El porcentaje de tweets con al menos 1 retweet 0.7981096
## # A tibble: 2 x 7
## base cant_tw min mediana media max stdv
## <chr> <int> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 06_Junio 1041585 0 149 2437. 43247 7048.
## 2 08_Agosto 120902 0 0 0 0 0
## 10% 25% 50% 75% 90%
## 0 8 149 1111 4879
## 10% 25% 50% 75% 90%
## 0 0 0 0 0
Cantidad de Tw por usuario
## [1] 370486
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 1.000 1.000 3.138 3.000 757.000
Los 1162136 tweets únicos, fueron escritos por 370486 usuarios. Cada uno escribió en promedio 3.1377353, con un mínimo de 1 y un máximo de 757. En general un 50% de los usuarios tweetearon 1 vez en el periodo de estudio y sólo el 25% lo hizo 3 veces o más.
La base de Usuarios, se compone de 370486 usuarios únicos, identificados por id, en los meses de junio y agosto. Es decir que 370486 personas ecribieron tweets realacionados con la temática durante las fechas en que fueron extraídas lass bases.
Si se observa la fecha en que se redactaron los tweets, se pueden definir tres tipos de usuarios, los que twittearon solo en junio, los que twitteaon solo en agosto y los que lo hicieron en las dos fechas. El primer grupo, se encuentra integrado por 296162 personas (79,94%), 40704 personas pertenecen al grupo dos (10,98%) y los que twitteron n ambas fechas (9,07%).
## # A tibble: 3 x 3
## tipo Cant Pct
## <chr> <int> <dbl>
## 1 1 296162 79.9
## 2 2 40704 11.0
## 3 3 33620 9.07
Si se analizan los tweets por usuarios, se observa que en prmedio cada uno escribió 3.1377353 tweets, con un mínimo de 1y un máximo de 757. A continuación se presenta un resumen de las principales variables:
## followers_count statuses_count friends_count
## Min. : 0 Min. : 1 Min. : 0.0
## 1st Qu.: 114 1st Qu.: 1590 1st Qu.: 185.0
## Median : 323 Median : 6632 Median : 368.0
## Mean : 1979 Mean : 16558 Mean : 718.7
## 3rd Qu.: 748 3rd Qu.: 19206 3rd Qu.: 717.0
## Max. :16627820 Max. :9063783 Max. :1047219.0
## favourites_count verified cant year
## Min. : 0 False:369505 Min. : 1.000 Length:370486
## 1st Qu.: 938 True : 981 1st Qu.: 1.000 Class :character
## Median : 3433 Median : 1.000 Mode :character
## Mean : 8867 Mean : 3.138
## 3rd Qu.: 9713 3rd Qu.: 3.000
## Max. :1084250 Max. :757.000
En relación a la cantidad de seguidores se observa que en promedio son seguidos por 718.687891.
## 50% 75% 90% 95% 99%
## 368 717 1406 2186 4998
Tal es así, que si observamos la gráfica de la creación de cuentas para los meses 6,7 y 8 se pudo observar que desde el pico a principio de junio comienza a descender el número de cuentas creadas, hasta mediados de junio, a desde donde se mantuvo prácticamente uniforme el número de cuentas creadas y en torno a 50 por día.
Finalmente, al corroborar la correlación entre la antigüedad de la cuenta y la cantidad de tweets, pudimos comprobar, que presentaba una correlación inversa pero muy baja (-0,008), incluso cuando se consideran los tweets en función de que la cuenta era o no verificada. Del mismo modo, fue baja pero positiva la correlación entre la cantidad de tw y la de seguidores (corr= 0,0046).
Cabe aclarar que las cuentas verificadas, eran las que menos tweets realizaban en general comparado con las no verificadas, donde algunas cuentas llegaron a más de 600 tweets.(fig ).y la correlación más alta y positiva se observó entre la cantidad de favoritos y números de tweets o retweets realizados (corr=0,37).
Correlación antiguedad de la cuenta y cantidad de tw
## [1] -0.008653538
Correlcion entre cantidad de tw y seguidores
## [1] 0.004631345
Matriz de correlación
## Call:corr.test(x = usu[, c(17, 4, 5, 7, 8, 12)], use = "complete")
## Correlation matrix
## ant_cuenta followers_count statuses_count friends_count
## ant_cuenta 1.00 0.03 0.18 0.06
## followers_count 0.03 1.00 0.16 0.15
## statuses_count 0.18 0.16 1.00 0.22
## friends_count 0.06 0.15 0.22 1.00
## favourites_count 0.08 0.01 0.37 0.08
## cant -0.01 0.00 0.07 0.02
## favourites_count cant
## ant_cuenta 0.08 -0.01
## followers_count 0.01 0.00
## statuses_count 0.37 0.07
## friends_count 0.08 0.02
## favourites_count 1.00 0.10
## cant 0.10 1.00
## Sample Size
## [1] 370486
## Probability values (Entries above the diagonal are adjusted for multiple tests.)
## ant_cuenta followers_count statuses_count friends_count
## ant_cuenta 0 0 0 0
## followers_count 0 0 0 0
## statuses_count 0 0 0 0
## friends_count 0 0 0 0
## favourites_count 0 0 0 0
## cant 0 0 0 0
## favourites_count cant
## ant_cuenta 0 0
## followers_count 0 0
## statuses_count 0 0
## friends_count 0 0
## favourites_count 0 0
## cant 0 0
##
## To see confidence intervals of the correlations, print with the short=FALSE option
Test de Wilcox
En función de que las distribuciones de las variables de interés no se distribuyen normal, se realiza el test de Wilcoxon para comparar si existían diferencias en cuanto al número de tweets realizados si las cuentas están o no verificadas. El valor de p obtenido (<0,001) indica con un 99% de confianza que no hay diferencias significativas en la mediana de tweets generados entre las cuentas falsas o no.
## # A tibble: 2 x 6
## verified n min max prom sd
## <fct> <int> <dbl> <dbl> <dbl> <dbl>
## 1 False 369505 1 757 3.13 8.70
## 2 True 981 1 518 5.83 21.8
##
## Wilcoxon rank sum test with continuity correction
##
## data: cant by verified
## W = 166370000, p-value = 0.0000007749
## alternative hypothesis: true location shift is not equal to 0