Análisis de las bases Twitter y Usuarios

1 - Introducción

En el mes de junio, mientras se trataba en la cámara de diputados la ley del aborto, se recogieron y almacenaron tweets durante 10 días (desde el 7 al 17 de junio de 2018), contando con la información de 329.782 tweets. En el mes de agosto se realizó igual relevamiento pero sólo el día 3 de agosto, día del debate en senadores.

2 - Análisis de Tweets

Estadisticos de junio

##  favorite_count     retweet_count   favorited       retweeted      
##  Min.   :    0.00   Min.   :    0   False:1041585   False:1041585  
##  1st Qu.:    0.00   1st Qu.:    8                                  
##  Median :    0.00   Median :  149                                  
##  Mean   :    2.13   Mean   : 2437                                  
##  3rd Qu.:    0.00   3rd Qu.: 1111                                  
##  Max.   :51902.00   Max.   :43247                                  
##    posicion              dia            
##  Length:1041585     Min.   :2018-06-07  
##  Class :character   1st Qu.:2018-06-11  
##  Mode  :character   Median :2018-06-13  
##                     Mean   :2018-06-12  
##                     3rd Qu.:2018-06-14  
##                     Max.   :2018-06-17

Estadisticos de agosto

##  favorite_count retweet_count favorited      retweeted     
##  Min.   :0      Min.   :0     False:120902   False:120902  
##  1st Qu.:0      1st Qu.:0                                  
##  Median :0      Median :0                                  
##  Mean   :0      Mean   :0                                  
##  3rd Qu.:0      3rd Qu.:0                                  
##  Max.   :0      Max.   :0                                  
##    posicion              dia            
##  Length:120902      Min.   :2018-08-03  
##  Class :character   1st Qu.:2018-08-03  
##  Mode  :character   Median :2018-08-03  
##                     Mean   :2018-08-03  
##                     3rd Qu.:2018-08-03  
##                     Max.   :2018-08-03

Si se consideran las bases de junio y agosto, existen 351 tweets duplicados según su identificación; ninguno exactamente igual al de su par; sin embargo si se elimina la variable posición, existen 132 tweets exactamente iguales.

Si se analiza la fecha de publicación se observa que el día con más tweets fue el 13 de junio, día en que inició el debate en la cámara de diputados. Como se mencionó anteriormente, para agosto, se recolectaron twitters sólo del día 03, acumulando un total de 120887.

Gráfico N°1 - Fecha de publicación del Tweet, base Junio

En promedio, se publicaron 96874 por día, con un máximo de 302478, ocurrido el día del debate en diputados. El 03 de agosto (debate en senadores) se alcanzó un total de 120902 twitters únicos. El mínimo de tweets diarios fue de 15304, día 17 de junio de 2018.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   15304   39621   79638   96874  122901  302478

Gráfico N°2 - Twitters por día, junio y agosto

Cantidad de Favoritos - Me gusta
En relación a la cantidad de favoritos, si se compara el mes de junio con el mes de agosto, se observa que en este último ningun tweet obtuvo ‘me gusta’, vale aclarar que sólo se recogieron tweets durante un día (03/08/2018). Para el mes de junio el promedio de me gusta es de 2,13 por tweet, sin embargo la mediana en cero indica que el 50% de los tweets no tienen ningun me gusta.

## # A tibble: 2 x 6
##   base      cant_tw   min mediana media  stdv
##   <chr>       <int> <dbl>   <dbl> <dbl> <dbl>
## 1 06_Junio  1041585     0       0  2.13  89.6
## 2 08_Agosto  120902     0       0  0      0

Quantiles cantidad de favoritos que tiene el tweet - Junio

## 10% 25% 50% 75% 90% 
##   0   0   0   0   1

Quantiles cantidad de favoritos que tiene el tweet - Agosto

## 10% 25% 50% 75% 90% 
##   0   0   0   0   0

Analizando los cuantiles de la distribución, se observa que sólo el 10% de los tweets recibió al menos un megusta, para ser más precisos, solo el 8.9673261% de los tweets tiene por lo menos un me gusta.

Gráfico N°3 - Distribución de favoritos

Gráfico N°3 - Distribución de favoritos (Sin outliers)


En el mes de junio, el 50% de los tweets fueron retweetearon 149 veces o menos y hubo un 25% de tweets que se retweetearon 1111 veces o mas (Q3). Al realizar el conteo de los tweets retweeteados se puede observar que existen 927792 tweets que han sido retweeteados, y solo hay algunos tweets que atípicamente fueron retwiteados más de 4879 veces (Q90). El porcentaje de tweets con al menos 1 retweet 0.7981096

## # A tibble: 2 x 7
##   base      cant_tw   min mediana media   max  stdv
##   <chr>       <int> <dbl>   <dbl> <dbl> <dbl> <dbl>
## 1 06_Junio  1041585     0     149 2437. 43247 7048.
## 2 08_Agosto  120902     0       0    0      0    0
##  10%  25%  50%  75%  90% 
##    0    8  149 1111 4879
## 10% 25% 50% 75% 90% 
##   0   0   0   0   0

Gráfico N°4 - Distribución de Retweets


Gráfico N°4 - Distribución de Retweets (Sin outliers)


Cantidad de Tw por usuario

## [1] 370486
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   1.000   1.000   3.138   3.000 757.000

Los 1162136 tweets únicos, fueron escritos por 370486 usuarios. Cada uno escribió en promedio 3.1377353, con un mínimo de 1 y un máximo de 757. En general un 50% de los usuarios tweetearon 1 vez en el periodo de estudio y sólo el 25% lo hizo 3 veces o más.

Gráfico N°5 - Distribución de tweets por usuario


Gráfico N°6 - Distribución de tweets por usuario


Gráfico N°6 - Distribución de tweets por usuario (Sin outliers)


3 - Análisis de Usuarios

La base de Usuarios, se compone de 370486 usuarios únicos, identificados por id, en los meses de junio y agosto. Es decir que 370486 personas ecribieron tweets realacionados con la temática durante las fechas en que fueron extraídas lass bases.

Si se observa la fecha en que se redactaron los tweets, se pueden definir tres tipos de usuarios, los que twittearon solo en junio, los que twitteaon solo en agosto y los que lo hicieron en las dos fechas. El primer grupo, se encuentra integrado por 296162 personas (79,94%), 40704 personas pertenecen al grupo dos (10,98%) y los que twitteron n ambas fechas (9,07%).

## # A tibble: 3 x 3
##   tipo    Cant   Pct
##   <chr>  <int> <dbl>
## 1 1     296162 79.9 
## 2 2      40704 11.0 
## 3 3      33620  9.07

Gráfico N°7 - Cantidad de usuarios de acuerdo a los meses en que twittearon


Si se analizan los tweets por usuarios, se observa que en prmedio cada uno escribió 3.1377353 tweets, con un mínimo de 1y un máximo de 757. A continuación se presenta un resumen de las principales variables:

##  followers_count    statuses_count    friends_count      
##  Min.   :       0   Min.   :      1   Min.   :      0.0  
##  1st Qu.:     114   1st Qu.:   1590   1st Qu.:    185.0  
##  Median :     323   Median :   6632   Median :    368.0  
##  Mean   :    1979   Mean   :  16558   Mean   :    718.7  
##  3rd Qu.:     748   3rd Qu.:  19206   3rd Qu.:    717.0  
##  Max.   :16627820   Max.   :9063783   Max.   :1047219.0  
##  favourites_count   verified           cant             year          
##  Min.   :      0   False:369505   Min.   :  1.000   Length:370486     
##  1st Qu.:    938   True :   981   1st Qu.:  1.000   Class :character  
##  Median :   3433                  Median :  1.000   Mode  :character  
##  Mean   :   8867                  Mean   :  3.138                     
##  3rd Qu.:   9713                  3rd Qu.:  3.000                     
##  Max.   :1084250                  Max.   :757.000

Gráfico N°8 - Cantidad de Tw escritos o retwiteados


Gráfico N°8 - Cantidad de Tw escritos o retwiteados (Sin outliers)


En relación a la cantidad de seguidores se observa que en promedio son seguidos por 718.687891.

##  50%  75%  90%  95%  99% 
##  368  717 1406 2186 4998

Gráfico N°9 - Cantidad de seguidos


Gráfico N°9 - Cantidad de seguidos (Sin outliers)


En general al observar las fechas de creación de las cuentas se pudo observar que se crearon entre 2011 y 2018, pero con una mayor frecuencia de creación entre el año 2010 y el 2013. Sin embargo al focalizarnos en el año 2018 (año de tratamiento de la ley), había generalmente 4000hasta el mes de mayo y junio en donde hubo un pico y se crearon alrededor de 6000 cuentas en esos meses.

Gráfico N°10 - Año de creación de la cuenta


Gráfico N°11 - Cuentas creadas en 2018

Tal es así, que si observamos la gráfica de la creación de cuentas para los meses 6,7 y 8 se pudo observar que desde el pico a principio de junio comienza a descender el número de cuentas creadas, hasta mediados de junio, a desde donde se mantuvo prácticamente uniforme el número de cuentas creadas y en torno a 50 por día.

Gráfico N°12 - Cuentas creadas en junio, julio y agosto


4 - Análisis deCorrelación

Finalmente, al corroborar la correlación entre la antigüedad de la cuenta y la cantidad de tweets, pudimos comprobar, que presentaba una correlación inversa pero muy baja (-0,008), incluso cuando se consideran los tweets en función de que la cuenta era o no verificada. Del mismo modo, fue baja pero positiva la correlación entre la cantidad de tw y la de seguidores (corr= 0,0046).
Cabe aclarar que las cuentas verificadas, eran las que menos tweets realizaban en general comparado con las no verificadas, donde algunas cuentas llegaron a más de 600 tweets.(fig ).y la correlación más alta y positiva se observó entre la cantidad de favoritos y números de tweets o retweets realizados (corr=0,37).

Correlación antiguedad de la cuenta y cantidad de tw

## [1] -0.008653538

Gráfico N°13 - Cantidad de Tweets escritos y antiguedad de la cuenta


Correlcion entre cantidad de tw y seguidores

## [1] 0.004631345

Gráfico N°14 - Cantidad de Tweets escritos y seguidores


Matriz de correlación

## Call:corr.test(x = usu[, c(17, 4, 5, 7, 8, 12)], use = "complete")
## Correlation matrix 
##                  ant_cuenta followers_count statuses_count friends_count
## ant_cuenta             1.00            0.03           0.18          0.06
## followers_count        0.03            1.00           0.16          0.15
## statuses_count         0.18            0.16           1.00          0.22
## friends_count          0.06            0.15           0.22          1.00
## favourites_count       0.08            0.01           0.37          0.08
## cant                  -0.01            0.00           0.07          0.02
##                  favourites_count  cant
## ant_cuenta                   0.08 -0.01
## followers_count              0.01  0.00
## statuses_count               0.37  0.07
## friends_count                0.08  0.02
## favourites_count             1.00  0.10
## cant                         0.10  1.00
## Sample Size 
## [1] 370486
## Probability values (Entries above the diagonal are adjusted for multiple tests.) 
##                  ant_cuenta followers_count statuses_count friends_count
## ant_cuenta                0               0              0             0
## followers_count           0               0              0             0
## statuses_count            0               0              0             0
## friends_count             0               0              0             0
## favourites_count          0               0              0             0
## cant                      0               0              0             0
##                  favourites_count cant
## ant_cuenta                      0    0
## followers_count                 0    0
## statuses_count                  0    0
## friends_count                   0    0
## favourites_count                0    0
## cant                            0    0
## 
##  To see confidence intervals of the correlations, print with the short=FALSE option

Test de Wilcox
En función de que las distribuciones de las variables de interés no se distribuyen normal, se realiza el test de Wilcoxon para comparar si existían diferencias en cuanto al número de tweets realizados si las cuentas están o no verificadas. El valor de p obtenido (<0,001) indica con un 99% de confianza que no hay diferencias significativas en la mediana de tweets generados entre las cuentas falsas o no.

## # A tibble: 2 x 6
##   verified      n   min   max  prom    sd
##   <fct>     <int> <dbl> <dbl> <dbl> <dbl>
## 1 False    369505     1   757  3.13  8.70
## 2 True        981     1   518  5.83 21.8
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  cant by verified
## W = 166370000, p-value = 0.0000007749
## alternative hypothesis: true location shift is not equal to 0