R es un entorno de software libre (licencia GNU GLP) y lenguaje de programación interpretado, es decir, ejecuta las instrucciones directamente, sin una previa compilación del programa a instrucciones en lenguaje máquina. El término entorno, en R, se refiere a un sistema totalmente planificado y coherente, en lugar de una acumulación de herramientas específicas e inflexibles, como suele ser el caso en otros softwares de análisis de datos.
Este entorno es comúnmente utilizado para la computación estadística y gráfica, ya que dispone de una amplia variedad de técnicas estadísticas (modelos lineales y no lineales, pruebas estadísticas clásicas, análisis de series de tiempo, clasificación, agrupamiento, etc.) y gráficas. Funciona en plataformas UNIX y sistemas similares (incluidos FreeBSD y Linux), Windows y MacOS.
Su desarrollo actual es responsabilidad del R Development Core Team. Forma parte de un proyecto colaborativo y abierto donde los usuarios pueden publicar paquetes que extienden su configuración básica (repositorio oficial de paquetes).
Características de R.
• Manejo y almacenamiento efectivo de los datos.
• Un conjunto de operadores para la realización de cálculos con matrices.
• Una colección de herramientas para el análisis de datos.
• Utilidades graficas para la visualización de datos.
• Un lenguaje de programación bien desarrollado que incluye saltos condicionales, bucles, funciones recursivas, utilidades para la entrada y salida de datos, etc.
• Tiene un formato de documentación basado en LaTeX, que se utiliza para proporcionar documentación completa tanto en formato físico como digital.
El lenguaje de programación R se integra bien con otros lenguajes de programación como C, C++ o Fortran para tareas de análisis de datos computacionalmente intensivas (alto consumo de recursos como CPU y RAM). Además, puede integrarse con distintas bases de datos y existen bibliotecas que facilitan su utilización desde lenguajes de programación interpretados como Perl y Python.
En el presente reporte, se anexará un análisis de datos realizado en R. En cada apartado se colocará la conclusión a la que se llego y posteriormente capturas de pantalla que justifiquen la respuesta y el código que fue utilizado.
En base al Data Set de “Facebook.csv”, construir un análisis documentado, que sustente los siguientes puntos:
• Likes vs Publicaciones compartidas.
• Media del mes de julio.
• Publicación más popular.
• Pago por publicación.
• Interacción de seguidores de la página.
Evidencia: Código en R, Reporte de análisis que incluya los gráficos y los resultados de las consultas, así como interpretación de cada punto indicado.
Realizar una comparativa grafica entre el número de likes y publicaciones compartidas (interpretar).
## [1] 79 130 66 1572 325 152 249 325 161 113 233 88 90 137 577
## [16] 86 40 678 54 34 66 0 16 72 99 88 412 100 523 143
## [31] 107 27 155 98 56 172 96 76 227 44 216 187 26 29 47
## [46] 57 174 18 77 12 48 285 202 64 66 65 164 40 76 139
## [61] 101 144 179 219 60 77 48 697 53 84 146 449 226 172 99
## [76] 411 0 85 56 29 86 370 190 101 99 140 130 270 30 107
## [91] 331 78 301 111 124 153 51 115 310 328 0 1505 63 13 59
## [106] 955 181 193 125 217 28 NA 117 79 15 4 431 7 7 6
## [121] 2 186 1 3 7 7 198 9 4 3 8 7 7 11 28
## [136] 56 32 32 129 77 143 227 859 377 41 76 189 80 148 24
## [151] 302 166 358 161 319 54 117 115 187 84 363 244 290 243 18
## [166] 113 77 485 1622 99 188 30 163 179 204 165 1047 234 250 154
## [181] 150 102 226 345 68 62 223 61 104 146 102 766 63 113 442
## [196] 278 64 52 30 1155 139 40 53 220 114 39 859 137 54 74
## [211] 98 264 36 11 435 114 17 15 87 227 86 179 74 332 80
## [226] 95 188 109 367 102 113 94 14 43 98 13 237 112 101 145
## [241] 535 118 484 315 5172 154 73 96 98 53 71 194 226 238 755
## [256] 47 126 104 167 152 128 234 61 66 529 42 75 61 162 47
## [271] 696 215 534 143 46 98 25 204 202 148 40 71 104 34 129
## [286] 72 15 102 469 57 23 141 19 71 72 54 93 62 78 14
## [301] 231 72 197 330 148 208 148 154 142 107 22 84 59 65 24
## [316] 186 58 74 180 168 36 51 67 1372 57 33 79 97 617 139
## [331] 199 107 50 64 55 142 72 79 244 307 212 95 194 101 46
## [346] 156 821 58 155 1639 155 166 210 400 98 138 148 267 144 256
## [361] 72 87 129 179 194 124 304 138 41 163 407 447 38 93 59
## [376] 286 66 236 152 1998 186 235 64 92 53 140 48 112 35 37
## [391] 48 766 96 57 114 51 87 81 71 164 91 329 128 379 52
## [406] 63 97 56 36 138 142 75 89 63 176 227 25 0 27 39
## [421] 61 32 2 109 32 68 6 213 2 3 6 4 4 211 15
## [436] 95 127 136 32 76 28 0 664 62 48 55 197 88 59 234
## [451] 148 96 49 98 198 159 22 154 128 129 1546 79 214 134 268
## [466] 128 47 200 264 193 114 160 46 136 73 65 579 101 74 84
## [481] 360 5 187 69 82 12 56 44 277 74 79 105 128 185 125
## [496] 53 53 93 91 91
## [1] 5172 1998 1639 1622 1572 1546 1505 1372 1155 1047 955 859 859 821 766
## [16] 766 755 697 696 678 664 617 579 577 535 534 529 523 485 484
## [31] 469 449 447 442 435 431 412 411 407 400 379 377 370 367 363
## [46] 360 358 345 332 331 330 329 328 325 325 319 315 310 307 304
## [61] 302 301 290 286 285 278 277 270 268 267 264 264 256 250 249
## [76] 244 244 243 238 237 236 235 234 234 234 233 231 227 227 227
## [91] 227 226 226 226 223 220 219 217 216 215 214 213 212 211 210
## [106] 208 204 204 202 202 200 199 198 198 197 197 194 194 194 193
## [121] 193 190 189 188 188 187 187 187 186 186 186 185 181 180 179
## [136] 179 179 179 176 174 172 172 168 167 166 166 165 164 164 163
## [151] 163 162 161 161 160 159 156 155 155 155 154 154 154 154 153
## [166] 152 152 152 150 148 148 148 148 148 148 146 146 145 144 144
## [181] 143 143 143 142 142 142 141 140 140 139 139 139 138 138 138
## [196] 137 137 136 136 134 130 130 129 129 129 129 128 128 128 128
## [211] 128 127 126 125 125 124 124 118 117 117 115 115 114 114 114
## [226] 114 113 113 113 113 112 112 111 109 109 107 107 107 107 105
## [241] 104 104 104 102 102 102 102 101 101 101 101 101 100 99 99
## [256] 99 99 98 98 98 98 98 98 98 97 97 96 96 96 96
## [271] 95 95 95 94 93 93 93 92 91 91 91 90 89 88 88
## [286] 88 87 87 87 86 86 86 85 84 84 84 84 82 81 80
## [301] 80 79 79 79 79 79 79 78 78 77 77 77 77 76 76
## [316] 76 76 75 75 74 74 74 74 74 73 73 72 72 72 72
## [331] 72 72 71 71 71 71 69 68 68 67 66 66 66 66 66
## [346] 65 65 65 64 64 64 64 63 63 63 63 62 62 62 61
## [361] 61 61 61 60 59 59 59 59 58 58 57 57 57 57 56
## [376] 56 56 56 56 55 55 54 54 54 54 53 53 53 53 53
## [391] 53 52 52 51 51 51 50 49 48 48 48 48 48 47 47
## [406] 47 47 46 46 46 44 44 43 42 41 41 40 40 40 40
## [421] 39 39 38 37 36 36 36 35 34 34 33 32 32 32 32
## [436] 32 30 30 30 29 29 28 28 28 27 27 26 25 25 24
## [451] 24 23 22 22 19 18 18 17 16 15 15 15 15 14 14
## [466] 13 13 12 12 11 11 9 8 7 7 7 7 7 7 6
## [481] 6 6 5 4 4 4 4 3 3 3 2 2 2 1 0
## [496] 0 0 0 0
## [1] 790 208 181 147 139 128 123 122 121 109 102 99 98 98 97 95 90 90
## [19] 90 84 83 80 79 78 77 76 76 74 72 70 70 68 64 63 61 61
## [37] 60 60 58 58 58 57 57 55 55 54 54 54 53 53 52 51 51 50
## [55] 49 49 49 47 47 47 47 47 47 46 45 44 44 44 44 44 44 43
## [73] 43 43 43 42 42 42 42 41 41 41 41 41 40 40 40 40 40 40
## [91] 39 39 39 39 38 38 38 38 38 38 37 37 36 36 36 36 36 36
## [109] 36 36 36 35 35 35 34 34 34 34 34 33 33 33 33 33 32 32
## [127] 32 32 32 32 32 32 32 32 31 31 31 31 31 31 31 31 30 30
## [145] 30 30 30 29 29 29 29 29 29 29 28 28 28 28 28 28 28 28
## [163] 28 28 28 28 27 27 27 27 27 27 27 26 26 26 26 26 26 26
## [181] 26 26 26 26 26 26 26 26 26 25 25 25 25 25 25 25 25 24
## [199] 24 24 24 24 24 24 23 23 23 23 23 23 22 22 22 22 22 22
## [217] 22 22 22 21 21 21 21 21 21 21 21 21 21 21 20 20 20 20
## [235] 20 20 20 20 20 19 19 19 19 19 19 19 19 19 19 19 19 18
## [253] 18 18 18 18 18 18 18 18 18 18 18 18 18 17 17 17 17 17
## [271] 17 17 17 17 17 17 17 17 17 17 16 16 16 16 16 16 16 16
## [289] 16 16 16 16 16 16 16 15 15 15 15 15 15 15 15 15 15 15
## [307] 15 15 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14
## [325] 14 14 14 14 13 13 13 13 13 13 13 13 13 13 13 13 13 13
## [343] 13 13 13 13 13 13 12 12 12 12 12 12 11 11 11 11 11 11
## [361] 11 11 11 11 11 11 11 11 11 10 10 10 10 10 10 10 10 10
## [379] 10 10 10 10 10 10 10 9 9 9 9 9 9 9 9 9 9 9
## [397] 9 8 8 8 8 8 8 8 8 8 8 8 7 7 7 7 7 7
## [415] 7 7 7 7 7 7 7 7 6 6 6 6 6 6 6 6 6 6
## [433] 5 5 5 5 5 5 5 5 5 4 4 4 4 4 4 4 3 3
## [451] 3 3 3 3 3 3 3 3 2 2 2 2 2 2 2 2 2 2
## [469] 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 0 0 0
## [487] 0 0 0 0 0 0 0 0 0 0
Al ordenar el numero de likes y el numero de veces que se compartió una publicación podemos observar los limites tanto mínimo como máximo de cada atributo.
o Likes recibidos: 0 – 5172.
o Numero de veces que se compartió: 0 – 790.
En la comparativa grafica se puede visualizar que hay una relación directa entre el numero de veces que se comparte una publicación y la cantidad de veces que recibe likes. Es de esperarse que entre más alcance tiene más posibilidad hay que le guste a una mayor cantidad de personas.
Sin embargo, el numero de veces en que una publicación se comparte es muy bajo esto puede ser un indicador de advertencia que el publico no esta simpatizando con el plan publicitario de la marca.
Por consecuencia, la frecuencia en que recibe likes una publicación es similar, si no es que igual, a las veces que se compartió dicha propaganda.
Es congruente que la publicación que tiene mas likes (5172) es la que mas veces se compartió (790) y es esta misma propaganda, la que sale fuera de los estándares que la pagina tenia registrados hasta el momento.
En conclusión, debería investigarse el hecho de como una publicación impacto mas en los usuarios. Y aplicar técnicas de mercadotecnia similares a futuras campañas.
Calcular la media del número de interacciones del mes de julio.
## Total.Interactions
## 0 2 3 4 5 6 7 8 9 10 12 14 15 17 18 21
## 6 3 2 2 2 3 4 1 2 4 1 2 2 4 3 1
## 24 25 28 29 30 32 34 35 36 38 39 40 41 42 44 45
## 1 2 2 1 1 2 3 1 2 3 6 1 1 2 2 2
## 46 48 49 50 53 54 55 56 57 58 59 60 61 62 63 64
## 1 1 2 1 4 3 2 2 1 3 2 2 1 1 2 1
## 65 66 67 68 69 70 71 72 73 74 75 77 79 80 81 82
## 2 3 5 4 2 4 4 4 3 1 6 1 3 1 3 1
## 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98
## 4 4 3 3 3 1 2 5 2 1 1 3 2 3 5 2
## 99 100 101 103 104 105 106 107 108 110 113 114 115 117 118 119
## 3 4 2 2 2 1 3 2 2 2 1 4 4 5 4 4
## 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135
## 2 4 4 1 1 3 4 1 2 1 1 1 2 1 1 2
## 136 137 138 139 142 143 144 148 149 152 154 155 157 158 160 162
## 2 2 1 2 2 2 1 3 2 3 1 1 1 1 2 4
## 163 164 165 166 167 168 170 171 172 173 174 176 178 179 180 182
## 4 2 2 2 1 1 1 1 2 1 2 2 1 2 2 1
## 183 184 185 186 188 189 190 192 193 194 195 199 200 202 203 204
## 1 1 1 2 3 2 2 1 1 2 1 2 2 3 2 2
## 208 210 211 212 214 217 218 220 222 224 225 226 228 230 232 233
## 1 1 1 2 1 3 2 1 1 1 2 2 2 1 2 1
## 234 235 236 237 238 242 243 245 249 251 252 254 255 257 262 263
## 2 1 1 1 3 2 2 1 1 1 3 1 1 1 1 1
## 264 265 266 269 271 273 274 276 279 280 282 285 287 288 290 294
## 1 1 1 2 4 1 1 1 1 1 2 1 1 1 1 1
## 295 299 300 305 309 311 313 316 330 335 337 339 342 355 363 367
## 1 1 1 1 1 2 2 1 1 1 1 1 1 1 1 1
## 376 378 387 390 393 404 409 410 420 421 429 430 441 447 454 456
## 1 2 1 1 1 1 2 1 1 1 1 1 1 1 1 1
## 458 470 472 490 494 505 515 528 550 557 572 587 596 599 605 622
## 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1
## 624 633 691 713 730 771 787 818 823 881 931 948 1009 1136 1174 1290
## 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## 1439 1626 1777 1806 1873 1974 2177 6334
## 1 1 1 1 1 1 1 1
## Post.Month
## 1 2 3 4 5 6 7 8 9 10 11 12
## 25 26 36 50 37 49 52 34 36 60 45 50
## [1] 328.5
La media del número de interacciones del mes de Julio es 328.5, siendo uno de los meses con mas influencia en la pagina solo superado por Octubre.
o Publicaciones de Enero: 25.
o Publicaciones de Febrero: 26.
o Publicaciones de Marzo: 36.
o Publicaciones de Abril: 50.
o Publicaciones de Mayo: 37.
o Publicaciones de Junio: 49.
o Publicaciones de Julio: 52.
o Publicaciones de Agosto: 34.
o Publicaciones de Septiembre: 36.
o Publicaciones de Octubre: 60.
o Publicaciones de Noviembre: 45.
o Publicaciones de Diciembre: 50.
En conclusión, el número de publicaciones que se realizan en cada mes influye en la cantidad de interacciones registradas en la página. En mi opinión se debería de establecer un numero de publicaciones promedio, para de esa manera tener un punto de referencia y saber en que mes las personas interactúan mas con la propaganda de la página.
Determinar qué tipo de publicación (estado, foto, video, link, etc.) es más conveniente publicar, en qué hora y día de la semana.
## Type
## Link Photo Status Video
## 22 426 45 7
## Post.Month
## 1 2 3 4 5 6 7 8 9 10 11 12
## 25 26 36 50 37 49 52 34 36 60 45 50
## Post.Weekday
## 1 2 3 4 5 6 7
## 68 66 64 72 67 81 82
## Post.Hour
## 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
## 4 39 105 35 13 16 13 12 30 78 44 29 52 13 6 1 3 3 1 1
## 22 23
## 1 1
Para saber qué tipo de publicación es más popular primero tenemos que conocer el numero de veces que se ha subido cada tipo de propaganda.
o Link: 22.
o Foto: 426.
o Estado: 45.
o Video: 7.
A continuación, determinamos el mes, el día de la semana y la hora en que mas veces se ha publicado algo.
o Mes: Octubre (60 publicaciones).
o Dia: Domingo (82 publicaciones).
o Hora: Tres de la mañana (105 publicaciones).
Como dato extra, el tipo de publicación que más recibió likes y mas veces fue compartida fue una fotografía.
Si nos enfocamos en las representaciones gráficas los datos de acuerdo a los likes quedarían de la siguiente manera:
o Mes: Julio (publicación con más likes).
o Dia: Miércoles (publicación con más likes).
o Hora: Cuatro de la mañana (publicación con más likes).
Si comparamos ambas métricas se pude observar que no depende del día, ni de la hora en que se realice una propaganda, en si lo que influye es el tipo y el contenido que se presenta.
En conclusión, la publicación más popular fue la fotografía (también es la que se sube con más frecuencia), el mes optimo para la propaganda seria en temporada alta de cierto producto (en este caso es a mitad de año) y el día/hora de publicación no tienen un impacto muy grande, pero a manera de opinión personal seguiría publicando mayormente durante el fin de semana que es cuando las personas usan mas las redes sociales y a una hora de la madrugada para que sea de los primeros anuncios que aparezcan a lo largo del día (esto claro usando herramientas que programen la subida del archivo de manera automática).
Interpretar si el pago por publicación es conveniente de acuerdo al número de interacciones y al alcance total de tiempo de vida del post (Lifetime Post Total Reach).
## Paid
## 0 1
## 360 139
Para este punto se debe tomar en cuenta cuantas publicaciones han sido pagadas de la muestra que estamos utilizando.
o Publicaciones pagadas: 360.
o Publicaciones no pagadas: 139.
Observando los datos podemos identificar que las publicaciones pagadas generan mas interacciones que las no pagadas. De los primeros tres puestos con mayor número de interacciones dos son con propaganda pagada.
o Primer lugar: 6334 (PAGADA).
o Segundo lugar: 2177 (PAGADA).
o Tercer lugar: 1974 (NO PAGADA).
Igualmente, el tiempo de vida (alcance) de las publicaciones pagadas es mayor que las no pagadas.
o Primer lugar: 180480 (PAGADA).
o Segundo lugar: 158208 (NO PAGADA).
o Tercer lugar: 153536 (PAGADA).
En conclusión, el que una publicación sea pagada o no pagada, sí influye considerablemente en el numero de interacciones que obtendrá y en su tiempo de vida (alcance). Es conveniente no dejarnos guiar por la idea de que para que la publicidad funcione tenemos que invertirle, la propaganda orgánica bien elaborada es capaz de competir y superar a aquella donde se tiene que pagar.
Analizar si a las personas que les ha gustado de por vida la página (Lifetime People Who Have Liked Your Page) y que han interactuado con las publicaciones tienen relación con el número de comentarios por publicación.
Al analizar los datos del numero de personas que les gusta la pagina y los comentarios que reciben las publicaciones, se obtienen los siguientes datos:
o De 3316 personas que siguen la página se obtienen 372 comentarios. 11.22%
o De 3430 personas que siguen la página se obtienen 146 comentarios. 4.26%
o De 2162 personas que siguen la página se obtienen 144 comentarios. 6.66%
En conclusión, el número de comentarios que se reciben de los usuarios a los que les gusta la página dese hace tiempo, es inferior al 50% lo que puede representar varios puntos, como que los seguidores no interactúan frecuentemente con lo que se publica o que el contenido no es lo suficientemente llamativo como para que se comente al respecto.
R es una herramienta informática sumamente potente que nos ayuda a realizar distintos cálculos científicos, numéricos y estadísticos, así como para crear gráficas y figuras de gran calidad.
Realizar esta actividad me permitió conocer mucho mas el funcionamiento de R, así como saber darle un sentido a la información que es un recurso indispensable para cualquier empresa. Quizás la interpretación que le di a los resultados de cada análisis no es del todo correcta, pero me sirvió para practicar y darme una idea de la influencia de los datos en la toma de decisiones.
Por primera vez sentí y me coloqué (mentalmente) en un papel profesional, como si yo fuera el que tuviera que rendir cuentas a los directivos para saber que esta fallando en su estrategia de marketing. Sin duda el analizar los datos es una tarea que requiere cierto grado de criterio para no dejarse llevar por las ideologías propias (algo en lo que debo de mejorar).
Estoy preparado para en futuras actividades realizar un análisis documentado similar al que se desarrolló en este documento. Y recordando que el lenguaje R nos ayuda a analizar conjuntos de datos más allá del análisis básico de archivos de Excel.