Introducción

Las IX Jornadas de usuarios de R han tenido lugar en Granada los días 16 y 17 de noviembre. La inscripción se realizó a través de este formulario de Meetup, para usar el cual hace falta darse de alta en la plataforma y en el grupo que lo organiza; esto proporciona información adicional sobre la procedencia de los asistentes, y es la que estamos usando en este documento. La información se extrae mediante peticiones al API de Meetup usando un script en Perl. Se inscribieron unas 250 personas, 50 de las cuales finalmente renunciaron a asistir, usando el formulario correspondiente en Meetup. La asistencia real fue de alrededor de 140 personas, contando las que efectivamente recogieron la inscripción in situ.

Los datos, tras su extracción, se almacenaron en ficheros en el formato JSON y CSV que están disponibles en GitHub y en FigShare con una licencia libre (Merelo 2017).

Lenguajes de programación

Para extraer los lenguajes de programación se procesó la respuesta a la pregunta “Qué tecnologías o lenguajes de programación usas” mediante capitalización de la primera letra de los mismos para normalizarlos, así como detección de diferentes variantes de la palabra “Python” (había al menos 4 versiones).

Evidentemente, el uso del lenguaje de programación R debe ser común entre los asistentes, pero es interesante ver qué otros lenguajes son populares.

Como se ve, el lenguaje más popular es R, pero le sigue Python, que está convirtiéndose en uno de los más populares en ciencia de datos. También apuntan otros lenguajes como Scala y Perl. Incluso aunque las jornadas están dedicadas al lenguaje R, sólo el 80% de los asistentes efectivamente usa el lenguaje; esto puede significar que han atraído a otros miembros de la comunidad de tratamiento de datos que efectivamente están interesados en el mismo, también, por supuesto, que hay gente que lo usa pero que no es de sus lenguajes principales por lo que no lo hace constar en la contestación a la pregunta sobre los mismos.

Sistemas operativos

En este caso, se procesó la respuesta a la pregunta “Qué sistema operativo usas” buscando variantes de los mismos, así como distribuciones populares de Linux tales como Ubuntu.

Windows en sus diferentes variantes llega a más del 60% de usuarios y más de 150; pero Linux en sus diferentes variantes se acerca también al 40%. Las tres posibilidades no son excluyentes y en muchos casos se usan los dos o incluso los tres sistemas operativos.

Género

La comunidad informática es masivamente masculina, sin embargo el lenguaje R es usado también por otros grupos, matemáticos, estadísticos, ecólogos, donde la presencia femenina es más equilibrada. El género se averiguó a través de un API que lo identifica a partir del nombre. En muchos casos se usó un nick para registrarse por lo que no se pudo identificar y se le asigna “X”.

Aunque la mayoría es masculina, llegando al 60%, la presencia femenina es considerable y cercana al 30%; evidentemente, entre los no identificados el porcentaje puede variar, aunque tratándose de alrededor de 20 personas no es probable que varíe demasiado.

Conclusiones

Este trabajo establece un retrato de los asistentes a una conferencia centrada en una herramienta estadística, R, analizando los lenguajes y sistemas operativos usados y su género. Su principal objetivo es establecer un estado del arte para comparar conferencias futuras en el área y ver la evolución de la elección de sus herramientas. A diferencia de trabajos tales como el de Schubert y otros (Schubert, Zsindely, and Braun 1983), se centra en los inscritos en la conferencia, en vez de en los que han publicado trabajos en la misma; en este caso, la asistencia es bastante superior en número a los ponentes en sí.

Una conclusión que se puede sacar de estos datos es la pujanza de las tecnologías libres en una comunidad que, naturalmente, también está basada en R, que es software libre. Otros sistemas de procesamiento de datos privativos sólo alcanzan la 7ª posición en el ránking de tecnologías usadas, con menos de un 10% de los usuarios. Aunque es cierto que la conferencia se centra en R, que es libre, también es cierto que la mayoría de los entornos laborales o académicos suelen usar todo tipo de tecnologías, inclusive tecnologías privativas. Se puede afirmar, por lo tanto, que donde se usan tecnologías libres en estadística las privativas acaban teniendo una presencia prácticamente residual; incluso aunque la mayoría son usuarios del sistema operativo privativo Windows, muchos usan también Linux, conjuntamente o de forma exclusiva. Evidentemente, conferencias como esta contribuyen a la expansión del software libre que es, al fin y al cabo, expansión del conocimiento abierto.

Es, por otro lado, apropiado usar R para escribir este informe, que es el tema de la conferencia. Los fuentes del mismo se pueden localizar en el mismo repositorio que los datos, https://github.com/JJ/r9stats

Bibliografía

Merelo, Juan J. 2017. “Data from users registered for the 9th Spanish R Users conference,” November. doi:10.6084/m9.figshare.5615413.v1.

Schubert, A., S. Zsindely, and T. Braun. 1983. “Scientometric Analysis of Attendance at International Scientific Meetings.” Scientometrics 5 (3): 177–87. doi:10.1007/BF02095627.