#Introducción

En este análisis, exploraremos la popularidad de los lenguajes de programación a lo largo del tiempo utilizando datos extraídos de Stack Overflow. El objetivo es observar cómo las etiquetas relacionadas con lenguajes como R, dplyr y ggplot2 han evolucionado a lo largo de los años y cómo se comparan con otros lenguajes de programación.

Primero, cargamos las bibliotecas necesarias y los datos que utilizaremos para nuestro análisis.

library(readr)
library(dplyr)
library(ggplot2)

Verificación del dataset

Ahora, verificamos cómo se ve el dataset cargado para asegurarnos de que contiene la información correcta.

print(head(by_tag_year))
## # A tibble: 6 × 4
##    year tag           number year_total
##   <dbl> <chr>          <dbl>      <dbl>
## 1  2008 .htaccess         54      58390
## 2  2008 .net            5910      58390
## 3  2008 .net-2.0         289      58390
## 4  2008 .net-3.5         319      58390
## 5  2008 .net-4.0           6      58390
## 6  2008 .net-assembly      3      58390

Transformación de los datos

En esta sección, calculamos la fracción de preguntas por etiqueta en cada año. Esto nos permitirá analizar la evolución de las etiquetas a lo largo del tiempo.

# Crear la columna 'fraction' que muestra la fracción de preguntas de cada etiqueta por año
by_tag_year_fraction <- by_tag_year %>%
  mutate(fraction = number / year_total)

# Visualizar el nuevo dataset
head(by_tag_year_fraction)

Filtrar por etiquetas específicas

Filtramos los datos para concentrarnos en las etiquetas de interés, como R, dplyr y ggplot2, y visualizamos su evolución a lo largo del tiempo.

# Filtrar solo las filas para la etiqueta 'R'
r_over_time <- by_tag_year_fraction %>%
  filter(tag == "r")

# Graficar la fracción de preguntas de 'R' a lo largo del tiempo
ggplot(r_over_time, aes(x = year, y = fraction)) +
  geom_line() +
  labs(
    title = "Fracción de preguntas de 'R' a lo largo del tiempo",
    x = "Año",
    y = "Fracción de preguntas"
  ) +
  theme_minimal()

Visualización de la evolución de las etiquetas seleccionadas

Utilizamos ggplot2 para crear un gráfico de líneas que muestre cómo ha cambiado la fracción de preguntas para las etiquetas seleccionadas a lo largo del tiempo.

# Filtrar las etiquetas 'r', 'dplyr', y 'ggplot2'
selected_tags <- c("r", "dplyr", "ggplot2")
selected_tags_over_time <- by_tag_year_fraction %>%
  filter(tag %in% selected_tags)

# Graficar las fracciones de preguntas para estas etiquetas
ggplot(selected_tags_over_time, aes(x = year, y = fraction, color = tag)) +
  geom_line() +
  labs(
    title = "Fracción de preguntas de 'R', 'dplyr' y 'ggplot2' a lo largo del tiempo",
    x = "Año",
    y = "Fracción de preguntas"
  ) +
  theme_minimal()

Análisis de las etiquetas más populares

En esta sección, analizamos las etiquetas más populares según el número total de preguntas a lo largo del tiempo.

# Agrupar por tag y sumar el total de preguntas
sorted_tags <- by_tag_year %>%
  group_by(tag) %>%
  summarize(tag_total = sum(number)) %>%
  arrange(desc(tag_total))

# Visualizar las etiquetas ordenadas
head(sorted_tags)

Visualización de las etiquetas más populares Creamos un gráfico de líneas para mostrar la fracción de preguntas de las etiquetas más populares a lo largo del tiempo.

# Filtrar para las seis etiquetas más populares
highest_tags <- head(sorted_tags$tag, 6)
highest_tags_over_time <- by_tag_year_fraction %>%
  filter(tag %in% highest_tags)

# Graficar las fracciones de preguntas para las etiquetas más populares
ggplot(highest_tags_over_time, aes(x = year, y = fraction, color = tag)) +
  geom_line() +
  labs(
    title = "Fracción de preguntas de las seis etiquetas más populares a lo largo del tiempo",
    x = "Año",
    y = "Fracción de preguntas"
  ) +
  theme_minimal()

# Filtrar para las etiquetas "android", "ios", y "windows-phone"
my_tags <- c("android", "ios", "windows-phone")
by_tag_subset <- by_tag_year_fraction %>%
  filter(tag %in% my_tags)

# Graficar la fracción de preguntas de estas etiquetas a lo largo del tiempo
ggplot(by_tag_subset, aes(x = year, y = fraction, color = tag)) +
  geom_line() +
  labs(
    title = "Fracción de preguntas de 'android', 'ios' y 'windows-phone' a lo largo del tiempo",
    subtitle = "Por Salomón Ortiz",
    x = "Año",
    y = "Fracción de preguntas"
  ) +
  theme_minimal()

Conclusiones

El análisis realizado demuestra cómo la popularidad de los lenguajes de programación y sus bibliotecas ha evolucionado a lo largo del tiempo en función de las preguntas realizadas en Stack Overflow. En particular, observamos un crecimiento sostenido en el uso de herramientas como R,lo que refleja su creciente adopción en áreas como la ciencia de datos y la estadística.

Asimismo, al analizar las etiquetas más populares, identificamos tendencias que sugieren cambios en las preferencias de la comunidad de desarrolladores. Estas fluctuaciones pueden estar influenciadas por la aparición de nuevas tecnologías, cambios en el mercado laboral o la evolución de las necesidades en el desarrollo de software.

Este estudio no solo destaca las herramientas más utilizadas, sino que también proporciona una base para anticipar tendencias futuras en el ecosistema de programación. Entender estas dinámicas resulta clave para quienes buscan mantenerse actualizados y competitivos en un campo en constante evolución.