Análisis de Ventas de Videojuegos

En este informe, exploraré datos sobre las ventas de videojuegos. El objetivo es entender qué factores afectan las ventas, centrándonos en empresas específicas, plataformas populares y la evolución a lo largo de los años. Utilizaré gráficos y estadísticas para presentar de manera clara los hallazgos. ¡Vamos a sumergirnos en los números y descubrir qué nos dicen!

Contexto de los Datos: Ventas de Videojuegos Los datos que estamos analizando se centran en la industria de los videojuegos, proporcionando información sobre las ventas de videojuegos a nivel global. Estos datos abarcan múltiples años y contienen detalles cruciales sobre los títulos de juegos, las plataformas en las que se lanzaron, los géneros, las empresas productoras y las cifras de ventas en diversas regiones.

Objetivo del Análisis:

El objetivo principal de nuestro análisis es identificar patrones y tendencias en las ventas de videojuegos. Nos enfocaremos en comprender cómo factores como la plataforma, el género y la empresa influyen en las ventas globales. Este análisis proporcionará información valiosa para empresas en la industria de los videojuegos, ayudándolas a tomar decisiones estratégicas informadas.

Limpieza y Preparación de Datos

Importación de la Base de Datos

Se importó la base de datos desde un archivo CSV ubicado en la ruta especificada. Una vista preliminar de los datos se proporcionó para una inspección visual inicial.

#importar base de datos
ventasjuegos=read.csv("C:\\Users\\janoa\\OneDrive\\Escritorio\\vgsales.csv\\vgsales.csv")
View(ventasjuegos)

Cambio de Nombres de Columnas

Las columnas del dataframe ventasjuegos se renombraron para mejorar la claridad y la coherencia en el análisis subsiguiente.

#cambio de nombre de las columnas
colnames(ventasjuegos) <- c("Rango","Nombre Juego","Plataforma","Año","Genero","Empresa","Ventas_NA","Ventas_EU","Ventas_JP","Otras_Ventas","Ventas_Globales")

Conversión a Dataframe y Resumen Estadístico Inicial

Se convirtió el conjunto de datos en un dataframe y se generó un resumen estadístico inicial para comprender la estructura y distribución de las variables.

#conversion a dataframe
ventasjuegos<- as.data.frame(ventasjuegos)
summary(ventasjuegos)
##      Rango       Nombre Juego        Plataforma            Año           
##  Min.   :    1   Length:16598       Length:16598       Length:16598      
##  1st Qu.: 4151   Class :character   Class :character   Class :character  
##  Median : 8300   Mode  :character   Mode  :character   Mode  :character  
##  Mean   : 8301                                                           
##  3rd Qu.:12450                                                           
##  Max.   :16600                                                           
##     Genero            Empresa            Ventas_NA         Ventas_EU      
##  Length:16598       Length:16598       Min.   : 0.0000   Min.   : 0.0000  
##  Class :character   Class :character   1st Qu.: 0.0000   1st Qu.: 0.0000  
##  Mode  :character   Mode  :character   Median : 0.0800   Median : 0.0200  
##                                        Mean   : 0.2647   Mean   : 0.1467  
##                                        3rd Qu.: 0.2400   3rd Qu.: 0.1100  
##                                        Max.   :41.4900   Max.   :29.0200  
##    Ventas_JP         Otras_Ventas      Ventas_Globales  
##  Min.   : 0.00000   Min.   : 0.00000   Min.   : 0.0100  
##  1st Qu.: 0.00000   1st Qu.: 0.00000   1st Qu.: 0.0600  
##  Median : 0.00000   Median : 0.01000   Median : 0.1700  
##  Mean   : 0.07778   Mean   : 0.04806   Mean   : 0.5374  
##  3rd Qu.: 0.04000   3rd Qu.: 0.04000   3rd Qu.: 0.4700  
##  Max.   :10.22000   Max.   :10.57000   Max.   :82.7400
resume<-summary(ventasjuegos)

Limpieza de Datos

Se eliminaron las filas que contenían valores NA y vacios, garantizando que el análisis se realice en un conjunto de datos completo.

#limpiar datos
ventasjuegos<-na.omit(ventasjuegos)
summary(ventasjuegos)
##      Rango       Nombre Juego        Plataforma            Año           
##  Min.   :    1   Length:16598       Length:16598       Length:16598      
##  1st Qu.: 4151   Class :character   Class :character   Class :character  
##  Median : 8300   Mode  :character   Mode  :character   Mode  :character  
##  Mean   : 8301                                                           
##  3rd Qu.:12450                                                           
##  Max.   :16600                                                           
##     Genero            Empresa            Ventas_NA         Ventas_EU      
##  Length:16598       Length:16598       Min.   : 0.0000   Min.   : 0.0000  
##  Class :character   Class :character   1st Qu.: 0.0000   1st Qu.: 0.0000  
##  Mode  :character   Mode  :character   Median : 0.0800   Median : 0.0200  
##                                        Mean   : 0.2647   Mean   : 0.1467  
##                                        3rd Qu.: 0.2400   3rd Qu.: 0.1100  
##                                        Max.   :41.4900   Max.   :29.0200  
##    Ventas_JP         Otras_Ventas      Ventas_Globales  
##  Min.   : 0.00000   Min.   : 0.00000   Min.   : 0.0100  
##  1st Qu.: 0.00000   1st Qu.: 0.00000   1st Qu.: 0.0600  
##  Median : 0.00000   Median : 0.01000   Median : 0.1700  
##  Mean   : 0.07778   Mean   : 0.04806   Mean   : 0.5374  
##  3rd Qu.: 0.04000   3rd Qu.: 0.04000   3rd Qu.: 0.4700  
##  Max.   :10.22000   Max.   :10.57000   Max.   :82.7400

Configuración del Entorno

Se estableció el repositorio de CRAN y se instaló el paquete dplyr para facilitar la manipulación de datos.

# Establecer el repositorio de CRAN directamente
options(repos = c(CRAN = "https://cran.r-project.org"))


# Instalar el paquete dplyr
install.packages("dplyr")
## Installing package into 'C:/Users/janoa/AppData/Local/R/win-library/4.3'
## (as 'lib' is unspecified)
## package 'dplyr' successfully unpacked and MD5 sums checked
## Warning: cannot remove prior installation of package 'dplyr'
## Warning in file.copy(savedcopy, lib, recursive = TRUE): problema al copiar
## C:\Users\janoa\AppData\Local\R\win-library\4.3\00LOCK\dplyr\libs\x64\dplyr.dll
## a C:\Users\janoa\AppData\Local\R\win-library\4.3\dplyr\libs\x64\dplyr.dll:
## Permission denied
## Warning: restored 'dplyr'
## 
## The downloaded binary packages are in
##  C:\Users\janoa\AppData\Local\Temp\Rtmp4UpKGM\downloaded_packages
# Cargar paquetes necesarios
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
# ...otros paquetes...

Preprocesamiento de Datos

Filtrar Empresas y Seleccionar Variables de Interés

Se creó un nuevo conjunto de datos (ventasjuegos_filtrado) al filtrar las filas que pertenecen a empresas específicas (Nintendo, Ubisoft, Activision, Sony, Take-Two Interactive) y seleccionar solo las columnas relevantes para el análisis: “Nombre Juego”, “Plataforma”, “Año”, “Genero”, “Empresa”, “Ventas_Globales”. Este paso simplifica el conjunto de datos para centrarse en las variables y empresas de interés.

# Filtrar el dataframe para incluir solo las filas con las empresas de interés
# y seleccionar las columnas de interés
ventasjuegos_filtrado <- ventasjuegos %>%
  filter(Empresa %in% c("Nintendo", "Ubisoft", "Activision", "Sony", "Take-Two Interactive")) %>%
  select("Nombre Juego", "Plataforma", "Año", "Genero", "Empresa", "Ventas_Globales")
View(ventasjuegos_filtrado)

Eliminar Plataformas y Años Específicos

Se definieron listas de plataformas y años que se deben eliminar del conjunto de datos. Luego, se aplicaron estas listas para filtrar las filas correspondientes y crear un conjunto de datos más limpio y enfocado.

# Lista de plataformas a eliminar
plataformas_a_eliminar <- c("2600", "DC", "GB", "GBA", "GC", "N64", "PS", "PSP", "PSV", "WIIU", "XB")
# Lista de años a eliminar
Años_a_eliminar <- c("1983", "1984", "1985", "1986", "1987", "1988", "1989", "1990", "1991", "1992", "1993", "1994", "1995","1996","1997","1998","1999", "N/A")

# Filtrar el dataframe para excluir las plataformas específicas
ventasjuegos_filtrado <- ventasjuegos_filtrado %>%
  filter(!Plataforma %in% plataformas_a_eliminar)
# Filtrar el dataframe para excluir los años específicos
ventasjuegos_filtrado <- ventasjuegos_filtrado %>%
  filter(!Año %in% Años_a_eliminar)

Instalar Paquetes Necesarios

Se instalaron los paquetes ggplot2 y gridExtra, que son esenciales para la creación de gráficos y la organización de múltiples gráficos en una sola visualización.

install.packages(c("ggplot2", "gridExtra"))
## Installing packages into 'C:/Users/janoa/AppData/Local/R/win-library/4.3'
## (as 'lib' is unspecified)
## package 'ggplot2' successfully unpacked and MD5 sums checked
## package 'gridExtra' successfully unpacked and MD5 sums checked
## 
## The downloaded binary packages are in
##  C:\Users\janoa\AppData\Local\Temp\Rtmp4UpKGM\downloaded_packages

Gráficos y comportamiento interesante de los datos

Análisis de Ventas Globales por Plataforma

En esta sección, se exploró la distribución de las ventas globales de videojuegos en función de la plataforma. Para una mejor comprensión, se presentan dos perspectivas: valores absolutos y porcentajes.

1. Comparación de Ventas Globales por Plataforma:

Se utilizó un gráfico de caja para visualizar la variabilidad en las ventas globales de videojuegos para diferentes plataformas. El eje y representa los valores absolutos de las ventas globales en millones de unidades.

2. Comparación de Ventas Globales por Plataforma (Porcentaje):

Se incorporó una segunda escala de ejes y se presentaron los mismos datos en forma de porcentaje. La escala secundaria indica el porcentaje de contribución de cada plataforma al total de ventas globales. Este enfoque permite una interpretación más completa de la distribución de las ventas globales, mostrando tanto los valores absolutos como el peso relativo de cada plataforma en el panorama general.

3. Gráfico de Barras para la Distribución de Juegos por Plataforma con Etiquetas de Datos:

Este gráfico nos ofrece una representación visual de la distribución de juegos en cada plataforma. Cada barra corresponde a una plataforma específica, y su altura indica la cantidad de juegos asociados. Las etiquetas de datos colocadas sobre las barras facilitan la identificación de valores precisos, permitiéndonos comprender rápidamente qué plataformas tienen una mayor concentración de juegos.

Gráfico de Puntos y Líneas para la Relación entre Año y Ventas Globales con Ajuste Lineal:

En este gráfico, cada punto representa las ventas globales de un juego en un año específico, diferenciadas por colores según la plataforma. La transparencia de los puntos permite ver la densidad de datos. Además, se incluye una línea punteada azul que representa el ajuste lineal de las ventas globales a lo largo del tiempo. Este ajuste lineal ayuda a visualizar la tendencia general de las ventas para todas las plataformas. La combinación de puntos y línea proporciona una representación clara y concisa de la relación entre el año y las ventas globales, facilitando la interpretación de la evolución de las ventas a lo largo de los años para cada plataforma.

Comparación de Ventas Globales por Plataforma y Género

En este gráfico de barras agrupadas, se presenta una comparación visual de las ventas globales de juegos, desglosadas por plataforma y género. Cada barra representa una plataforma específica, y dentro de cada barra, las secciones coloreadas indican la distribución de ventas por género. Las etiquetas numéricas colocadas estratégicamente sobre las barras muestran la cantidad total de juegos para cada combinación de plataforma y género.

Este enfoque visual facilita la identificación de las preferencias de género en cada plataforma, permitiendo una rápida interpretación de los datos presentados.

Estadísticas Descriptivas de Ventas Globales por Plataforma:

Se realizaron análisis detallados de las ventas globales de videojuegos, centrándonos en distintas plataformas. A continuación, se presenta un resumen de las estadísticas descriptivas más relevantes para cada plataforma:

1.Media de Ventas: Representa el promedio de las ventas globales para cada plataforma. 2. Mediana de Ventas: Indica la mediana de las ventas globales, una medida robusta ante valores extremos. 3. Desviación Estándar: Muestra la dispersión de las ventas globales, proporcionando una medida de la variabilidad. 4.Cantidad de Juegos: Refleja el número total de juegos analizados para cada plataforma.

Estas estadísticas proporcionan una visión general de la distribución de las ventas globales en cada plataforma, facilitando la identificación de tendencias y variaciones.

Cantidad de Juegos
Número total de juegos por plataforma
Plataforma Estadísticas de Ventas Cantidad_Juegos
Media_Ventas Mediana_Ventas Desviacion_Estandar
3DS 1.25 0.29 2.51 132
DS 0.98 0.25 2.90 469
PC 0.38 0.08 0.85 170
PS2 0.91 0.38 2.04 232
PS3 1.20 0.49 2.48 234
PS4 1.71 0.55 2.73 57
Wii 1.64 0.35 5.98 343
WiiU 0.91 0.39 1.38 75
X360 1.12 0.40 2.28 300
XOne 0.96 0.40 1.45 57

Conclusiones

Después de realizar un análisis exhaustivo de los datos de ventas de videojuegos, se pueden extraer varias conclusiones clave:

Contexto de los Datos

Los datos proporcionados ofrecen una visión detallada de las ventas de videojuegos a nivel global. Al centrarnos en empresas específicas, plataformas populares y la evolución a lo largo de los años, pudimos identificar patrones y tendencias significativas.

Distribución de Ventas por Plataforma

El análisis de la distribución de ventas por plataforma reveló diferencias significativas en las preferencias de los consumidores. Plataformas como “PS2” y “X360” destacaron por sus altas ventas, mientras que otras, como “2600” y “GB”, mostraron cifras más bajas.

Evolución Temporal de las Ventas

El gráfico de puntos y líneas con ajuste lineal proporcionó una representación visual clara de la relación entre el año y las ventas globales. Se observa una tendencia general de disminución en las ventas a lo largo del tiempo, indicando posibles cambios en las preferencias de los consumidores.

Comparación de Ventas por Plataforma y Género

El gráfico de barras agrupadas permitió comparar las ventas de juegos desglosadas por plataforma y género. Se identificaron tendencias interesantes, como la preferencia por ciertos géneros en plataformas específicas.

Estadísticas Descriptivas

Las estadísticas descriptivas proporcionaron una comprensión más profunda de las ventas globales en cada plataforma. La media, mediana y desviación estándar ofrecieron una visión completa de la distribución de las ventas, mientras que la cantidad de juegos reveló la cantidad total de títulos analizados.

En resumen, este análisis de ventas de videojuegos ha proporcionado información valiosa para comprender el panorama actual de la industria. Las empresas pueden utilizar estos hallazgos para informar sus estrategias comerciales y adaptarse a las cambiantes preferencias del mercado.