Tarea 4 Estadística Computacional

Los dataset fueron obtenidos de https://www.kaggle.com/datasets/aadhavvignesh/valorant-weapon-stats

datos=read.csv("valorant-stats.csv",sep=",",header=T,check.names = F)
#Frecuencia

fi=-as.numeric(sort(-table(datos$`Weapon Type`))) #Frecuencia absoluta
fac=cumsum(fi)                           #Frecuencia acumulada
fri=as.numeric(fi/sum(fi))*100           #Frecuencia relativa
frac=cumsum(fri)                         #Frecuencia relativa acumulada
types=c("Sidearm","SMG", "Rifle", "Sniper", "Shotgun", "Heavy")

  #Tabla
frec_type=data.frame(types,fi,fac,fri=round(fri,2),frac=round(frac,2))

  #Visualización
knitr::kable(frec_type)

types	fi	fac	fri	frac
Sidearm	5	5	29.41	29.41
SMG	4	9	23.53	52.94
Rifle	2	11	11.76	64.71
Sniper	2	13	11.76	76.47
Shotgun	2	15	11.76	88.24
Heavy	2	17	11.76	100.00

fi=as.numeric(table(datos$Price))  #Frecuencia absoluta
fac=cumsum(fi)                    #Frecuencia acumulada
fri=as.numeric(fi/sum(fi))*100    #Frecuencia relativa
frac=cumsum(fri)                  #Frecuencia relativa acumulada

  #Tabla
price=sort(unique(datos$Price))
frec_price=data.frame(price,fi,fac,fri=round(fri,2),frac=round(frac,2))
  #Visualización
  
knitr::kable(head(frec_price,17))

price	fi	fac	fri	frac
0	1	1	5.88	5.88
200	1	2	5.88	11.76
400	1	3	5.88	17.65
500	1	4	5.88	23.53
800	1	5	5.88	29.41
900	1	6	5.88	35.29
1000	1	7	5.88	41.18
1100	1	8	5.88	47.06
1500	1	9	5.88	52.94
1600	2	11	11.76	64.71
2100	1	12	5.88	70.59
2500	1	13	5.88	76.47
2900	2	15	11.76	88.24
3200	1	16	5.88	94.12
4500	1	17	5.88	100.00

price=sort(unique(datos$Price))       # Ordenar los datos
n = length(price)                    # Número de elementos de price
k = round(1 + 3.3 * log(n))         # Aplicamos regla de Sturges
h = round((max(price)-min(price))/k)  # Cálculo de intervalo

 #Crear intervalos
intervalos=hist(datos$Price, plot=FALSE, breaks = k)$breaks
intervalos=paste("(",intervalos[1:(length(intervalos)-1)],"-",intervalos[2:(length(intervalos))],"]",sep="")
intervalos[1]="[0-500]"

 #Cálculo de frecuencia
fi = hist(datos$Price, plot=FALSE, breaks = k)$counts      #Frecuencia con intervalos
fac=cumsum(fi)                                            #Frecuencia acumulada
fri=as.numeric(fi/sum(fi))*100                            #Frecuencia relativa
frac=cumsum(fri)                                          #Frecuencia relativa acumulada  

frec_price=data.frame(price=intervalos,fi,fac,fri=round(fri,2),frac=round(frac,2))
knitr::kable(frec_price)

price	fi	fac	fri	frac
[0-500]	4	4	23.53	23.53
(500-1000]	3	7	17.65	41.18
(1000-1500]	2	9	11.76	52.94
(1500-2000]	2	11	11.76	64.71
(2000-2500]	2	13	11.76	76.47
(2500-3000]	2	15	11.76	88.24
(3000-3500]	1	16	5.88	94.12
(3500-4000]	0	16	0.00	94.12
(4000-4500]	1	17	5.88	100.00

Gráfico de barras

library(ggplot2)
library(plotly)

## 
## Attaching package: 'plotly'

## The following object is masked from 'package:ggplot2':
## 
##     last_plot

## The following object is masked from 'package:stats':
## 
##     filter

## The following object is masked from 'package:graphics':
## 
##     layout

# Gráfico de barras
p=ggplot(data=frec_type, aes(x=reorder(types, -fri),y=fi)) +
  geom_bar(stat="identity",fill="Blue",alpha=0.8) + theme_minimal() + 
  labs(title="Frecuencia absoluta - Types", x="Types", y = "Frecuencia absoluta")
ggplotly(p)

Gráfico tipo pie

p=ggplot(frec_type, aes(x="", y=fri, fill=reorder(types, -fri))) +
  geom_bar(stat="identity", width=1) + coord_polar("y", start=0) + theme_minimal() +
  labs(title="Frecuencia relativa - Type", x="Type", y = "Frecuencia relativa (%)")
p=p + scale_fill_brewer(palette="RdPu",aesthetics = "colour",name = "Type")
plot(p)

## Gráfico tipo pareto

p=ggplot(data=frec_type, aes(x=reorder(types, -fri),y=fi)) +
  geom_bar(stat="identity",fill="Red",alpha=0.8) + theme_minimal() + 
  labs(title="Frecuencia absoluta y absoluta acumulada - Type", x="Type", y = "Frecuencia absoluta")
p = p + geom_point(aes(y=fac))
ggplotly(p)

Diagrama de puntos

library("BHH2")
dotPlot(datos$Price,xlab = "Price $",)

## Histograma

grafico=ggplot(datos,aes(Price)) # Gráfico y datos base
#Histograma (25 niveles) 
grafico = grafico + geom_histogram(bins=30,fill="Green",color="Green",alpha=0.8)
grafico = grafico + theme_bw() # Visualización estándar en blanco y negro
grafico = grafico + ylab("Frecuencia absoluta (Price)") + xlab("Price $")
grafico = grafico + ggtitle("Histograma")
ggplotly(grafico)

¿Qué ocurre al construir directamente una tabla de frecuencia?¿Qué conclusiones se pueden extraer?

Las tablas de frecuencia de construyen para lograr ordenar y simplificar los datos que recolectamos, esto lo podemos apreciar al hacer uso de DataFrames, ya que son demasiados datos que necesitamos organizar. Una tabla de frecuencias muestra de forma ordenada un conjunto de datos estadísticos y a cada uno de ellos le asigna una frecuencia que, en pocas palabras, son las veces que se repite un número o dato. Además existen diferentes tipos de frecuencias, estas son: Frecuencias absolutas: son el número de veces que se repite un número en un conjunto de datos. Frecuencias absolutas acumuladas: es la suma de las frecuencias absolutas. Frecuencia relativa: corresponde a las veces que se repite un número en un conjunto de datos respecto al total, pero se expresa en porcentajes (%). Frecuencia relativa acumulada: es la suma de las frecuencias relativas.

¿Qué diferencia aprecia entre ambos tipos de representaciones?

Usar gráficos estadísticos es uno de los recursos indispensables, es una herramienta fundamental para el análisis de datos y para optimizar la toma de decisiones. Pero, ¿Qué es un gráfico estadístico? Un gráfico estadístico es una representación visual de datos estadísticos, para que puedan ser interpretados, analizados y entendidos de forma más sencilla. Existiendo varios tipos, en este trabajo tenemos 5 diferentes: Tipo Cualitativo:

Gráfico de barras Gráfico tipo pie Gráfico tipo Pareto Tipo Cuantitativo: Diagrama de punto Histograma

Los Cualitativos son los 3 mencionados anteriormente, en los cuales, el de gráfico de barras tiene barras rectangulares con longitudes proporcionales a los valores que representan. Las gráficas de barras se utilizan para comparar dos o más valores. El gráfico de tipo pie o gráfica circular, también llamado gráfico de pastel es un recurso estadístico que se utiliza para representar porcentajes y proporciones. Finalmente el de tipo pareto permite detectar irregularidades, identificar cuáles son los puntos de mejora y definir un plan de acción para prevenir pérdidas. Por otro lado los Cuatitativos son el diagrama de puntos el es útil para mostrar datos de manera organizada. Los gráficos de puntos usan varios puntos para trazar datos a lo largo de un eje ordinal. Finalemnet tenemos el hsitograma el cual ofrecen una buena forma de evaluar los datos. Se pueden usar para comprobar valores extremos o atípicos y ayudar a comprender la distribución de sus datos.