MILLA LOSTAUNAU, BRAYAN
link="https://docs.google.com/spreadsheets/d/e/2PACX-1vQG5szOV2fpu4dzmXeYNxwVofI6__IwRKvEI9N0o75MpvBvS3Inv1deLX-YBYRMLPHEMkqraglxR18x/pub?gid=1627066287&single=true&output=csv"
Datos=read.csv(link, stringsAsFactors = F)
Datos
Identificando nombres de variables:
names(Datos)
Identificando tipo de variable:
str(Datos)
table(Datos$RACE)
Ahora sí, la tabla de frecuencias:
library(questionr)
library(magrittr)
NomDf=freq(Datos$RACE,total = F,sort = 'dec',exclude = c(NA)) %>% data.frame()
NomDf=data.frame(variable=row.names(NomDf),NomDf,row.names = NULL)
NomDf
library(ggplot2)
base = ggplot(data=NomDf,aes(x=variable,y=n))
bar1 = base + geom_bar(stat='identity')
bar1
bar1 = bar1 + scale_x_discrete(limits = NomDf$variable)
bar1
En los gráficos de barra, sólo las variables de tipo NOMINAL, como ésta, se pueden reordenar a gusto.
Podemos poner titulos así:
text1="¿Qué raza es mas común?"
text2="Acción"
text3="Conteo"
text4="Fuente:hsb_SMALL"
bar2= bar1 + labs(title=text1,
x =text2,
y = text3,
caption = text4)
bar2
Si quieres más cambios detallados:
bar2 + theme_classic() +
theme(plot.title = element_text(hjust = 0.5,size=15), # centrar y agrandar
plot.caption = element_text(hjust = 0), # a la derecha
axis.text.x = element_text(angle=45,hjust = 1)) # angulo
El gráfico de Pareto muestra dos medidas, los conteos y los porcentajes acumulados. Por tradición se trata de detectar que valores representan el 80%.
library(qcc)
pareto.chart(table(Datos$RACE),cumperc = c(0,50,80,100))
library(DescTools)
Mode(Datos$RACE)
Del grafico ya la sabíamos.
Concentracion: Herfindahl- Hirschman
dataTable=table(Datos$RACE)
Herfindahl(dataTable)
Representatividad Efectiva : Laakso - Taagepera
1/sum(prop.table(dataTable)**2)
La variable LOCUS toma:
table(Datos$LOCUS)
Esta es una variable con ORDEN. Hagamos la tabla que usaremos en ggplot:
OrdDf=freq(Datos$LOCUS,total = F,exclude = c(NA)) %>% data.frame()
OrdDf=data.frame(variable=row.names(OrdDf),OrdDf,row.names = NULL)
OrdDf
Barras:
base=ggplot(data = OrdDf, aes(x=variable, y=n))
bar= base + geom_bar(stat = 'identity')
bar
Veamos el Paretto:
pareto.chart(table(Datos$LOCUS),cumperc = c(0,50,80,100))
library(DescTools)
Mode(Datos$LOCUS)
Concentracion: Herfindahl- Hirschman
dataTable=table(Datos$LOCUS)
Herfindahl(dataTable)
Representatividad Efectiva : Laakso - Taagepera
1/sum(prop.table(dataTable)**2)