ESTADÍSTICA

MILLA LOSTAUNAU, BRAYAN

link="https://docs.google.com/spreadsheets/d/e/2PACX-1vQG5szOV2fpu4dzmXeYNxwVofI6__IwRKvEI9N0o75MpvBvS3Inv1deLX-YBYRMLPHEMkqraglxR18x/pub?gid=1627066287&single=true&output=csv"

Datos=read.csv(link, stringsAsFactors = F)
Datos

Identificando nombres de variables:

names(Datos)

Identificando tipo de variable:

str(Datos)

Parte 1. Explorando Variables NOMINALES

  1. Tabla
table(Datos$RACE)

Ahora sí, la tabla de frecuencias:

library(questionr)
library(magrittr)
NomDf=freq(Datos$RACE,total = F,sort = 'dec',exclude = c(NA)) %>% data.frame()
NomDf=data.frame(variable=row.names(NomDf),NomDf,row.names = NULL)

NomDf
  1. Gráfico El gráfico para las categóricas es el de barras:
library(ggplot2)

base = ggplot(data=NomDf,aes(x=variable,y=n)) 

bar1 = base + geom_bar(stat='identity') 

bar1
bar1 = bar1 + scale_x_discrete(limits = NomDf$variable)
bar1

En los gráficos de barra, sólo las variables de tipo NOMINAL, como ésta, se pueden reordenar a gusto.

Podemos poner titulos así:

text1="¿Qué raza es mas común?"
text2="Acción"
text3="Conteo"
text4="Fuente:hsb_SMALL"

bar2= bar1 + labs(title=text1,
                      x =text2, 
                      y = text3,
                      caption = text4) 
bar2

Si quieres más cambios detallados:

bar2 + theme_classic() + 
            theme(plot.title = element_text(hjust = 0.5,size=15), # centrar y agrandar
                  plot.caption = element_text(hjust = 0), # a la derecha
                  axis.text.x = element_text(angle=45,hjust = 1)) # angulo

El gráfico de Pareto muestra dos medidas, los conteos y los porcentajes acumulados. Por tradición se trata de detectar que valores representan el 80%.

library(qcc)
pareto.chart(table(Datos$RACE),cumperc = c(0,50,80,100))
  1. Estadísticos: Centrales: La Moda: indica cual es el más común.
library(DescTools)
Mode(Datos$RACE)

Del grafico ya la sabíamos.

Concentracion: Herfindahl- Hirschman

dataTable=table(Datos$RACE)

Herfindahl(dataTable)

Representatividad Efectiva : Laakso - Taagepera

1/sum(prop.table(dataTable)**2)

Parte 2. Explorando Variables ORDINAL

La variable LOCUS toma:

table(Datos$LOCUS)

Esta es una variable con ORDEN. Hagamos la tabla que usaremos en ggplot:

OrdDf=freq(Datos$LOCUS,total = F,exclude = c(NA)) %>% data.frame()
OrdDf=data.frame(variable=row.names(OrdDf),OrdDf,row.names = NULL)

OrdDf

Barras:

base=ggplot(data = OrdDf, aes(x=variable, y=n))

bar= base + geom_bar(stat = 'identity')

bar

Veamos el Paretto:

pareto.chart(table(Datos$LOCUS),cumperc = c(0,50,80,100))
  1. Estadísticos: Centrales: La Moda
library(DescTools)
Mode(Datos$LOCUS)

Concentracion: Herfindahl- Hirschman

dataTable=table(Datos$LOCUS)

Herfindahl(dataTable)

Representatividad Efectiva : Laakso - Taagepera

1/sum(prop.table(dataTable)**2)