Variable categórica de escala nominal: LA MODA (se le puede calcular a cualquier variable)

Se emplea:

ESTOS TRES SON PARA CALCULAR CUÁL ES EL VALOR REPRESENTATIVO

Calcular significatividad del valor representativo

  • Moda:

    library(DescTools)
    Mode(X$VCN)
  • Herfindahl: Concentración de un “x”, qué tan “monopolizada” está la variable, qué tan significativo es

    cosas=table(X$VCN)
    Herfindahl(cosas)
    
    x < 0.01 : indica que la moda no es significativa, las categorias tienen pesos similares.
    
    x < 0.15 : indica que la moda no es significativa, varias categorias tienen pesos similares.
    
    x entre 0.15 y 0.3: hay una moda significativa.
    
    x > 0.3: La moda se diferencia de los demas
  • Representatividad efectiva: Lo/os efectivamente importante/es - Los que poseen mayor representatividad

    1/sum(prop.table(cosas)**2)

    Ejemplos:

    1.242536476 —–> Hay un grupo representativo (la moda es representativa)

    4.10923184 ——> Hay cuatro grupos representativos (la moda es representativa)

Variable categórica ordinal: LA MEDIANA (ante la no existencia de un valor que destaque en sobremanera [no existencia de moda] se busca entonces comprender con mayor complejidad la distribución de la frecuencia)

Se emplean:

El ejemplo más didáctico con el que me he topado para entender la lectura de un boxplot:

La mediana indica hasta qué valor llega el 50% de los valores que han tomado los datos. (Aquí dice que el 50% de los incidentes ocurren de domingo a miercoles) Note los valores 3, 4 y 6. El 3 es el primer cuartil: 25% de las acciones de los serenos se dan de domingo a miercoles. El 4 es la mediana o cuartil 2. El 6 es el cuartil 3: Otro 25% de las acciones de los serenos se dan de viernes a sábado. = http://rpubs.com/EstadisticaCP_unmsm/categoricaExploracion)

Variable numérica: LA MEDIA

Los principales gráficos para entender (explorar) el comportamiento de una variable numérica son:

La asimetría/anormalidad tiende a ser positiva (cola a la derecha) cuando la media es mayor a la mediana. La curva nos indica que los valores más bajos de la variable son los más abundantes. Hay sesgo.

Hay tendencia a la asimetría/anormalidad negativa (cola a la izquierda) cuando la mediana es mayor que la media. La curva indica que los valores mayores de la variable son los más comunes o abundantes. Hay sesgo.

Lo simétrico/normal se da cuando la tabla dibuja una montaña proporcional y cuando la moda, la mediana y la media son iguales.

Se hace el skew* para calcular qué tan sesgado se esta:

library(DescTools)
Skew(X$VN,conf.level = 0.05)

-Si el coeficiente de asimetría es menor que -1 o mayor que 1, la distribución es extremadamente sesgada.

-Si el coeficiente de asimetría se encuentra entre -1 y -0,5 o entre 0,5 y 1, la distribución es moderadamente sesgada.

-Si el coeficiente de asimetría se encuentra entre -0,5 y 0,5, la distribución es aproximadamente sesgada.

Pero bueno, esto es más claro:

  • El Gini junto al Lorenz:

    -Si el gini es 0 hay dispersión (A,B,C,D,E son causa de Z), si el gini es 1 hay concentración (A es causa de Z):

    Gini(X$VN,conf.level=0.95)

    -Si en el Lorenz la curva se acerca a la diagonal hay concentración, si se aleja hay dispersión.

    library(gglorenz) 
    Nah + gglorenz::stat_lorenz(color='red') + geom_abline(linetype = "dashed") + coord_fixed() + labs(x = "% Empresas ordenadas por accidentes causados", y = "% Acumulado de Accidentes", title = "Relación empresa / accidente", caption = "Fuente: MINEM")
  • También se puede usa el Shapiro-wilk (bases de datos pequeñas) o Kolmogorov-Smirnov (bases de datos pequeñas) para probar su normalidad:

    shapiro.test(X$VN)

    Como el p-value (o significancia) es menor que 0.05 se confirma que la variable no se comporta normal (la H0 es que la variable se distribuye de forma normal)