CONSIDERACIONES GENERALES

SOBRE LOS TIPOS DE VARIABLES

Texto (ordena la tabla y es pasivo, responde a una categoría)
Categóricas o cualitativas (desviación tií) (estados) (cualidad) (organizar, sistematizar, juntas los tipo texto en tanto y tanto)

B1) Escala Nominal: No orden en la relación (x, y, z); de acuerdo al número de estados la escala nominal puede ser: dicotómica (dos categorías u opciones) o politómica (más de dos). Los gráficos básicos que se pueden realizar para las variables nominales son los diagramas de barras y los gráficos de sectores.

B2) Escala Ordinal: Potencialidad de ser ordenados no numéricamente. Para este tipo de datos también se pueden utilizar los diagramas de barras y los gráficos de sectores, pero existe otro gráfico que resume mejor una variable ordinal, el cual es diagrama de cajas o boxplot

Númericas o cuantitativas (dispersión típica) (magnitudes) (numéricos) (operaciones aritmeticas) C1) Escala discreta: Conteo (número de hijos, etc) (numéros enteros) C2) Escala continua: Medición (temperatura, peso, etc.) (números enteros o fracciones)

SOBRE ESCALAS DE MEDICIÓN

El desarrollo de los problemas (exploración) depende de la escala

Una variable puede tener distintas escalas = depende del investigador y el cómo le sirva a su investigación

head: Da las 6 primeras variables
name: Dame los nombre de las variables con las que se trabaja
str : dime qué cosa se halla en cada columna
int: número entero
summary: Resumen estadístico

VARIABLES CATEGÓRICA NOMINAL

Estadísticos de centralización: aquellos valores que más pesan en la distribución de una variable

X = Tu data

VCN = Variable categórica nominal

VCO = Variable categórica ordinal

VN = Variable numérica

GRÁFICOS

Tabla de frecuencias

library(questionr)
library(magrittr)

Estonoescódigo=freq(X$VCN,total = F,sort = 'dec',exclude = c(NA)) %>% data.frame()
Estonoescódigo=data.frame(variable=row.names(Estonoescódigo),Estonoescódigo,row.names = NULL)

Estonoescódigo

Tabla de barras (esta última se realiza usando la tabla de frecuencias como base)

library(ggplot2)

waitforit = ggplot(data=Estonoescódigo,aes(x=variable,y=n)) 
nombracomodesees = waitforit + geom_bar(stat='identity')
nombracomodesees = nombracomodesees + scale_x_discrete(limits = Estonoescódigo$variable)

nombracomodesees

Pareto chart (nos indica el porcentaje acumulado)

library(qcc)
pareto.chart(table(X$VCN),cumperc = c(0,50,80,100))

Calcular significatividad del valor representativo

Moda:

Se le puede calcular a cualquier variable

library(DescTools)
Mode(X$VCN)

Herfindahl: Concentración de un “x”, qué tan “monopolizada” está la variable, qué tan significativo es

cosas=table(X$VCN)
Herfindahl(cosas)

x < 0.01 : indica que la moda no es significativa, las categorias tienen pesos similares.

x < 0.15 : indica que la moda no es significativa, varias categorias tienen pesos similares.

x entre 0.15 y 0.3: hay una moda significativa.

x > 0.3: La moda se diferencia de los demas
Representatividad efectiva: Lo/os efectivamente importante/es - Los que poseen mayor representatividad

1/sum(prop.table(cosas)**2)

Ejemplos:

1.242536476 —–> Hay un grupo representativo (la moda es representativa)

4.10923184 ——> Hay cuatro grupos representativos (la moda es representativa)

VARIABLE CATEGÓRICA ORDINAL

GRÁFICOS

Tablas de frecuencia

AAA=freq(X$VCO,total = F,exclude = c(NA)) %>% data.frame()
AAA=data.frame(variable=row.names(OrdDf),OrdDf,row.names = NULL)

AAA
Tabla de barras

base=ggplot(data = AAA, aes(x=variable, y=n))

was= base + geom_bar(stat = 'identity')

was

Mediana:

Ante la no existencia de un valor que destaque en sobremanera [no existencia de moda] se busca entonces comprender con mayor complejidad la distribución de la frecuencia.

library(DescTools)
Median(X$VCO)

Boxplot (este es el efectivamente importante)

ggplot(X,aes(y=VCO)) + geom_boxplot() + scale_y_discrete(limits=X$VCO)

El ejemplo más didáctico con el que me he topado para entender la lectura de un boxplot:

La mediana indica hasta qué valor llega el 50% de los valores que han tomado los datos. (Aquí dice que el 50% de los incidentes ocurren de domingo a miercoles) Note los valores 3, 4 y 6. El 3 es el primer cuartil: 25% de las acciones de los serenos se dan de domingo a miercoles. El 4 es la mediana o cuartil 2. El 6 es el cuartil 3: Otro 25% de las acciones de los serenos se dan de viernes a sábado. = http://rpubs.com/EstadisticaCP_unmsm/categoricaExploracion)

VARIABLE NUMÉRICA

Los principales gráficos para entender (explorar) el comportamiento de una variable numérica son:

El boxplot (¿hay atípicos?):

Primero:

unabase=ggplot(X,aes(y=VN))
box=unabase + geom_boxplot() + coord_flip()

box

Segundo: 

library(ggplot2)

AJÁ=round(as.vector(summary(X$VN)),2)

box + scale_y_continuous(breaks = AJÁ)

Se emplean los estadígrafos [summary(X$VN)], lo que nos informa cuál es la media/mediana, los cuartíles y lo minímo/máximo.

Para una mayor comprensión se calcula la distancia intercuartílica, los atípicos y su umbral. (acá los cógidos: http://rpubs.com/EstadisticaCP_unmsm/524133)

El histograma : Se busca comprobar si hay sesgo

library(ggplot2)
Nah=ggplot(X,aes(x=VN))
nel= Nah + geom_histogram(bins=7) 

nel

La asimetría/anormalidad tiende a ser positiva (cola a la derecha) cuando la media es mayor a la mediana. La curva nos indica que los valores más bajos de la variable son los más abundantes. Hay sesgo.

Hay tendencia a la asimetría/anormalidad negativa (cola a la izquierda) cuando la mediana es mayor que la media. La curva indica que los valores mayores de la variable son los más comunes o abundantes. Hay sesgo.

Lo simétrico/normal se da cuando la tabla dibuja una montaña proporcional y cuando la moda, la mediana y la media son iguales.

Se hace el skew* para calcular qué tan sesgado se esta:

library(DescTools)
Skew(X$VN,conf.level = 0.05)

-Si el coeficiente de asimetría es menor que -1 o mayor que 1, la distribución es extremadamente sesgada.

-Si el coeficiente de asimetría se encuentra entre -1 y -0,5 o entre 0,5 y 1, la distribución es moderadamente sesgada.

-Si el coeficiente de asimetría se encuentra entre -0,5 y 0,5, la distribución es aproximadamente sesgada.

Pero bueno, esto es más claro:

El Gini junto al Lorenz:

-Si el gini es 0 hay dispersión (A,B,C,D,E son causa de Z), si el gini es 1 hay concentración (A es causa de Z):

Gini(X$VN,conf.level=0.95)

-Si en el Lorenz la curva se acerca a la diagonal hay concentración, si se aleja hay dispersión.

library(gglorenz) 
Nah + gglorenz::stat_lorenz(color='red') + geom_abline(linetype = "dashed") + coord_fixed() + labs(x = "% Empresas ordenadas por accidentes causados", y = "% Acumulado de Accidentes", title = "Relación empresa / accidente", caption = "Fuente: MINEM")

También se puede usa el Shapiro-wilk:

shapiro.test(X$VN)

Como el p-value es menor que 0.05 se confirma que la variable no se comporta normal.