Texto (ordena la tabla y es pasivo, responde a una categoría)
Categóricas o cualitativas (desviación tií) (estados) (cualidad) (organizar, sistematizar, juntas los tipo texto en tanto y tanto)
B1) Escala Nominal: No orden en la relación (x, y, z); de acuerdo al número de estados la escala nominal puede ser: dicotómica (dos categorías u opciones) o politómica (más de dos). Los gráficos básicos que se pueden realizar para las variables nominales son los diagramas de barras y los gráficos de sectores.
B2) Escala Ordinal: Potencialidad de ser ordenados no numéricamente. Para este tipo de datos también se pueden utilizar los diagramas de barras y los gráficos de sectores, pero existe otro gráfico que resume mejor una variable ordinal, el cual es diagrama de cajas o boxplot
El desarrollo de los problemas (exploración) depende de la escala
Una variable puede tener distintas escalas = depende del investigador y el cómo le sirva a su investigación
head: Da las 6 primeras variables
name: Dame los nombre de las variables con las que se trabaja
str : dime qué cosa se halla en cada columna
int: número entero
summary: Resumen estadístico
Estadísticos de centralización: aquellos valores que más pesan en la distribución de una variable
X = Tu data
VCN = Variable categórica nominal
VCO = Variable categórica ordinal
VN = Variable numérica
GRÁFICOS
library(questionr)
library(magrittr)
Estonoescódigo=freq(X$VCN,total = F,sort = 'dec',exclude = c(NA)) %>% data.frame()
Estonoescódigo=data.frame(variable=row.names(Estonoescódigo),Estonoescódigo,row.names = NULL)
Estonoescódigo
library(ggplot2)
waitforit = ggplot(data=Estonoescódigo,aes(x=variable,y=n))
nombracomodesees = waitforit + geom_bar(stat='identity')
nombracomodesees = nombracomodesees + scale_x_discrete(limits = Estonoescódigo$variable)
nombracomodesees
library(qcc)
pareto.chart(table(X$VCN),cumperc = c(0,50,80,100))
Calcular significatividad del valor representativo
Se le puede calcular a cualquier variable
library(DescTools)
Mode(X$VCN)
cosas=table(X$VCN)
Herfindahl(cosas)
x < 0.01 : indica que la moda no es significativa, las categorias tienen pesos similares.
x < 0.15 : indica que la moda no es significativa, varias categorias tienen pesos similares.
x entre 0.15 y 0.3: hay una moda significativa.
x > 0.3: La moda se diferencia de los demas
Representatividad efectiva: Lo/os efectivamente importante/es - Los que poseen mayor representatividad
1/sum(prop.table(cosas)**2)
Ejemplos:
1.242536476 —–> Hay un grupo representativo (la moda es representativa)
4.10923184 ——> Hay cuatro grupos representativos (la moda es representativa)
GRÁFICOS
AAA=freq(X$VCO,total = F,exclude = c(NA)) %>% data.frame()
AAA=data.frame(variable=row.names(OrdDf),OrdDf,row.names = NULL)
AAA
Tabla de barras
base=ggplot(data = AAA, aes(x=variable, y=n))
was= base + geom_bar(stat = 'identity')
was
Ante la no existencia de un valor que destaque en sobremanera [no existencia de moda] se busca entonces comprender con mayor complejidad la distribución de la frecuencia.
library(DescTools)
Median(X$VCO)
ggplot(X,aes(y=VCO)) + geom_boxplot() + scale_y_discrete(limits=X$VCO)
El ejemplo más didáctico con el que me he topado para entender la lectura de un boxplot:
La mediana indica hasta qué valor llega el 50% de los valores que han tomado los datos. (Aquí dice que el 50% de los incidentes ocurren de domingo a miercoles) Note los valores 3, 4 y 6. El 3 es el primer cuartil: 25% de las acciones de los serenos se dan de domingo a miercoles. El 4 es la mediana o cuartil 2. El 6 es el cuartil 3: Otro 25% de las acciones de los serenos se dan de viernes a sábado. = http://rpubs.com/EstadisticaCP_unmsm/categoricaExploracion)
Los principales gráficos para entender (explorar) el comportamiento de una variable numérica son:
Primero:
unabase=ggplot(X,aes(y=VN))
box=unabase + geom_boxplot() + coord_flip()
box
Segundo:
library(ggplot2)
AJÁ=round(as.vector(summary(X$VN)),2)
box + scale_y_continuous(breaks = AJÁ)
Se emplean los estadígrafos [summary(X$VN)], lo que nos informa cuál es la media/mediana, los cuartíles y lo minímo/máximo.
Para una mayor comprensión se calcula la distancia intercuartílica, los atípicos y su umbral. (acá los cógidos: http://rpubs.com/EstadisticaCP_unmsm/524133)
library(ggplot2)
Nah=ggplot(X,aes(x=VN))
nel= Nah + geom_histogram(bins=7)
nel
La asimetría/anormalidad tiende a ser positiva (cola a la derecha) cuando la media es mayor a la mediana. La curva nos indica que los valores más bajos de la variable son los más abundantes. Hay sesgo.
Hay tendencia a la asimetría/anormalidad negativa (cola a la izquierda) cuando la mediana es mayor que la media. La curva indica que los valores mayores de la variable son los más comunes o abundantes. Hay sesgo.
Lo simétrico/normal se da cuando la tabla dibuja una montaña proporcional y cuando la moda, la mediana y la media son iguales.
Se hace el skew* para calcular qué tan sesgado se esta:
library(DescTools)
Skew(X$VN,conf.level = 0.05)
-Si el coeficiente de asimetría es menor que -1 o mayor que 1, la distribución es extremadamente sesgada.
-Si el coeficiente de asimetría se encuentra entre -1 y -0,5 o entre 0,5 y 1, la distribución es moderadamente sesgada.
-Si el coeficiente de asimetría se encuentra entre -0,5 y 0,5, la distribución es aproximadamente sesgada.
Pero bueno, esto es más claro:
-Si el gini es 0 hay dispersión (A,B,C,D,E son causa de Z), si el gini es 1 hay concentración (A es causa de Z):
Gini(X$VN,conf.level=0.95)
-Si en el Lorenz la curva se acerca a la diagonal hay concentración, si se aleja hay dispersión.
library(gglorenz)
Nah + gglorenz::stat_lorenz(color='red') + geom_abline(linetype = "dashed") + coord_fixed() + labs(x = "% Empresas ordenadas por accidentes causados", y = "% Acumulado de Accidentes", title = "Relación empresa / accidente", caption = "Fuente: MINEM")
shapiro.test(X$VN)
Como el p-value es menor que 0.05 se confirma que la variable no se comporta normal.