Este informe presete un estudio que analizó estadísticamente los datos de una empresa que recopilan distintos factores relacionados con varias áreas. Me diante esto se contabilizaros elementos como el nivel de satisfacción, los tipos de áreas, entre otros.
El objetivo general fue edeterminar el nivel de satisfacción general de los empleados y con base en esto determinar si los empleados estaban conformes o no.
Por medio de las herramientas de estadística descriptiva en este estudio se pudieron determinar distintas medidas de tendencia central de los datos. También, se encontraron patrones y se organizaron los datos.
En primera instancia se importaron los datos que se hallaban en Excel.
datos <- read.xlsx("estadistica.xlsx")
Después de realizar esto se extrayeron los datos que necestibamos para analizar cómo era el salarios de las personas de esta empresa.
salarios <- datos[,11]
Con los datos depurados y adecuadamente extraidos en un vector se realizó una tabla de frecuencia. De esta Será más fácil interpretar los datos y a su vez, visualizarlos.
tabla_salarios <- freq(salarios, cum=TRUE, sort="dec")
Posteriormente se extrageron los datos de las dos primeras columnas para realizar una gráfica de barras que mostrase la frecuencia del tipo de salario. Es decir, la frecuencia del dato cualitativo. Todo esto se organizó también en un data.frame
tipo_salario <- c("Low","Medium","High")
salarito <- tabla_salarios[1:3,1]
organizado_salario <- data.frame(
tipo_salario,
salarito)
Con este data.frame fue posible obtener una gráfica de barras. Esta se muestra acontinuación.
#Diagrama de barras
library(ggplot2)
ggplot(data=organizado_salario, aes(x=tipo_salario, y=salarito))+geom_bar(stat="identity")
Para poder entender mejor toda esta información otra determinación que se tomó en cuenta fue la de crear un gráfico circular. De esta manera sería posible también observar cuál era el porcentaje de empleados que recibía un sueldo bajo, alto o medio.
Para ello se creó un vector que recopilará los porcentajes y junto con los otros parámetros se desarrolló el siguiente gráfico de pastel.
#Realización de un diagrama circular
porcentaje <-tabla_salarios[,2]
etiqueta <-paste(porcentaje,"%",sep=" ")
colores<- c("red","gray","cyan")
pie(porcentaje,labels = etiqueta,clockwise = TRUE,col=colores,
main="Porcentaje de Salarios")
legend("topright",tipo_salario,cex=0.5,fill=colores)
En la siguiente parte del trabajo se desarrlló el análisis de la sección que corresponde a la satisfacción de los empleados.
Los primero que hacemos es cargar los datos en un vector que nos muestré únicamente la satisfacció de los empleados.
satisfacción <- datos[,2]
Para el tratamiento de datos cualitativos es pertinente realizar una tabla de frecuencia con datos agrupados Es por este motivo que se utilizó la regla de Sturges para definir el número de intervalos necesarios para la tabla. Además, para la creación esta tabla también fue necesario obtener el Rango y la Amplitud (w).
n_sturges=1+log(length(satisfacción))/log(2)
n_sturgesc=ceiling(n_sturges)
n_sturgesf=floor(n_sturges)
n_clases =0
if (n_sturges%%2==0){
n_clases=n_sturgesf
} else{
n_clases = n_sturgesc
}
R=max(satisfacción)-min(satisfacción)
w=ceiling(R/n_clases)
Habiendo determinado esto fue posible hacer la tabla de frecuencia con datos agrupados.Y para ello se usó la siguiente lógica.
#Tabla de frecuencia con número de clase
bins<- seq(min(satisfacción), max(satisfacción)+w,by=w)
nivel_satisfacción <- cut(satisfacción,bins)
Tabla_frec <- transform(table(satisfacción),Rel_freq=prop.table(Freq), Cum_Freq=cumsum(Freq))
Tabla_frec
## satisfacción Freq Rel_freq Cum_Freq
## 1 0.09 195 0.013000867 195
## 2 0.1 358 0.023868258 553
## 3 0.11 335 0.022334822 888
## 4 0.12 30 0.002000133 918
## 5 0.13 54 0.003600240 972
## 6 0.14 73 0.004866991 1045
## 7 0.15 76 0.005067004 1121
## 8 0.16 79 0.005267018 1200
## 9 0.17 72 0.004800320 1272
## 10 0.18 63 0.004200280 1335
## 11 0.19 74 0.004933662 1409
## 12 0.2 69 0.004600307 1478
## 13 0.21 67 0.004466964 1545
## 14 0.22 60 0.004000267 1605
## 15 0.23 54 0.003600240 1659
## 16 0.24 80 0.005333689 1739
## 17 0.25 34 0.002266818 1773
## 18 0.26 30 0.002000133 1803
## 19 0.27 30 0.002000133 1833
## 20 0.28 31 0.002066804 1864
## 21 0.29 38 0.002533502 1902
## 22 0.3 39 0.002600173 1941
## 23 0.31 59 0.003933596 2000
## 24 0.32 50 0.003333556 2050
## 25 0.33 36 0.002400160 2086
## 26 0.34 48 0.003200213 2134
## 27 0.35 37 0.002466831 2171
## 28 0.36 139 0.009267284 2310
## 29 0.37 241 0.016067738 2551
## 30 0.38 189 0.012600840 2740
## 31 0.39 175 0.011667444 2915
## 32 0.4 209 0.013934262 3124
## 33 0.41 171 0.011400760 3295
## 34 0.42 155 0.010334022 3450
## 35 0.43 224 0.014934329 3674
## 36 0.44 211 0.014067605 3885
## 37 0.45 203 0.013534236 4088
## 38 0.46 95 0.006333756 4183
## 39 0.47 42 0.002800187 4225
## 40 0.48 149 0.009933996 4374
## 41 0.49 209 0.013934262 4583
## 42 0.5 229 0.015267685 4812
## 43 0.51 187 0.012467498 4999
## 44 0.52 196 0.013067538 5195
## 45 0.53 179 0.011934129 5374
## 46 0.54 185 0.012334156 5559
## 47 0.55 179 0.011934129 5738
## 48 0.56 187 0.012467498 5925
## 49 0.57 210 0.014000933 6135
## 50 0.58 182 0.012134142 6317
## 51 0.59 219 0.014600973 6536
## 52 0.6 193 0.012867525 6729
## 53 0.61 208 0.013867591 6937
## 54 0.62 188 0.012534169 7125
## 55 0.63 209 0.013934262 7334
## 56 0.64 187 0.012467498 7521
## 57 0.65 199 0.013267551 7720
## 58 0.66 228 0.015201013 7948
## 59 0.67 177 0.011800787 8125
## 60 0.68 162 0.010800720 8287
## 61 0.69 209 0.013934262 8496
## 62 0.7 205 0.013667578 8701
## 63 0.71 171 0.011400760 8872
## 64 0.72 230 0.015334356 9102
## 65 0.73 246 0.016401093 9348
## 66 0.74 257 0.017134476 9605
## 67 0.75 226 0.015067671 9831
## 68 0.76 234 0.015601040 10065
## 69 0.77 252 0.016801120 10317
## 70 0.78 241 0.016067738 10558
## 71 0.79 217 0.014467631 10775
## 72 0.8 222 0.014800987 10997
## 73 0.81 220 0.014667645 11217
## 74 0.82 241 0.016067738 11458
## 75 0.83 234 0.015601040 11692
## 76 0.84 247 0.016467765 11939
## 77 0.85 207 0.013800920 12146
## 78 0.86 200 0.013334222 12346
## 79 0.87 225 0.015001000 12571
## 80 0.88 187 0.012467498 12758
## 81 0.89 237 0.015801053 12995
## 82 0.9 220 0.014667645 13215
## 83 0.91 224 0.014934329 13439
## 84 0.92 198 0.013200880 13637
## 85 0.93 169 0.011267418 13806
## 86 0.94 167 0.011134076 13973
## 87 0.95 181 0.012067471 14154
## 88 0.96 203 0.013534236 14357
## 89 0.97 176 0.011734116 14533
## 90 0.98 183 0.012200813 14716
## 91 0.99 172 0.011467431 14888
## 92 1 111 0.007400493 14999
Para un mejor entendimiento de todos estos datos se decidió hacer un histograma. De esta manera podremos analizar las frecuencias respectivas de forma visual y cómoda.
organizado_satisfacción <- data.frame(x=Tabla_frec$satisfacción,y=Tabla_frec$Freq)
ggplot(data= organizado_satisfacción, aes(x=x,y=y))+
geom_bar(stat="identity",color="blue",fill="red")+
xlab("Rango de satisfacción trabajadores")+ ylab("Frecuencia")
También se realizó un Histograma acumulado para poder visualizar la frecuencia acumulada y las marcas de clase.
#Histograma acumulado
Frec_acumulada <- Tabla_frec[,3]
organizado_satisfacción <- data.frame(x=Tabla_frec$satisfacción,y=Tabla_frec$Cum_Freq)
ggplot(data= organizado_satisfacción, aes(x=x,y=y))+
geom_bar(stat="identity",color="blue",fill="red")+
xlab("Rango de satisfacción trabajadores")+ ylab("Frecuencia")
Otra de las gráficas que se hizó fue la de Pareto, que expone la regla de Pareto o la regla del 80%-20%.
También se hizó un diagrama de tallos y hojas para la contabilización de los datos. O más bien, para poder observar más fácilmente la distribución de los mismos.
#Diagrama de tallos y hojas
View(satisfacción)
stem(satisfacción)
##
## The decimal point is 1 digit(s) to the left of the |
##
## 0 | 99999999999999999999999999999999999999999999999999999999999999999999+115
## 1 | 00000000000000000000000000000000000000000000000000000000000000000000+770
## 1 | 55555555555555555555555555555555555555555555555555555555555555555555+284
## 2 | 00000000000000000000000000000000000000000000000000000000000000000000+250
## 2 | 55555555555555555555555555555555556666666666666666666666666666667777+83
## 3 | 00000000000000000000000000000000000000011111111111111111111111111111+152
## 3 | 55555555555555555555555555555555555556666666666666666666666666666666+701
## 4 | 00000000000000000000000000000000000000000000000000000000000000000000+890
## 4 | 55555555555555555555555555555555555555555555555555555555555555555555+618
## 5 | 00000000000000000000000000000000000000000000000000000000000000000000+896
## 5 | 55555555555555555555555555555555555555555555555555555555555555555555+897
## 6 | 00000000000000000000000000000000000000000000000000000000000000000000+905
## 6 | 55555555555555555555555555555555555555555555555555555555555555555555+895
## 7 | 00000000000000000000000000000000000000000000000000000000000000000000+1029
## 7 | 55555555555555555555555555555555555555555555555555555555555555555555+1090
## 8 | 00000000000000000000000000000000000000000000000000000000000000000000+1084
## 8 | 55555555555555555555555555555555555555555555555555555555555555555555+976
## 9 | 00000000000000000000000000000000000000000000000000000000000000000000+898
## 9 | 55555555555555555555555555555555555555555555555555555555555555555555+835
## 10 | 00000000000000000000000000000000000000000000000000000000000000000000+31
Se obtuviron las medidas de tendencian cental para saber cuál era la satisfación más central de los encuestados, es decir, los trabajadores.
#Media
mean(satisfacción)
## [1] 0.6128335
#Mediana
median(satisfacción)
## [1] 0.64
#Moda
moda <- function(x){
return(as.numeric(names(which.max(table(x)))))
}
moda(satisfacción)
## [1] 0.1
#Rango medio
Rango_medio=(max(satisfacción)+min(satisfacción))/2
Rango_medio
## [1] 0.545
Para dividir la información también se determinaron los cuartiles.
#cuartiles
quantile(satisfacción, c(.25, .50, .75))
## 25% 50% 75%
## 0.44 0.64 0.82
Por otro lado, también se obtuvo la varianza, la desviación estándar, el rango, y el rango inter cuartil.
#Varianza
variance <- function (satisfacción) sum((satisfacción-mean(satisfacción))^2)/(length(satisfacción)-1)
variance(satisfacción)
## [1] 0.0618172
#Desviación Estándar
desv=sqrt(variance(satisfacción))
desv
## [1] 0.2486307
#Rango
rango=max(satisfacción)-min(satisfacción)
#Rango intercuartil
IQR(satisfacción)
## [1] 0.38
Por último se realizó un diargama de caja y extensión para observar que tan alejados estaban los datos y así saber si exsitían datos anómalos.
#Diagrama de caja y extensión
boxplot(satisfacción, horizontal=TRUE, main="Diagrama de cajas", col="blue")
A partir de esta informacion se consiguió obtener un analisis detallado de la satisfacción segun las variables cuantitavas y cualitativas. Así se concluyó que la mayoría de los empleados están conformes con el trabajo y que hay una distribución de las salarios desigual.
Se recomienda a la empresa tener en cuenta estos factores para mejorar la conformidad de los empleados.