Estadística

Métodología

Tratamiento de datos cualitativos

En primera instancia se importaron los datos que se hallaban en Excel.

datos <- read.xlsx("estadistica.xlsx")

Después de realizar esto se extrayeron los datos que necestibamos para analizar cómo era el salarios de las personas de esta empresa.

salarios <- datos[,11]

Con los datos depurados y adecuadamente extraidos en un vector se realizó una tabla de frecuencia. De esta Será más fácil interpretar los datos y a su vez, visualizarlos.

tabla_salarios <- freq(salarios, cum=TRUE, sort="dec")

Posteriormente se extrageron los datos de las dos primeras columnas para realizar una gráfica de barras que mostrase la frecuencia del tipo de salario. Es decir, la frecuencia del dato cualitativo. Todo esto se organizó también en un data.frame

tipo_salario <- c("Low","Medium","High")
salarito <- tabla_salarios[1:3,1]

organizado_salario <- data.frame(
  tipo_salario,
  salarito)

Con este data.frame fue posible obtener una gráfica de barras. Esta se muestra acontinuación.

#Diagrama de barras 
library(ggplot2)
ggplot(data=organizado_salario, aes(x=tipo_salario, y=salarito))+geom_bar(stat="identity")

Para poder entender mejor toda esta información otra determinación que se tomó en cuenta fue la de crear un gráfico circular. De esta manera sería posible también observar cuál era el porcentaje de empleados que recibía un sueldo bajo, alto o medio.

Para ello se creó un vector que recopilará los porcentajes y junto con los otros parámetros se desarrolló el siguiente gráfico de pastel.

#Realización de un diagrama circular 
porcentaje <-tabla_salarios[,2]
etiqueta <-paste(porcentaje,"%",sep=" ")
colores<- c("red","gray","cyan")
pie(porcentaje,labels = etiqueta,clockwise = TRUE,col=colores,
    main="Porcentaje de Salarios")
legend("topright",tipo_salario,cex=0.5,fill=colores)

Tratamiento de datos cuantitativos

En la siguiente parte del trabajo se desarrlló el análisis de la sección que corresponde a la satisfacción de los empleados.

Los primero que hacemos es cargar los datos en un vector que nos muestré únicamente la satisfacció de los empleados.

satisfacción <- datos[,2]

Para el tratamiento de datos cualitativos es pertinente realizar una tabla de frecuencia con datos agrupados Es por este motivo que se utilizó la regla de Sturges para definir el número de intervalos necesarios para la tabla. Además, para la creación esta tabla también fue necesario obtener el Rango y la Amplitud (w).

n_sturges=1+log(length(satisfacción))/log(2)
n_sturgesc=ceiling(n_sturges)
n_sturgesf=floor(n_sturges)

n_clases =0
if (n_sturges%%2==0){
  n_clases=n_sturgesf
} else{
  n_clases = n_sturgesc
}
R=max(satisfacción)-min(satisfacción)
w=ceiling(R/n_clases)

Habiendo determinado esto fue posible hacer la tabla de frecuencia con datos agrupados.Y para ello se usó la siguiente lógica.

#Tabla de frecuencia con número de clase 
bins<- seq(min(satisfacción), max(satisfacción)+w,by=w)

nivel_satisfacción <- cut(satisfacción,bins)
Tabla_frec <- transform(table(satisfacción),Rel_freq=prop.table(Freq), Cum_Freq=cumsum(Freq))
Tabla_frec

##    satisfacción Freq    Rel_freq Cum_Freq
## 1          0.09  195 0.013000867      195
## 2           0.1  358 0.023868258      553
## 3          0.11  335 0.022334822      888
## 4          0.12   30 0.002000133      918
## 5          0.13   54 0.003600240      972
## 6          0.14   73 0.004866991     1045
## 7          0.15   76 0.005067004     1121
## 8          0.16   79 0.005267018     1200
## 9          0.17   72 0.004800320     1272
## 10         0.18   63 0.004200280     1335
## 11         0.19   74 0.004933662     1409
## 12          0.2   69 0.004600307     1478
## 13         0.21   67 0.004466964     1545
## 14         0.22   60 0.004000267     1605
## 15         0.23   54 0.003600240     1659
## 16         0.24   80 0.005333689     1739
## 17         0.25   34 0.002266818     1773
## 18         0.26   30 0.002000133     1803
## 19         0.27   30 0.002000133     1833
## 20         0.28   31 0.002066804     1864
## 21         0.29   38 0.002533502     1902
## 22          0.3   39 0.002600173     1941
## 23         0.31   59 0.003933596     2000
## 24         0.32   50 0.003333556     2050
## 25         0.33   36 0.002400160     2086
## 26         0.34   48 0.003200213     2134
## 27         0.35   37 0.002466831     2171
## 28         0.36  139 0.009267284     2310
## 29         0.37  241 0.016067738     2551
## 30         0.38  189 0.012600840     2740
## 31         0.39  175 0.011667444     2915
## 32          0.4  209 0.013934262     3124
## 33         0.41  171 0.011400760     3295
## 34         0.42  155 0.010334022     3450
## 35         0.43  224 0.014934329     3674
## 36         0.44  211 0.014067605     3885
## 37         0.45  203 0.013534236     4088
## 38         0.46   95 0.006333756     4183
## 39         0.47   42 0.002800187     4225
## 40         0.48  149 0.009933996     4374
## 41         0.49  209 0.013934262     4583
## 42          0.5  229 0.015267685     4812
## 43         0.51  187 0.012467498     4999
## 44         0.52  196 0.013067538     5195
## 45         0.53  179 0.011934129     5374
## 46         0.54  185 0.012334156     5559
## 47         0.55  179 0.011934129     5738
## 48         0.56  187 0.012467498     5925
## 49         0.57  210 0.014000933     6135
## 50         0.58  182 0.012134142     6317
## 51         0.59  219 0.014600973     6536
## 52          0.6  193 0.012867525     6729
## 53         0.61  208 0.013867591     6937
## 54         0.62  188 0.012534169     7125
## 55         0.63  209 0.013934262     7334
## 56         0.64  187 0.012467498     7521
## 57         0.65  199 0.013267551     7720
## 58         0.66  228 0.015201013     7948
## 59         0.67  177 0.011800787     8125
## 60         0.68  162 0.010800720     8287
## 61         0.69  209 0.013934262     8496
## 62          0.7  205 0.013667578     8701
## 63         0.71  171 0.011400760     8872
## 64         0.72  230 0.015334356     9102
## 65         0.73  246 0.016401093     9348
## 66         0.74  257 0.017134476     9605
## 67         0.75  226 0.015067671     9831
## 68         0.76  234 0.015601040    10065
## 69         0.77  252 0.016801120    10317
## 70         0.78  241 0.016067738    10558
## 71         0.79  217 0.014467631    10775
## 72          0.8  222 0.014800987    10997
## 73         0.81  220 0.014667645    11217
## 74         0.82  241 0.016067738    11458
## 75         0.83  234 0.015601040    11692
## 76         0.84  247 0.016467765    11939
## 77         0.85  207 0.013800920    12146
## 78         0.86  200 0.013334222    12346
## 79         0.87  225 0.015001000    12571
## 80         0.88  187 0.012467498    12758
## 81         0.89  237 0.015801053    12995
## 82          0.9  220 0.014667645    13215
## 83         0.91  224 0.014934329    13439
## 84         0.92  198 0.013200880    13637
## 85         0.93  169 0.011267418    13806
## 86         0.94  167 0.011134076    13973
## 87         0.95  181 0.012067471    14154
## 88         0.96  203 0.013534236    14357
## 89         0.97  176 0.011734116    14533
## 90         0.98  183 0.012200813    14716
## 91         0.99  172 0.011467431    14888
## 92            1  111 0.007400493    14999

Para un mejor entendimiento de todos estos datos se decidió hacer un histograma. De esta manera podremos analizar las frecuencias respectivas de forma visual y cómoda.

organizado_satisfacción <- data.frame(x=Tabla_frec$satisfacción,y=Tabla_frec$Freq)

ggplot(data= organizado_satisfacción, aes(x=x,y=y))+
  geom_bar(stat="identity",color="blue",fill="red")+
  xlab("Rango de satisfacción trabajadores")+ ylab("Frecuencia")

También se realizó un Histograma acumulado para poder visualizar la frecuencia acumulada y las marcas de clase.

#Histograma acumulado 
Frec_acumulada <- Tabla_frec[,3]

organizado_satisfacción <- data.frame(x=Tabla_frec$satisfacción,y=Tabla_frec$Cum_Freq)

ggplot(data= organizado_satisfacción, aes(x=x,y=y))+
  geom_bar(stat="identity",color="blue",fill="red")+
  xlab("Rango de satisfacción trabajadores")+ ylab("Frecuencia")

Otra de las gráficas que se hizó fue la de Pareto, que expone la regla de Pareto o la regla del 80%-20%.

También se hizó un diagrama de tallos y hojas para la contabilización de los datos. O más bien, para poder observar más fácilmente la distribución de los mismos.

#Diagrama de tallos y hojas 
View(satisfacción)
stem(satisfacción)

## 
##   The decimal point is 1 digit(s) to the left of the |
## 
##    0 | 99999999999999999999999999999999999999999999999999999999999999999999+115
##    1 | 00000000000000000000000000000000000000000000000000000000000000000000+770
##    1 | 55555555555555555555555555555555555555555555555555555555555555555555+284
##    2 | 00000000000000000000000000000000000000000000000000000000000000000000+250
##    2 | 55555555555555555555555555555555556666666666666666666666666666667777+83
##    3 | 00000000000000000000000000000000000000011111111111111111111111111111+152
##    3 | 55555555555555555555555555555555555556666666666666666666666666666666+701
##    4 | 00000000000000000000000000000000000000000000000000000000000000000000+890
##    4 | 55555555555555555555555555555555555555555555555555555555555555555555+618
##    5 | 00000000000000000000000000000000000000000000000000000000000000000000+896
##    5 | 55555555555555555555555555555555555555555555555555555555555555555555+897
##    6 | 00000000000000000000000000000000000000000000000000000000000000000000+905
##    6 | 55555555555555555555555555555555555555555555555555555555555555555555+895
##    7 | 00000000000000000000000000000000000000000000000000000000000000000000+1029
##    7 | 55555555555555555555555555555555555555555555555555555555555555555555+1090
##    8 | 00000000000000000000000000000000000000000000000000000000000000000000+1084
##    8 | 55555555555555555555555555555555555555555555555555555555555555555555+976
##    9 | 00000000000000000000000000000000000000000000000000000000000000000000+898
##    9 | 55555555555555555555555555555555555555555555555555555555555555555555+835
##   10 | 00000000000000000000000000000000000000000000000000000000000000000000+31

Se obtuviron las medidas de tendencian cental para saber cuál era la satisfación más central de los encuestados, es decir, los trabajadores.

#Media 
mean(satisfacción)

## [1] 0.6128335

#Mediana
median(satisfacción)

## [1] 0.64

#Moda
moda <- function(x){
  return(as.numeric(names(which.max(table(x)))))
}
moda(satisfacción)

## [1] 0.1

#Rango medio
Rango_medio=(max(satisfacción)+min(satisfacción))/2
Rango_medio

## [1] 0.545

Para dividir la información también se determinaron los cuartiles.

#cuartiles
quantile(satisfacción, c(.25, .50, .75))

##  25%  50%  75% 
## 0.44 0.64 0.82

Por otro lado, también se obtuvo la varianza, la desviación estándar, el rango, y el rango inter cuartil.

#Varianza 
variance <- function (satisfacción) sum((satisfacción-mean(satisfacción))^2)/(length(satisfacción)-1)
variance(satisfacción)

## [1] 0.0618172

#Desviación Estándar
desv=sqrt(variance(satisfacción))
desv

## [1] 0.2486307

#Rango
rango=max(satisfacción)-min(satisfacción)

#Rango intercuartil
IQR(satisfacción)

## [1] 0.38

Por último se realizó un diargama de caja y extensión para observar que tan alejados estaban los datos y así saber si exsitían datos anómalos.

#Diagrama de caja y extensión 
boxplot(satisfacción, horizontal=TRUE, main="Diagrama de cajas", col="blue")

Estadística

Daniel Rivera y Danna Patiño

2022-09-04

Informe de estadística - Primer corte

Resumen

Métodología

Tratamiento de datos cualitativos

Tratamiento de datos cuantitativos

Resultados y conclusión