1) Aplique el teorema de Chebyshev a la variable INGLABO e interprete su resultado.

Promedio=1228782

Desviación estándar=3187923

Una desviación

Li=-1959141

Ls=4416706

Del teorema de Chebyshev podemos concluir que si una persona gana más de $4.416.706 pertenece a un 32% de la población.

Dos desvaciones

Li2=-5147064

Ls2=7604629

Del teorema de Chebyshev podemos concluir que si una persona gana más de $7.604629 pertenece a un 5% de la población.

Tres desviaciones

Li3=-8334987

Ls3=10792552

Del teorema de Chebyshev podemos concluir que si una persona gana más de $10.792.552 pertenece a un 1% de la población.

2) Realice una tabla de frecuencias agrupadas de 4 intervalos para la variable P6500 e interprete sus resultados.

##          Class limits     f   rf rf(%)    cf  cf(%)
##     [14850,9606137.5) 12123 0.99 99.29 12123  99.29
##  [9606137.5,19197425)    67 0.01  0.55 12190  99.84
##   [19197425,28788713)    13 0.00  0.11 12203  99.94
##   [28788713,38380000)     7 0.00  0.06 12210 100.00

De la tabla se puede concluir que más de un 90% están agrupados en el primer intervalo, por lo que, recibieron un salario menor a $9.606.137.

3) Presente estadística descriptiva (medida de tendencia central, dispersión, curtosis y asimetría), un gráfico de P6850 e interprete los resultados.

Promedio=43.73838

Moda=48

Desviación estándar=16.93939

Coeficiente de variación=0.387289

Varianza=286.943

Rango=130

Coeficiente de asimetría=-0.05874327

Curtosis=5.140002

Se puede concluir que la mayoría de los valores están concentrados alrededor de la media y hay menos valores atípicos, por lo que, la mayoría de las personas trabajaron entre 43 y 44 horas semanales.

4) Grafique la información de la pregunta P6400 e interprétela.

La mayoría de las personas trabajan o prestan sus servicios en la misma empresa que los contrató.

5) Haga un cruce de variables entre la variable INGLABO (continua) y P6450 (categórica) .

label

variable

P6450

Total

1

2

9

NA

INGLABO

Min / Max

0 / 4.0e+08

0 / 3.8e+07

0 / 7.8e+06

0 / 5.0e+07

0 / 4.0e+08

Med [IQR]

6.8e+05 [4.0e+05;9.0e+05]

1.2e+06 [9.1e+05;2.0e+06]

8.8e+05 [5.2e+05;1.0e+06]

5.0e+05 [2.5e+05;9.0e+05]

9.0e+05 [4.5e+05;1.2e+06]

Mean (std)

8.2e+05 (6.2e+06)

1.9e+06 (2.1e+06)

1.1e+06 (1.1e+06)

8.2e+05 (1.7e+06)

1.2e+06 (3.2e+06)

N (NA)

4288 (443)

9006 (1953)

115 (86)

9741 (2397)

23150 (4879)

Codigo de programacion en R

PRIMER PUNTO

library(readr) Ocupados <- read_delim(“C:/Users/Andres Jurado/OneDrive/Escritorio/UIS/QUINTO SEMESTRE/ESTADISTICA/Enero.csv/Ocupados.CSV”, delim = “;”, escape_double = FALSE, trim_ws = TRUE)

attach(Ocupados)

names(Ocupados)

df=na.omit(Ocupados$INGLABO)

m=mean(df)

m

s=sd(df)

s

li=m-s

ls=m+s

li2=m-2*s

ls2=m+2*s

li3=m-3*s

ls3=m+3*s

SEGUNDO PUNTO

df2=na.omit(Ocupados$P6500)

df2=subset(df2, df2 != 99) ##Si no sabe si recibio

df2=subset(df2, df2 != 98) ##Si recibio pero sabe el monto

df2=subset(df2, df2 != 00) ##Si no recibio dinero en salario

install.packages(“fdth”)

library(fdth)

tabla1=fdt(df2,k=4)

tabla1

TERCER PUNTO

df3=na.omit(Ocupados$P6850)

m2=mean(df3)

df4=data.frame(df3)

frecuencia=table(df4)

moda=names(frecuencia)[which.max(frecuencia)]

sd2=sd(df3)

cv=sd2/m2

varianza=sd2^2

min=min(df3)

max=max(df3)

rango=max-min

install.packages(“moments”)

library(moments)

skewness(df3)

kurtosis(df3)

hist(df3)

CUARTO PUNTO

df5=na.omit(Ocupados$P6400)

as.character(df5)

hist(df5)

QUINTO PUNTO

install.packages(“crosstable”)

library(crosstable)

tabla3 = crosstable(Ocupados, c(INGLABO), by=P6450, total=“both”, percent_pattern=“{n} ({p_row}/{p_col})”, percent_digits=0) %>% as_flextable()

tabla3