#Integrantes del Grupo

#Roberto Alexander Escobar Polío

#María De Los Ángeles Morán Arteaga

#Andrea Marisol Sosa Guzmán

#José Ernesto Castro Gonzales

#Katya Michelle Palacios paz

#Andrea Carolina Reyes Salazar

#Donal Antonio Monroy Castellón

Parte 1 Análisis descriptivo correlacional

#{r eval=FALSE} installed.packages(“readxl”) #{r} library(readxl) #Carga el paquete readxl que contiene la función read_excel para leer el archivo de excel que contiene la base de datos

bb=read_excel(“C:/Users/Ileana Santillana M/Downloads/Ahuachapan/Ahuachapan Variables seleccionadas de la EHPM 2019.xlsx”, sheet = 1) bb #Observamos la base de datos en R View(bb) #Visualizamos la base de datos en formato de tabla en R names(bb) #Nombres de las variables en la base de datos

1- Histogramas

#Histograma de gasto de hogar en educación hist(bb$Gasto del hogar en educación, main = “Histograma de gasto de hogar en educación”, xlab = “gasto de hogar en educación”, ylab = “Frecuencia”, col = “lightblue”, breaks = 10, labels = TRUE)

#Histograma de Gasto del hogar en alimentos hist(bb$Gasto del hogar en alimentos , main = “Histograma de Gasto del hogar en alimentos”, xlab = “Gasto del hogar en alimentos”, ylab = “Frecuencia”, col = “Green”, breaks = 10, labels = TRUE)

2- Gráfico de barras de Gasto del hogar en salud

nm=table(bb$Gasto del hogar en salud) nm

pn=round(prop.table(nm)*100, 2) pn

barplot(pn, main=“Gráfico de barras de Gasto del hogar en salud”, xlab=“Gasto del hogar en salud”, ylab = “Porcentajes”, col = rainbow(n), legend.text = rownames(pn))

3- Gráfico de barras de tipo de combustible que usa el autobus

fr <- table(bb$Tipo de seguro médico) fr

pr=round(prop.table(fr)*100, 2) pr

barplot(pr, main=“Gráfico de barras de barras de tipo de Tipo de seguro médico”, xlab=” Tipo de seguro médico”, ylab = “Porcentajes”, ylim = c(0, 70), col = rainbow(n), legend.text = rownames(pr))

4- Grafico de Pastel de Segmentación del mercado laboral urbano

fv <- table(bb$Segmentación del mercado laboral urbano) fv

pv=round(prop.table(fv)*100, 2) pv

names(pv) = c(“Inactivo”, “formal”, “Informal”, “servicio domestico”, “nunca ha trabajado”, “sin edad para trabajar”, “desocupado”) n <- length(pv) hoja <- data.frame(pv) etiq <- c(paste(hoja$Var1, "-", hoja$Freq)) pie(pv, main=“Gráfico de pastel de Segmentación del mercado laboral urbano”, xlab=“Tipos de Segmentación del mercado laboral urbano”, labels=etiq, col=rainbow(n), border=TRUE)

5- Tabla de contingencia de las variables cualitativas Tipo de seguro médico y Segmentación del mercado laboral urbano

tablaRazonForma=table(bb$`Tipo de seguro médico`, bb$Segmentación del mercado laboral urbano) tablaRazonForma

6- Analisis de Correlación

bc=bb[,5:7] #Creamos una base de datos con tres variables cuantitativas bc View(bc) #Visualizamos la base de datos en formato de tabla dentro de RStudio

#Se realiza un análisis de correlación: pairs(bc, col = c(“black”, “red”, “green”)) #Matriz de diagramas de dispersión con las tres variables cuantitativas cor(bc, use = “complete.obs”) #Matriz de correlaciones

## 7- Análisis de regresión lineal simple

regresion <- lm(bc$`Gasto del hogar en alimentos` ~ bc$Gasto del hogar en ropa, data = bc, na.action = na.omit) summary(regresion)

#``{r} plot(bc$Gasto del hogar en ropa, bc$Gasto del hogar en alimentos`, xlab=“Gasto del hogar en ropa”, ylab=“Gasto del hogar en alimentos”, col = rainbow(2)) #Diagrama de dispersión entre las variables abline( regresion, col = “black”) #añadir la recta al gráfico

Parte 2 Elaboración de Distribuciones de Probabilidad

Distribución binomial

La probabilidad de que cierto jugador de basket enceste un triple es de 43%. Si en un determinado partido este jugador intenta 10 triples, cual sería la probabilidad de que enceste 1,2,3,4 hasta los 10 triples. Con una distribución binomial:

#Sea X= Numero de veces que cae un 6

n=10 #Tamaño de la muestra

p=0.43 #Probabilidad de éxito

x=c(1, 2, 3, 4, 5, 6,7,8,9,10) #Valores que toma la variable aleatoria binomial x

pb=dbinom(x, n, p) #Distribución de probabilidad de la variable binomial pb

plot(x, pb, type=“l”, main = “Distribución de probabilidad de la variable X binomial”, col= “black”, lwd=2.0 ) #Grafico pb

pab=pbinom(x, n, p) #Distribución de probabilidad acumulada de la variable binomial pab

plot(x, pab, type=“l”, main = “Distribucion de probabilidad acumulada de la variable X binomial”, col= “black”, lwd=2.0) #Grafico pab

Distribución de Poisson

Imaginémonos que en una de las oficinas de Teleperformance reciben en promedio alrededor de unas 50 llamadas por hora. Para encontrar la distribución de probabilidad de esta variable aleatoria sería:

#Sea X=número de llamadas que Teleperformance recibe en una determinada hora.

l=50 #número aproximado de llamadas que se reciben en Teleperformance en un determinada oficina a cierta hora (Lambda)

x=c(0:70) #Valores que toma la variable de Poisson: X=0, 1, 2, 3, 4, … x

pp=dpois(x,l) #Distribución de probabilidad de la variable de Poisson pp

plot(x, pp, type=“l”, main = “Distribución de probabilidad de la variable X de poisson”, col= “black”, lwd=2.0 ) #Grafico pp

pap=ppois(x, l) #Distribución de probabilidad acumulada de la variable de Poisson pap

plot(x, pap, type=“l”, main = “Distribucion de probabilidad acumulada de la variable X de poisson”, col= “black”, lwd=2.0) #Grafico pap

Distribución Normal

En una empresa de El Salvador, el saldo promedio es de 800 dólares y tiene una desviación estándar de 200 dólares. Estos datos siguen una distribución normal.

mu=800 #Media de la variable normal sd=200 #Desviación estándar de la variable normal x=rnorm(1:1000, mu, sd) #Genera un vector de valores aleatorios provenientes de una distribución normal con parámetros mu=800, y sd=200. pnr=dnorm(x, mu, sd) #Obtiene un vector de valores de densidad que caen sobre la curva normal plot(x, pnr, main = “Curva normal de la variable aleatoria X”, col= “red” ) #Dibuja la curva normal

Grafico de la probabilidad asociada al valor de z<-0.5 [P(x<700)] (Probabilidad de que el salario de un determinado empleado sea 700)

z1=(700-mu)/sd #Estandarizamos el valor de la variable z1

#Grafico cord.x=c(-3, seq(-3, z1, 0.01), z1) cord.y=c(0, dnorm(seq(-3, z1, 0.01)), 0) curve(dnorm(x, 0, 1), xlim = c(-3, 3), main=“Normal estandar”, xlab = “Z”) polygon(cord.x, cord.y, col=“#3357FF”) area=pnorm(z1, 0, 1) area result=paste(“P(Z<”, z1, “)=”, signif(area, digits = 4)) mtext(result, 3)

Grafico del área en el intervalo z1=-1.5 <Z < z2=0.5 [P(500<X<900)] (Probabilidad de que el salario de un empleado esté entre 500 y 900 dólares)

z1=(500-mu)/sd #Estandarizamos el valor del límite inferior del intervalo z1

z2=(900-mu)/sd #Estandarizamos el valor del límite superior del intervalo z2

#Grafico cord.x=c(z1, seq(z1, z2, 0.01), z2) cord.y=c(0, dnorm(seq(z1, z2, 0.01)), 0) curve(dnorm(x, 0, 1), xlim = c(-3, 3), main=“Normal estandar”, xlab = “Z”) polygon(cord.x, cord.y, col=“#3357FF”) area=pnorm(z2, 0, 1)-pnorm(z1, 0, 1) area result=paste(“P(”, z1, “< Z <”, z2, “)=”, signif(area, digits = 4)) mtext(result, 3)

Grafico de la probabilidad asociada al valor de z>=-0.5 [P(x>700)] (Probabilidad de que el salario de un empleado sea mayor a 700)