Realizó: Wilmar Andrés Tróchez Andrade

Se realizó una encuesta en clase, donde se tomaron datos de todos los estudiantes y las profesoras del curso.

M<-read.csv("Matriz.csv",sep = ";")
NO <- M$X
PESO <- M$PESO
EDAD <- M$EDAD
ESTATURA <- M$ESTATURA
SEXO <- M$SEXO
EST.CIVIL <- M$EST..CIVIL
REGION <- M$REGIÓN
N.ACAD <- M$NIVEL.ACADÉMICO

Variables en la encuesta: de cada encuestado se recopilaron los siguientes datos

colnames(M)
 [1] "X"               "NOMBRE"          "EDAD"            "PESO"            "ESTATURA"        "ESTRATO"        
 [7] "NIVEL.ACADÉMICO" "X.HNOS"          "SEXO"            "X..HIJOS"        "EST..CIVIL"      "MATRICULADO.S.N"
[13] "REGIÓN"         

Tamaño de muestra: en total se recopilaron datos de 25 personas

length(NO)
[1] 25

Edad de Encuestados: se realizaron dos gráficas, la primera para ver la frecuencia por edades y la segunda ver la distribución de las edades de la muestra.

library(ggplot2)
library(dplyr)
library(scales)
mu<- mutate(M, GRUPO = ifelse(M$EDAD %in% 0:30,"(20,30]-76%",
        ifelse(M$EDAD %in% 31:40, "(30,40]-12%", "(40,50]-12%")))
tedad <- as.data.frame(table(mu$GRUPO))
tedad$fraction = tedad$Freq*100/sum(tedad$Freq)
q <- ggplot()
q+geom_bar(data=M,aes(EDAD,y = (..count..)),stat = "count",fill = "mediumpurple3", size = 4)+
geom_text(data=M,aes(EDAD,y= (..count..), label=(scales::percent((..count..)/sum(..count..)))),stat ="count",colour="black",vjust=-0.25, size = 3)+
theme_bw()+
ggtitle("FRECUENCIA EDAD ENCUESTADOS")+
ylab("Número de casos")+ 
xlab("Edad del encuestado")+
#theme(axis.text.y = element_blank(),
      #axis.ticks.y = element_blank())+
theme(panel.grid=element_blank())+
scale_x_continuous(breaks = round(seq(min(EDAD), max(EDAD), by = 1),1))

p <- ggplot()
p +geom_rect(data = data.frame(xmin=-Inf,xmax=Inf,ymin=-Inf,ymax=Inf),aes(xmin=xmin,xmax=xmax,ymin=ymin,ymax=ymax),fill="steelblue1",alpha=0.5)+
geom_point(data=M,aes(EDAD,X,colour = factor(mu$GRUPO)), size = 4)+
geom_text(data=M,aes(EDAD,X, label = EDAD),hjust = -0.5, size = 3)+
guides(colour=guide_legend(title="Intervalo - Porcentaje"))+
coord_cartesian(xlim = c(20,50))+
coord_cartesian(ylim = c(0,30))+
theme_bw()+
ggtitle("DISTRIBUCION EDAD ENCUESTADOS")+
ylab("Número de casos")+ 
xlab("Edad del encuestado")+
theme(panel.grid=element_blank())+
theme(axis.text=element_blank())+
theme(axis.ticks=element_blank())

Sexo de Encuestados: en la siguiente gráfica se puede apreciar que el número de mujeres encuestadas es superior al de los hombres.

library(ggplot2)
library(scales)
ggplot(data=data.frame(SEXO),aes(x=SEXO))+
geom_bar(aes(y = (..count..)),colour = "black",fill = c("firebrick1","mediumturquoise"),width = .6)+
 #geom_bar(position=position_dodge(0.9), colour="black", stat="identity", width=0.9, , binwidth=0)  
  
  
geom_text(aes(y= (..count..), label=paste0("(",y= (..count..)," / ",scales::percent((..count..)/sum(..count..)),")")),stat ="count",colour="black",vjust=-0.25)+
ggtitle("SEXO")+
ylab("Número de casos")+ 
xlab("Sexo del encuestado")+
scale_x_continuous(breaks=c(1,2), labels=c("Masculino", "Femenino"),expand=c(0.4, 0))+
theme_bw()+
theme(panel.grid=element_blank())

Estado Cívil Encuestados: en la gráfica se evidencia que el 84% de la muestra son solteros.

library(ggplot2)
tablasex <- as.data.frame(table(EST.CIVIL))
dat = data.frame(category=c(1,2), count=tablasex$Freq)
# Add addition columns, needed for drawing with geom_rect.
dat$fraction = dat$count / sum(dat$count)
dat = dat[order(dat$fraction), ]
dat$pos = c(0.92,0.48)
dat$type = c("Casado","Soltero")
#plot
p <- ggplot(dat, aes(x=2, y=fraction, fill=type))+
geom_bar(stat="identity",colour ="black")+
geom_text(aes(y=pos,label=paste0("(",count," / ",(fraction*100),"%)")), stat = "identity")+
xlim(0.5, 2.5)+
coord_polar(theta = "y")+
labs(x=NULL, y=NULL)+
labs(fill="") +
scale_fill_manual(values = c( Casado = "#E69F00", Soltero= "#D55E00"), name="")+
ggtitle("ESTADO CIVIL")+
theme_bw()+
theme(plot.title = element_text(family=c("sans"),size=15),
legend.text=element_text(size=10),
axis.ticks=element_blank(),
axis.text=element_blank(),
axis.title=element_blank(),
panel.grid=element_blank(),
panel.border=element_blank())
 
p

Ciudad de Origen Encuestados: con un total de 19, se observa que la mayoría de los encuestrados proceden de la ciudad de Santiago de Cali.

library(plotly)
tablareg <- as.data.frame(table(REGION))
dat = data.frame(tablareg)
dat$Porcentaje = (dat$Freq / sum(dat$Freq))*100
dat$Ciudad = c("Cali","Popayan","Santander","Pasto","Palmira")  
  
 
p <- plot_ly(dat, labels = ~Ciudad, values = ~Freq, type = 'pie') %>%
  layout(title = 'CIUDAD DE ORIGEN',
         xaxis = list(showgrid = FALSE, zeroline = FALSE, showticklabels = FALSE),
         yaxis = list(showgrid = FALSE, zeroline = FALSE, showticklabels = FALSE))
p

Nivel Académico Encuestados: en la gráfica se observa que el 48% de los encuestados sin estudiantes de posgrado.

library(ggplot2)
library(scales)
ggplot(data=data.frame(N.ACAD),aes(x=N.ACAD))+
geom_bar(aes(y = (..count..)),colour = "black",fill = c("firebrick1","mediumturquoise","azure2"),width = 0.4)+
geom_text(aes(y= (..count..), label=paste0("(",y= (..count..)," / ",scales::percent((..count..)/sum(..count..)),")")),stat ="count",colour="black",vjust = 0, hjust = -0.2)+
ggtitle("NIVEL ACADEMICO")+
xlab(NULL)+ 
ylab("Número de casos")+
ylim(0,15)+
scale_x_continuous(breaks=c(1,2,3), labels=c("Pregrado", "Maestria","Doctorado"))+
coord_flip()+
theme_bw()

Medidas de Tendencia Central - EDAD: se puede observar que la distribución de los datos es asimetrica debido a que la mediana=25 se encuentra algo distante a la media =28.56, tambien se observa que la moda=23 queda justo en el primer quintil.

#Media y Mediana
summary(EDAD)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  21.00   23.00   25.00   28.56   30.00   49.00 
#Moda
library(modeest)
mlv(EDAD, method = "discrete")
Mode (most frequent value): 23 
Bickel's modal skewness: 0.44 
Call: mlv.integer(x = EDAD, method = "discrete") 

Medidas de Dispersión - EDAD: debido a que los datos oscilan entre 21 y el maximo, la dispersión de los datos es alta, se puede evidenciar en el dato de la varianza.

#Varianza
round(var(EDAD),2)
[1] 74.92
#Desviación Estándar
round(sd(EDAD),2)
[1] 8.66
#Coeficiente de Variación
round((sd(EDAD)/28.56)*100,2)
[1] 30.31

Medidas de Tendencia Central - PESO: se observa que la media=67.64 se encuentra por debajo de la mediana=70 y la moda=57 está de nuevo en el primer quintil.

#Media y Mediana
summary(PESO)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  50.00   57.00   70.00   67.64   75.00   98.00 
#Moda
library(modeest)
mlv(PESO, method = "discrete")
Mode (most frequent value): 57 
Bickel's modal skewness: 0.52 
Call: mlv.integer(x = PESO, method = "discrete") 

Medidas de Dispersión - PESO: la varianza tiene un valor muy alto por lo que indica que los datos se encuentran muy dispersos en la muestra.

rr #Varianza round(var(PESO),2)

[1] 156.16

rr #Desviación Estándar round(sd(PESO),2)

[1] 12.5

rr #Coeficiente de Variación round((sd(PESO)/67.64)*100,2)

[1] 18.47

Medidas de Tendencia Central - ESTATURA: la media de estatura de los encuestados se encuentra por encima de la mediana de la muestra, sin embargo, son muy cercanos por lo que tiene una distribución simétrica.

#Media y Mediana
summary(ESTATURA)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  1.520   1.600   1.670   1.677   1.750   1.880 
#Moda
library(modeest)
mlv(ESTATURA, method = "discrete")
Mode (most frequent value): 1.6 
Bickel's modal skewness: 0.4 
Call: mlv.default(x = ESTATURA, method = "discrete") 

Medidas de Dispersión - ESTATURA: la dispersión de los datos es muy baja, por lo que los datos obtenidos en la muestra son homogéneos.

rr #Varianza round(var(ESTATURA),2)

[1] 0.01

rr #Desviación Estándar round(sd(ESTATURA),2)

[1] 0.1

rr #Coeficiente de Variación round((sd(ESTATURA)/1.677)*100,2)

[1] 6.24
