Durante la clase de Seminario de Construcciones se realizó una encuesta a las personas que han estado en el salon de clase. En total, han sido 25 las personas encuestadas (hasta el dia 9 de marzo del 2018). A cada una de las personas se le preguntó la siguiente información:
M2<-read.csv("Matriz2.csv")
library(ggplot2)
library(scales)
library(data.table)
package <U+393C><U+3E31>data.table<U+393C><U+3E32> was built under R version 3.4.4data.table 1.11.0
The fastest way to learn (by data.table authors): https://www.datacamp.com/courses/data-analysis-the-data-table-way
Documentation: ?data.table, example(data.table) and browseVignettes("data.table")
Release notes, videos and slides: http://r-datatable.com
names(M2)
[1] "NOMBRE" "EDAD" "PESO"
[4] "ESTATURA" "ESTRATO" "NIVEL.ACADEMICO"
[7] "HERMANOS" "SEXO" "HIJOS"
[10] "CIVIL" "MATRICULADO" "REGION"
El nivel académico consiste en si es de pregrado, maestria o doctorado y la region consiste en su lugar de procedencia (según el departamento donde nació).
La muestra esta distribuida de la siguiente manera entre hombres y mujeres:
#sexo<-M2$SEXO
#sexo<-as.factor(sexo)
#levels(sexo)<-c("Hombres","Mujeres")
#dat_sexo<-table(sexo)
#barplot(dat_sexo,main = "Hombres y mujeres encuestados.",
# ylab="# de personas", col=c("blue","pink"))
sexo<-as.data.frame(prop.table(table(M2$SEXO))*100)
colnames(sexo)<-c("Sexo", "PORCENTAJE")
s.n<-c("1", "2")
ggplot(sexo, aes(x = Sexo, y = PORCENTAJE)) + geom_bar(stat = "identity", width = 0.8, fill =c("blue", "pink")) + theme(legend.position = "right", legend.background = element_rect(fill = "white", size = 0.5, linetype = "solid", colour = "darkgrey")) + ggtitle("Hombres y mujeres encuestados") + xlab("") + ylab("%") + theme(plot.title = element_text(hjust = 0.5)) + geom_text(aes(y = PORCENTAJE, label = paste(round(PORCENTAJE, 2), "%")), position = position_dodge(width = 0.5), size=4, vjust=-0.5, hjust=0.5 ,col="black") + scale_x_discrete(breaks = s.n, labels = c("Hombres", "Mujeres")) + scale_y_continuous(breaks = seq(0, 60, by = 5), limits = c(0,60))

Históricamente la Ingenieria Civil ha sido una profesión en que la gran mayoria de personas que la estudian y ejercen son del género masculino, y observar esta distribución en el curso muestra un cambio enorme con respecto a lo que sucedia años atrás.
La distribución por edades es la siguiente:
#edad<-M2$EDAD
#edad<-as.factor(edad)
#dat_edad<-table(edad)
#barplot(dat_edad,main = "Edades de los encuestados.",
# xlab="Edad", ylab="# de personas", col="gray")
edad<-as.data.frame(prop.table(table(M2$EDAD))*100)
colnames(edad)<-c("Edad", "PORCENTAJE")
e.n<-c("21", "22", "23", "24", "25", "26", "27", "28", "30", "31", "37", "40", "47", "48", "49")
ggplot(edad, aes(x = Edad, y = PORCENTAJE)) + geom_bar(stat = "identity", width = 0.8) + theme(legend.position = "right", legend.background = element_rect(fill = "white", size = 0.5, linetype = "solid", colour = "darkgrey")) + ggtitle("Edades de los encuestados") + xlab("") + ylab("%") + theme(plot.title = element_text(hjust = 0.5)) + geom_text(aes(y = PORCENTAJE, label = paste(round(PORCENTAJE, 2), "%")), position = position_dodge(width = 0.5), size=4, vjust=-0.5, hjust=0.5 ,col="black") + scale_x_discrete(breaks = e.n, labels = c("21", "22", "23", "24", "25", "26", "27", "28", "30", "31", "37", "40", "47", "48", "49")) + scale_y_continuous(breaks = seq(0, 20, by = 5), limits = c(0,20))

Tambien lo podemos observar de la siguiente manera:
por_edad<-M2$EDAD
por_edad<-as.factor(por_edad)
total<-length(por_edad)
porcent<-summary(por_edad)
porcent2<-100*porcent/total
label1<-paste(levels(por_edad),"años",sep=" ")
label2<-paste(label1,"(",sep="")
label3<-paste(label2,porcent2,sep="")
label4<-paste(label3,"%",sep="")
label<-paste(label4,")",sep="")
dat_poredad<-table(por_edad)
pie(dat_poredad,sub = "Edades de los encuestados.",
labels=label,
col=c("blueviolet","darkgoldenrod1","salmon","bisque1","blue","darkolivegreen1","coral","midnightblue","pink","orange","seagreen","aquamarine","yellow","green","red"), clockwise=TRUE,radius=1.08)

La distribución de personas solteras y casadas es la siguiente:
#EstCivil<-M2$CIVIL
#EstCivil<-as.factor(EstCivil)
#levels(EstCivil)<-c("Solteros","Casados")
#dat_EstCivil<-table(EstCivil)
#barplot(dat_EstCivil,main = "Cantidad de solteros y casados.",
# ylab="# de personas", col=c("green","red"))
#box()
EstCivil<-as.data.frame(prop.table(table(M2$SEXO))*100)
colnames(EstCivil)<-c("EstadoCivil", "PORCENTAJE")
s.n<-c("1", "2")
ggplot(EstCivil, aes(x = EstadoCivil, y = PORCENTAJE)) + geom_bar(stat = "identity", width = 0.8, fill =c("green", "red")) + theme(legend.position = "right", legend.background = element_rect(fill = "white", size = 0.5, linetype = "solid", colour = "darkgrey")) + ggtitle("Cantidad de solteros y casados") + xlab("") + ylab("%") + theme(plot.title = element_text(hjust = 0.5)) + geom_text(aes(y = PORCENTAJE, label = paste(round(PORCENTAJE, 2), "%")), position = position_dodge(width = 0.5), size=4, vjust=-0.5, hjust=0.5 ,col="black") + scale_x_discrete(breaks = s.n, labels = c("Solteros", "Casados")) + scale_y_continuous(breaks = seq(0, 60, by = 5), limits = c(0,60))

A continuación se observa cuál es el lugar de origen de las personas encuestadas:
region<-M2$REGION
region<-as.factor(region)
R=levels(region)<-c("Valle del Cauca","Cauca","Quindio","Nariño","Cundinamarca")
por_region<-M2$REGION
por_region<-as.factor(por_region)
total_reg<-length(por_region)
porcent_reg<-summary(por_region)
porcent2_reg<-100*porcent_reg/total_reg
label1reg<-paste(R,"(",sep=" ")
label2reg<-paste(label1reg,porcent2_reg,sep="")
label3reg<-paste(label2reg,"%",sep="")
labelreg<-paste(label3reg,")",sep="")
dat_por_reg<-table(por_region)
pie(dat_por_reg,main = "Origen de los encuestados",
labels=labelreg,
col=c("green","blue","chocolate1","yellow","red"), clockwise=TRUE,radius=0.9)

La distribución de encuestados que se encuentran en Pregrado, Maestria o Doctorado es la siguiente:
NivAcad<-M2$NIVEL.ACADEMICO
NivAcad<-M2$NIVEL.ACADEMICO
NivAcad<-as.factor(NivAcad)
NiAc=levels(NivAcad)<-c("Pregrado","Maestría","Doctorado")
por_NivAcad<-M2$NIVEL.ACADEMICO
por_NivAcad<-as.factor(por_NivAcad)
total_NivAcad<-length(por_NivAcad)
porcent_NivAcad<-summary(por_NivAcad)
porcent2_NivAcad<-100*porcent_NivAcad/total_NivAcad
label1NivAcad<-paste(NiAc,"(",sep=" ")
label2NivAcad<-paste(label1NivAcad,porcent2_NivAcad,sep="")
label3NivAcad<-paste(label2NivAcad,"%",sep="")
labelNivAcad<-paste(label3NivAcad,")",sep="")
dat_por_NivAcad<-table(por_NivAcad)
pie(dat_por_NivAcad,main = "Nivel académico de los encuestados.",
labels=labelNivAcad,
col=c("violet","aquamarine","salmon"), clockwise=TRUE,radius=0.9)

En cuanto al peso de las personas encuestadas, obtenemos la siguiente información:
#Analizando el peso
peso<-M2$PESO
#summary(peso)
media_peso<-mean(peso)
mediana_peso<-median(peso)
library(modeest)
This is package 'modeest' written by P. PONCET.
For a complete list of functions, use 'library(help = "modeest")' or 'help.start()'.
moda_peso<-mfv(peso)
desvest_peso<-sd(peso)
vari_peso<-var(peso)
maxmin_peso<-range(peso)
Datos_Peso<-c(media_peso,mediana_peso,moda_peso,desvest_peso,vari_peso,maxmin_peso)
#Datos_Peso<-as.factor(Datos_Peso)
dfPeso=data.frame(Datos_Peso,stringsAsFactors=FALSE,row.names=c("Media","Mediana","Moda","Desviación estandar","Varianza","Valor minimo","Valor Maximo"))
show(dfPeso)
Datos_Peso
Media 67.64000
Mediana 70.00000
Moda 57.00000
Desviación estandar 12.49627
Varianza 156.15667
Valor minimo 50.00000
Valor Maximo 98.00000
El peso promedio de la muestra es de 67.64kg, pero la mitad de los encuestados pesa mas de 70kg. El peso mas frecuente es 57kg. El menor peso es de 50kg y el mayor peso es 98kg. El peso no es uniforme.
Ahora analizando la estatura de las personas encuestadas, obtenemos la siguiente información:
#Analizando la estatura
estat<-M2$ESTATURA
#summary(estat)
media_estat<-mean(estat)
mediana_estat<-median(estat)
library(modeest)
moda_estat<-mfv(estat)
desvest_estat<-sd(estat)
vari_estat<-var(estat)
maxmin_estat<-range(estat)
Datos_Estatura<-c(media_estat,mediana_estat,moda_estat,desvest_estat,vari_estat,maxmin_estat)
dfEstat=data.frame(Datos_Estatura,stringsAsFactors=FALSE,row.names=c("Media","Mediana","Moda","Desviación estandar","Varianza","Valor minimo","Valor Maximo"))
show(dfEstat)
Datos_Estatura
Media 1.67680000
Mediana 1.67000000
Moda 1.60000000
Desviación estandar 0.10471071
Varianza 0.01096433
Valor minimo 1.52000000
Valor Maximo 1.88000000
La estatura promedio de la muestra es aproximadamente 1.67m, y de igual manera la mitad de los encuestados mide mas y la otra mitad mide menos, aunque la estatura mas frecuente es 1.60m. La persona mas baja mide 1.52m y la mas alta mide 1.88m. La estatura de los encuestados es bastante uniforme.
Casi finalizando el analisis de esta encuesta realizada, se observará el Indice de Masa Corportal, que es una razón matemática que asocia el peso y la estatura de un individio y que se utiliza como uno de los recursos para evaluar su estado nutricional de los adultos, de acuerdo con los valores propuestos por la Organización Mundial de la Salud. Se obtuvo la siguiente información:
#Analizando el IMC
IMC<-M2$PESO/(M2$ESTATURA*M2$ESTATURA)
#summary(IMC)
media_imc<-mean(IMC)
mediana_imc<-median(IMC)
library(modeest)
moda_imc<-mfv(IMC)
desvest_imc<-sd(IMC)
vari_imc<-var(IMC)
maxmin_imc<-range(IMC)
Datos_IMC<-c(media_imc,mediana_imc,moda_imc,desvest_imc,vari_imc,maxmin_imc)
#Datos_IMC
dfIMC=data.frame(Datos_IMC,stringsAsFactors=FALSE,row.names=c("Media","Mediana","Moda #1","Moda #2","Desviación estandar","Varianza","Valor minimo","Valor Maximo"))
show(dfIMC)
Datos_IMC
Media 23.927100
Mediana 23.124670
Moda #1 21.224490
Moda #2 23.124670
Desviación estandar 2.895899
Varianza 8.386231
Valor minimo 19.051974
Valor Maximo 30.359251
hist(IMC,sub = "Valores de Indices de Masa Corporal",
breaks=30, xlim = c(15,35),
xlab=NULL, ylab="# de Personas", col="red",
cex.main=1.4,border=F, main = NULL
)
axis(3,at=c(18.5, 25), labels=c("Bajo peso","Sobrepeso"))
box()

El IMC promedio de la muestra es aproximadamente 23.92, pero la mitad de los encuestados estan incluso por debajo de 23.12, siendo los valores mas frecuentes 21.22 y 23.12, y la desviacion de los datos se observa relativamente uniforme. Al comparar estos resultados con los rangos definidos por la OMS (menos de 18.5 bajo peso y mas de 25 sobrepeso), se dice que por distribución los encuestados estan en su mayoria en peso normal. Incluso, nadie se encuentra en bajo peso (el valor mínimo fue 19.05), pero en el gráfico se observan varias personas que clasifican con sobrepeso y llegando hasta un IMC de 30.36. Cabe resaltar que el IMC tiene varias limitaciones, ya que ignora otras caracteristicas fisicas, no difiere entre masa muscular y masa grasa, entre otras.
Para finalizar, la profesora mostró un interes en saber qué porcentaje va a aprobar el curso, pero al no haber registros por ser una materia “nueva”, ya que su enfoque es distinto, no es posible hacer un analisis significativo. Como opción, aunque no menos importante y ademas como valor real, se puede observar el porcentaje de personas matriculadas, ya que no todos los encuestados lo estan.
Matri<-M2$MATRICULADO
Matri<-M2$MATRICULADO
Matri<-as.factor(Matri)
Mat=levels(Matri)<-c("Matriculado","No Matriculado")
por_Matri<-M2$MATRICULADO
por_Matri<-as.factor(por_Matri)
total_Matri<-length(por_Matri)
porcent_Matri<-summary(por_Matri)
porcent2_Matri<-100*porcent_Matri/total_Matri
label1Matri<-paste(Mat,"(",sep=" ")
label2Matri<-paste(label1Matri,porcent2_Matri,sep="")
label3Matri<-paste(label2Matri,"%",sep="")
labelMatri<-paste(label3Matri,")",sep="")
dat_por_Matri<-table(por_Matri)
pie(dat_por_Matri,main = "Estado en el curso de los encuestados.",
labels=labelMatri,
col=c("red","blue"), clockwise=TRUE,radius=0.9)

12 de las personas encuestadas se encuentran matriculados en el curso, ; siendo estos potencialmente las personas que aprobarán el curso y que serán el primer registro de estudiantes que aprobaron o reprobaron la materia.
