En el seminario de contrucción a cargo la Docente Lina Bonilla, en el que abordará el tratamiento estadistico los trabajos de grado, se inició con una actividad que se describirá a continuación.
Con el fin de tener un grupo de datos de diferente tipo, se realizó una encuesta a todos los 24 estudiantes de clase, a ellos se les pregunto por las variables que se presentan a continuación:
C<-read.csv("LibroEjercicio.csv", sep = ";")
names(C)
[1] "NOMBRE" "EDAD" "ESTATURA" "PESO..Kg."
[5] "PROFESIÓN" "CANT..HIJOS" "ESTRATO" "CANT..HERMANO"
[9] "MATRICULADO" "ESTADO.CIVIL" "LUGAR.DE.ORIGEN" "SEXO"
library(ggplot2)
ggplot(C, aes(x = EDAD)) + geom_histogram(breaks = seq(20, 40, by = 5), col = "black", fill = "pink") + ggtitle("HISTOGRAMA EDADES") + ylab("CANTIDAD DE ENCUESTADOS") + theme(plot.title = element_text(hjust = 0.5)) + scale_y_continuous(breaks = seq(0, 14, by = 2), limits = c(0,14)) + xlab("EDADES [Años]") + annotate("text", x = c(22.5, 27.5, 32.5, 37.5), y = c(12.5, 6.5, 1.5, 2.5), label = c("50%", "25%", "4.17%", "8.33%"))

ggplot(C, aes(x = ESTATURA)) + geom_histogram(breaks = seq(1.5, 1.9, by = 0.1), col = "black", fill = "orange") + ggtitle("HISTOGRAMA ESTATURA") + ylab("CANTIDAD DE ENCUESTADOS") + theme(plot.title = element_text(hjust = 0.5)) + scale_y_continuous(breaks = seq(0, 10, by = 2), limits = c(0,10)) + xlab("ESTATURAS [m]") + annotate("text", x = c(1.55, 1.65, 1.75, 1.85), y = c(9.5, 7.5, 5.5, 3.5), label = c("37.5%", "29.17%", "20.83%", "12.5%"))

ggplot(C, aes(x = C$PESO..Kg.)) + geom_histogram(breaks = seq(50, 80, by = 6), col = "black", fill = "dark red") + ggtitle("HISTOGRAMA PESO") + ylab("CANTIDAD DE ENCUESTADOS") + theme(plot.title = element_text(hjust = 0.5)) + scale_y_continuous(breaks = seq(0, 7, by = 1), limits = c(0,7)) + xlab("PESOS [Kg]") + scale_x_continuous(breaks = seq(50, 80, by = 6), limits = c(50,80)) + annotate("text", x = c(53, 59, 65, 71, 77), y = c(4.5, 6.5, 2.5, 4.5, 6.5), label = c("16.67%", "25%", "8.33%", "16.67%", "25%"))

NA
PRO<-as.data.frame(prop.table(table(C$PROFESIÓN))*100)
colnames(PRO)<-c("PROFESION", "PORCENTAJE")
k<-c("Pregrado", "Postgrado", "Doctorado")
v<-c("1", "2", "3")
ggplot(PRO, aes(x = PROFESION, y = PORCENTAJE)) + geom_bar(stat = "identity", width = 0.8, fill = "deeppink4") + ggtitle("EDUCACIÓN") + xlab("") + ylab("% ENCUESTADOS") + theme(plot.title = element_text(hjust = 0.5)) + geom_text(aes(y = PORCENTAJE, label = paste(round(PORCENTAJE, 1), "%")), position = position_dodge(width = 0.5), size=4, vjust=-0.5, hjust=0.5 ,col="black") + scale_x_discrete(breaks = v, labels = k) + scale_y_continuous(breaks = seq(0, 80, by = 5), limits = c(0,80))

H<-as.data.frame(prop.table(table(C$CANT..HIJOS))*100)
colnames(H)<-c("HIJOS", "PORCENTAJE")
ggplot(H, aes(x = HIJOS, y = PORCENTAJE)) + geom_bar(stat = "identity", width = 0.8, fill = "darkturquoise") + ggtitle("HIJOS") + ylab("% ENCUESTADOS") + theme(plot.title = element_text(hjust = 0.5)) + geom_text(aes(y = PORCENTAJE, label = paste(round(PORCENTAJE, 1), "%")), position = position_dodge(width = 0.5), size=4, vjust=0.5, hjust=-0.2 ,col="black") + scale_y_continuous(breaks = seq(0, 80, by = 5), limits = c(0,80)) + xlab("CANTIDAD DE HIJOS") + coord_flip()

Est<-as.data.frame(prop.table(table(C$ESTRATO))*100)
colnames(Est)<-c("Estrato", "PORCENTAJE")
ggplot(Est, aes(x = Estrato, y = PORCENTAJE)) + geom_bar(stat = "identity", width = 0.8, fill = "gold2") + ggtitle("ESTRATOS") + xlab("") + ylab("% ENCUESTADOS") + theme(plot.title = element_text(hjust = 0.5)) + scale_y_continuous(breaks = seq(0, 60, by = 5), limits = c(0,60)) + geom_text(aes(y = PORCENTAJE, label = paste(round(PORCENTAJE, 2), "%")), position = position_dodge(width = 0.5), size=4, vjust=0.5, hjust=-0.2 ,col="black") + scale_x_discrete(breaks = c("1","2","3","4","5"), labels = c("Estrato 1", "Estrato 2", "Estrato 3", "Estrato 4", "Estrato 5")) + coord_flip()

HE<-as.data.frame(prop.table(table(C$CANT..HERMANO))*100)
colnames(HE)<-c("Hermanos", "PORCENTAJE")
ggplot(HE, aes(x = Hermanos, y = PORCENTAJE)) + geom_bar(stat = "identity", width = 0.8, fill = "mediumpurple1", col = "black") + ggtitle("HERMANOS") + xlab("NÚMERO DE HERMANOS") + ylab("% ENCUESTADOS") + theme(plot.title = element_text(hjust = 0.5)) + geom_text(aes(y = PORCENTAJE, label = paste(round(PORCENTAJE, 2), "%")), position = position_dodge(width = 0.5), size=4, vjust=-0.5, hjust=0.5 ,col="black") + scale_y_continuous(breaks = seq(0, 30, by = 5), limits = c(0,30))

M<-as.data.frame(prop.table(table(C$MATRICULADO))*100)
colnames(M)<-c("MATRICULADO", "PORCENTAJE")
library(ggplot2)
ggplot(M, aes(x="", y = PORCENTAJE, fill = MATRICULADO)) + geom_bar(stat = "identity", width = 1)+coord_polar("y", start=0)+scale_fill_brewer(palette = "Set2", labels=c("Si","No"))+ labs(title = "MATRICULADO", x = NULL, y = NULL, fill = "")+scale_x_discrete(labels=NULL,breaks = NULL)+scale_y_discrete(labels=NULL,breaks = NULL)+ geom_text(aes(y = PORCENTAJE, label = paste(round(PORCENTAJE, 1), "%")), position = position_dodge(width = 1), size=5, vjust=-3.5, hjust=0.7 ,col="black")+ylim(0, 100)+ theme(plot.title = element_text(hjust = 0.5)) + theme(legend.position = "right", legend.background = element_rect(fill = "white", size = 0.5, linetype = "solid"))
Scale for 'y' is already present. Adding another scale for 'y', which will
replace the existing scale.

EC<-as.data.frame(prop.table(table(C$ESTADO.CIVIL))*100)
colnames(EC)<-c("ECI", "PORCENTAJE")
library(ggplot2)
ggplot(EC, aes(x="", y = PORCENTAJE, fill = ECI)) + geom_bar(stat = "identity", width = 1)+coord_polar("y", start=0)+scale_fill_brewer(palette = "Set3", labels=c("Soltero","Casado"))+ labs(title = "ESTADO CIVIL", x = NULL, y = NULL, fill = "")+scale_x_discrete(labels=NULL,breaks = NULL)+scale_y_discrete(labels=NULL,breaks = NULL)+ geom_text(aes(y = PORCENTAJE, label = paste(round(PORCENTAJE, 1), "%")), position = position_dodge(width = 1), size=4, vjust=0, hjust=1.2 ,col="black")+ylim(0, 100)+ theme(plot.title = element_text(hjust = 0.5)) + theme(legend.position = "right", legend.background = element_rect(fill = "white", size = 0.5, linetype = "solid"))
Scale for 'y' is already present. Adding another scale for 'y', which will
replace the existing scale.

R<-as.data.frame(prop.table(table(C$LUGAR.DE.ORIGEN))*100)
colnames(R)<-c("L", "PORCENTAJE")
ggplot(R, aes(x = L, y = PORCENTAJE)) + geom_bar(stat = "identity", width = 0.8, fill = "lightsalmon") + ggtitle("LUGAR DE ORIGEN") + xlab("") + ylab("% ENCUESTADOS") + theme(plot.title = element_text(hjust = 0.5)) + scale_y_continuous(breaks = seq(0, 80, by = 10), limits = c(0,80)) + geom_text(aes(y = PORCENTAJE, label = paste(round(PORCENTAJE, 2), "%")), position = position_dodge(width = 0.5), size=4, vjust=-0.5, hjust=0.5 ,col="black") + scale_x_discrete(breaks = c("1","2", "3","4","5"), labels = c("Valle del Cauca", "Cauca", "Quindio", "Nariño", "Cundinamarca"))

Sexo<-as.data.frame(prop.table(table(C$SEXO))*100)
colnames(Sexo)<-c("Sexo", "PORCENTAJE")
d<-c("HOMBRES", "MUJERES")
f<-c("1", "2")
library(ggplot2)
ggplot(Sexo, aes(x = Sexo, y = PORCENTAJE)) + geom_bar(stat = "identity", width = 0.5, fill =c("lightblue", "hotpink1")) + ggtitle("GÉNERO") + xlab("") + ylab("% ENCUESTADOS") + theme(plot.title = element_text(hjust = 0.5)) + geom_text(aes(y = PORCENTAJE, label = paste(round(PORCENTAJE, 2), "%")), position = position_dodge(width = 0.5), size=4, vjust=-0.5, hjust=0.5 ,col="black") + scale_x_discrete(breaks = f, labels = d) + scale_y_continuous(breaks = seq(0, 60, by = 5), limits = c(0,60))

Medidas de tendencia central: Son aquellas que pretenden resumir en un solo valor a un conjunto de valores, reprecentan el centro en torno al cual se encuentran ubicados los datos.
summary(C)
NOMBRE EDAD ESTATURA PESO..Kg.
ALEJANDRO ARCILA: 1 Min. :21.00 Min. :1.520 Min. :50.00
ANDRÉS CASANOVA : 1 1st Qu.:23.00 1st Qu.:1.595 1st Qu.:57.00
ANGELA PEREZ : 1 Median :25.50 Median :1.660 Median :67.50
ANGIE ALDEMAR : 1 Mean :28.71 Mean :1.673 Mean :67.46
ANGIE CABEZAS : 1 3rd Qu.:30.25 3rd Qu.:1.750 3rd Qu.:75.25
CARLOS ZAPATA : 1 Max. :49.00 Max. :1.880 Max. :98.00
(Other) :18
PROFESIÓN CANT..HIJOS ESTRATO CANT..HERMANO
Min. :1.000 Min. :0.0000 Min. :1.00 Min. :0.000
1st Qu.:1.000 1st Qu.:0.0000 1st Qu.:3.00 1st Qu.:1.000
Median :1.000 Median :0.0000 Median :3.00 Median :2.000
Mean :1.375 Mean :0.4167 Mean :3.25 Mean :2.292
3rd Qu.:2.000 3rd Qu.:0.2500 3rd Qu.:4.00 3rd Qu.:3.250
Max. :3.000 Max. :3.0000 Max. :5.00 Max. :6.000
MATRICULADO ESTADO.CIVIL LUGAR.DE.ORIGEN SEXO
Min. :1.000 Min. :1.000 Min. :1.000 Min. :1.000
1st Qu.:1.000 1st Qu.:1.000 1st Qu.:1.000 1st Qu.:1.000
Median :1.000 Median :1.000 Median :1.000 Median :2.000
Mean :1.375 Mean :1.125 Mean :1.875 Mean :1.583
3rd Qu.:2.000 3rd Qu.:1.000 3rd Qu.:2.000 3rd Qu.:2.000
Max. :2.000 Max. :2.000 Max. :5.000 Max. :2.000
Esto corresponde a que el promedio de edades es 28,7; el estrato promedio de la población es 3; y el numero de hijos esta entre 0-1
La mediana nos indica que el 50% de la población es menor de 25 años y el 50% es mayor de 25 años; 50% es menor, de la misma manera pertenece al estrato 0 y tienen 0 hijos
La moda para la edad corresponde a 23 años, la moda de estrato corresponde al 3, y el número de hijos corresponde a 0
La varianza indica que la variable edad es la que presenta mayor variablidad, mientras que el estrato y el número de hijos, tiene una pequeña variabilidad.
