library(readxl)
datos2024 <- read_excel("DATOS2024.xls")
datos2024
table_sexo<-table(datos2024$SEXO)
table_sexo
##
## F M
## 81 99
pie_1<-pie(table_sexo, col=c("lightblue","pink"),
main="Estudio de Pastel.\n Distribución por sexos Valeria Monterroza.", labels = table_sexo)
barp<-barplot(table_sexo, col = rainbow(5), border = "darkred",main = "Gráfico de Barras Valeria Monterroza",sub = "UTB",xlab = "SEXO", ylab = "Conteo")
text(barp, table_sexo-10, labels = table_sexo)
table_sexo2<-round(table(datos2024$SEXO)/121*100)
table_sexo2
##
## F M
## 67 82
barp2<-barplot(table_sexo2, col = rainbow(5), border = "darkred",main = "Gráfico de Barras Valeria Monterroza",sub = "UTB",xlab = "SEXO", ylab = "Porcentaje")
text(barp2, table_sexo2-10, labels = table_sexo2)
pie_1<-pie(table_sexo2, col=c("lightblue","pink"),
main="Estudio de Pastel.\n Distribución por sexos Valeria Monterroza.", labels = table_sexo2)
table_3<-table(datos2024$SEXO, datos2024$CURSO)
table_3
##
## ESTADISTICA I PROBABILIDAD
## F 62 19
## M 61 38
barp3<-barplot(table_3,
main = "Gráfico de barras CURSO vs SEXO Valeria Monterroza",
xlab = "CURSO", ylab = "Frecuencia",
col = c("pink", "blue"),
legend.text = rownames(table_3),
beside = TRUE) # Barras agrupadas
text(barp3, table_3-5, labels = table_3)
table_4<-round(table(datos2024$SEXO, datos2024$CURSO)/121*100)
table_4
##
## ESTADISTICA I PROBABILIDAD
## F 51 16
## M 50 31
barp4<-barplot(table_4,
main = "Gráfico de barras CURSO vs SEXO en porcentajes Valeria Monterroza",
xlab = "CURSO", ylab = "Frecuencia",
col = c("pink", "blue"),
legend.text = rownames(table_4),
beside = TRUE) # Barras agrupadas
text(barp4, table_4-5, labels = table_4)
table_5<-table(datos2024$ESTRATO, datos2024$CURSO)
table_5
##
## ESTADISTICA I PROBABILIDAD
## I 36 10
## II 36 24
## III 29 16
## IV 13 5
## V 4 2
## VI 5 0
barp3<-barplot(table_5,
main = "Gráfico de barras CURSO vs ESTRATO Valeria Monterroza",
xlab = "CURSO", ylab = "Frecuencia",
col = rainbow(5),
legend.text = rownames(table_5),
beside = TRUE) # Barras agrupadas
text(barp3, table_5-1, labels = table_3)
table_6<-table(datos2024$ESTRATO, datos2024$SEXO)
table_6
##
## F M
## I 17 29
## II 32 28
## III 18 27
## IV 8 10
## V 3 3
## VI 3 2
barp3<-barplot(table_6,
main = "Gráfico de barras CURSO vs ESTRATO Valeria Monterroza",
xlab = "CURSO", ylab = "Frecuencia",
col = rainbow(5),
legend.text = rownames(table_6),
beside = TRUE) # Barras agrupadas
text(barp3, table_6-1, labels = table_6)
Organización de Datos y Estadística Descriptiva en RStudio Cloud Laboratorio 11 Laboratorio 11
El Laboratorio 11 se centró en la fase inicial y fundamental de la Estadística Descriptiva: la organización, visualización y resumen de un conjunto de datos. Utilizando el entorno de RStudio Cloud, se demostró cómo transformar datos brutos en información estructurada y comprensible, aplicando técnicas tanto tabulares como gráficas. El ejercicio se ejecutó sobre un dataset denominado DATOS2023, el cual contenía variables relacionadas con estudiantes, como CURSO, DEFINITIVA, SEXO, ESTRATO, y SABER 11, entre otras.
El primer paso crucial en RStudio fue la importación y carga del dataset. Esto se realizó mediante la librería readxl y el comando datos2024 <- read_excel(“datos/datos2024.xlsx”). Este proceso no solo cargó los datos, sino que también permitió visualizar la estructura inicial, revelando la naturaleza de las variables: algunas cualitativas (CURSO, SEXO) y otras cuantitativas (DEFINITIVA, ESTATURA, SABER 11). La correcta carga de los datos es la base de todo análisis estadístico posterior.
El análisis descriptivo comenzó con una variable cualitativa clave: SEXO. Este análisis se realizó en tres etapas:
A. Tablas de Frecuencia Mediante la función table(), se generó la frecuencia absoluta (conteo) de la variable SEXO. La muestra total fue de 180 estudiantes, de los cuales 81 fueron de sexo Femenino (F) y 99 de sexo Masculino (M).
Posteriormente, esta información se transformó en una tabla de frecuencia relativa porcentual. Se calculó que el 67% de la muestra corresponde al sexo Femenino y el 82% al Masculino. El comando de R round(table(datos2024$SEXO)/180*100) fue utilizado para automatizar este cálculo, redondeando al entero más cercano.
B. Representaciones Gráficas
La información se presentó visualmente mediante dos tipos de gráficos:
Gráfico de Torta: Se creó un gráfico de torta mostrando la distribución de la frecuencia absoluta (81 y 99) y otro gráfico mostrando la distribución porcentual (67 y 82).
Diagrama de Barras: Se generaron diagramas de barras tanto para la frecuencia absoluta como para la frecuencia porcentual, utilizando la función barplot(). Estos diagramas confirmaron visualmente la ligera superioridad del número de estudiantes femeninos sobre el masculino en la muestra.
El Laboratorio destacó que las tablas de frecuencias y las representaciones gráficas son métodos equivalentes y complementarios para exponer la información de manera ordenada.
La etapa final del laboratorio consistió en cruzar la información para analizar la relación entre dos variables cualitativas, demostrando la organización de los datos para un análisis más profundo.
A. Cruce de SEXO y CURSO
Se creó una tabla de contingencia (o tabla cruzada) utilizando table(datos2024\(SEXO, datos2024\)CURSO), revelando la distribución de hombres y mujeres en los cursos “ESTADISTICA I” y “PROBABILIDAD”.
• ESTADISTICA I: 62 Femenino / 61 Masculino • PROBABILIDAD: 19 Femenino / 38 Masculino
Esta tabla se tradujo luego a frecuencias relativas porcentuales con respecto al total de la muestra (180 estudiantes), arrojando porcentajes como 51% de mujeres en Estadística I y 50% de hombres en el mismo curso.
La visualización de este cruce se logró con un Diagrama de Barras Agrupadas (beside = TRUE), donde las barras de Femenino y Masculino se mostraron lado a lado para cada curso, facilitando la comparación de las proporciones. Se generó un gráfico para frecuencias absolutas y otro para frecuencias porcentuales.
B. Cruce de ESTRATO y CURSO / ESTRATO y SEXO
Se repitió el proceso de tabulación y graficación para analizar la distribución del ESTRATO socioeconómico frente al CURSO y frente al SEXO. Las tablas de contingencia (table_5 y table_6) permitieron observar la concentración de estudiantes por estrato en cada curso y en cada sexo.
Por ejemplo, al cruzar ESTRATO y SEXO, se observó la distribución detallada de cada estrato (I a VII) para Femenino y Masculino, siendo el estrato II el de mayor frecuencia para las mujeres y el segundo más alto para los hombres. Los correspondientes Diagramas de Barras Agrupadas para estos cruces ofrecieron una vista inmediata de las distribuciones, destacando la composición demográfica de los grupos de estudio.
En resumen, el Laboratorio 11 que hicimos en RStudio Cloud fue una práctica súper completa para entender cómo se organizan los datos. Aprendimos a usar R para tomar la información en bruto de nuestro experimento (el dataset) y convertirla en algo que se puede ver y analizar fácilmente.
La clave fue seguir un proceso simple: primero, cargamos los datos; luego, los contamos (frecuencias); calculamos qué porcentaje representaban; y finalmente, creamos gráficos bonitos (de torta y barras). Todo este trabajo nos permitió descubrir patrones importantes en el grupo de estudiantes, como cuántos eran hombres o mujeres, a qué cursos asistían y de qué estrato socioeconómico provenían, lo cual es fundamental para sacar conclusiones claras.