Andrés Marín
Cristhian Cárdenas
Facultad de
Ingeniería y Ciencias Básicas
Curso: Probabilidad y Estadística
Docente: Dagoberto Bermúdez
Este proyecto tiene como propósito analizar la relación entre la edad y la longitud del cabello en una muestra de mujeres, utilizando herramientas estadísticas descriptivas y modelos probabilísticos. A partir de un conjunto de datos reales, se exploran tendencias, patrones y distribuciones que permiten comprender cómo varían las preferencias en el estilo del cabello en función de la edad. Se aplican medidas de frecuencia, análisis bivariado y modelos como la distribución de Poisson para identificar asociaciones entre las variables. Los resultados obtenidos permiten reflexionar sobre posibles factores sociales, culturales o de estilo de vida que influyen en estas decisiones estéticas.
Palabras clave: Estadística descriptiva, edad, longitud del cabello, probabilidad, Poisson.
El uso de la estadística como herramienta de análisis ha cobrado especial relevancia en diversos campos, desde las ciencias exactas hasta el estudio de fenómenos sociales y culturales. Uno de los principales aportes de esta disciplina es su capacidad para identificar patrones, asociaciones y tendencias a partir de datos reales, facilitando así una comprensión más profunda de la realidad.
En este proyecto se aborda el análisis de la longitud del cabello en relación con la edad de las personas, un aspecto que, aunque en apariencia cotidiano, refleja elecciones personales influenciadas por factores sociales, culturales y generacionales. La forma en que las personas usan su cabello puede estar determinada por costumbres, estereotipos de belleza, funcionalidad o comodidad, y en muchos casos, por la etapa de vida en la que se encuentran.
El propósito central del trabajo es aplicar métodos estadísticos para examinar si existe alguna asociación significativa entre la edad y la longitud del cabello en una muestra de datos reales. Para ello, se utilizarán herramientas descriptivas, análisis bivariado y técnicas de modelado probabilístico que permitan extraer conclusiones objetivas y bien fundamentadas.
Este ejercicio no solo busca fortalecer competencias técnicas en el uso de R y RMarkdown, sino también demostrar cómo el análisis estadístico puede aplicarse a situaciones del entorno cotidiano, convirtiéndose en una herramienta útil para la toma de decisiones o la formulación de hipótesis sobre el comportamiento humano.
En la actualidad, la abundancia de información no garantiza una comprensión clara de los fenómenos que nos rodean. Por ello, resulta fundamental aplicar herramientas estadísticas que permitan transformar los datos en conocimiento útil. Uno de los desafíos más comunes es identificar relaciones entre variables que, aunque simples en apariencia, pueden estar determinadas por múltiples factores contextuales.
Este proyecto se enfoca en analizar si existe alguna asociación entre la edad de una persona y la longitud de su cabello. Aunque se trata de aspectos cualitativos y cuantitativos del día a día, detrás de estas decisiones pueden influir elementos culturales, sociales, profesionales e incluso económicos. En muchos casos, la edad está relacionada con cambios de estilo, preferencias estéticas o necesidades prácticas que se manifiestan en la forma de llevar el cabello.
La justificación de este análisis radica en mostrar cómo la estadística puede utilizarse para interpretar conductas aparentemente triviales, ayudando a construir una mirada más amplia y objetiva sobre comportamientos colectivos. Además, el uso de datos reales fortalece el proceso de aprendizaje práctico en herramientas como R, permitiendo al estudiante aplicar métodos de análisis con rigor técnico y sentido contextual.
Comprender esta relación entre variables no pretende dar respuestas absolutas, sino explorar posibles patrones que contribuyan a la formulación de hipótesis, la interpretación crítica de los datos y la aplicación de modelos estadísticos en escenarios reales.
Analizar estadísticamente la posible relación entre la edad de las personas y la longitud de su cabello, utilizando herramientas de estadística descriptiva y exploratoria en el entorno de RStudio.
Este proyecto se desarrolla a partir del uso de un conjunto de datos reales, que contiene información sobre la longitud del cabello y los grupos de edad de una muestra de mujeres. A partir de esta base de datos, se aplicarán diferentes técnicas estadísticas para abordar los objetivos planteados.
Los datos fueron obtenidos del portal de análisis estadístico de la Universidad de Florida, y representan la distribución de la longitud del cabello en mujeres de distintos rangos de edad. La base contiene variables categóricas como la longitud del cabello (corto, medio, largo) y el grupo etario (14–24, 25–34, 35–49, 50–60 años), además de una variable cuantitativa derivada que asigna un valor numérico representativo a cada grupo de edad.
Se utilizará el entorno de RStudio y el lenguaje R para importar, organizar y analizar la base de datos. Se aplicarán funciones de transformación de datos, medidas estadísticas descriptivas, tablas de contingencia y visualizaciones gráficas, con el fin de facilitar la interpretación.
Durante el análisis se emplearán:
Todo el proceso será documentado en un archivo R Markdown, incluyendo tanto el código como los resultados. El producto final se presentará en formato HTML, garantizando una visualización clara y profesional del análisis.
Para este análisis se emplea una base de datos en formato Excel que contiene información sobre mujeres clasificadas por grupos de edad y longitud del cabello. Esta base de datos fue obtenida de una fuente académica confiable y adaptada para efectos didácticos. El archivo contiene tres variables:
longitud: categoría de longitud del cabello (1 = corto,
2 = medio, 3 = largo).grupo_edad: grupo etario (1 = 14–24, 2 = 25–34, 3 =
35–49, 4 = 50–60).frecuencia: número de mujeres registradas en cada
combinación de longitud y edad.A continuación, se realiza la importación de los datos:
| longitud | grupo_edad | frecuencia |
|---|---|---|
| 1 | 1 | 57 |
| 2 | 1 | 230 |
| 3 | 1 | 225 |
| 1 | 2 | 139 |
| 2 | 2 | 207 |
| 3 | 2 | 172 |
| 1 | 3 | 226 |
| 2 | 3 | 345 |
| 3 | 3 | 93 |
| 1 | 4 | 371 |
| 2 | 4 | 265 |
| 3 | 4 | 70 |
| longitud | grupo_edad | frecuencia |
|---|---|---|
| Corto | 14–24 | 57 |
| Medio | 14–24 | 230 |
| Largo | 14–24 | 225 |
| Corto | 25–34 | 139 |
| Medio | 25–34 | 207 |
| Largo | 25–34 | 172 |
| longitud | grupo_edad | frecuencia |
|---|---|---|
| Corto | 14–24 | 57 |
| Medio | 14–24 | 230 |
| Largo | 14–24 | 225 |
| Corto | 25–34 | 139 |
| Medio | 25–34 | 207 |
| Largo | 25–34 | 172 |
#d
| Estadística | Valor |
|---|---|
| Media | 200 |
| Mediana | 216 |
| Varianza | 10004 |
##
## 14–24 25–34 35–49 50–60
## Corto 1 1 1 1
## Medio 1 1 1 1
## Largo 1 1 1 1
El gráfico de barras apiladas permite observar cómo se distribuyen las longitudes del cabello en cada grupo etario:
- En los grupos más jóvenes predominan los cabellos largos.
- En adultos mayores, la proporción de cabellos cortos aumenta notablemente.
- La categoría “medio” se mantiene relativamente estable en todos los grupos.
Esta visualización confirma el patrón detectado previamente y sugiere una posible asociación entre edad y longitud del cabello.
Análisis estadístico: Prueba de independencia (Chi-cuadrado)
Para verificar si existe una relación estadísticamente significativa entre la edad y la longitud del cabello, se aplicó la prueba chi-cuadrado de independencia.
Hipótesis:
Resultados:
El valor de p obtenido fue menor a 0.05, lo que indica evidencia suficiente para rechazar la hipótesis nula.
Conclusión:
Sí existe una asociación significativa entre la edad y la longitud del cabello. Esto sugiere que las decisiones sobre el estilo del cabello no son aleatorias, sino que están relacionadas con la etapa de vida de las personas.
| Corto | Medio | Largo | |
|---|---|---|---|
| 14–24 | 11.13 | 44.92 | 43.95 |
| 25–34 | 26.83 | 39.96 | 33.20 |
| 35–49 | 34.04 | 51.96 | 14.01 |
| 50–60 | 52.55 | 37.54 | 9.92 |
| X. | gl | p.valor | |
|---|---|---|---|
| X-squared | 374.39 | 6 | < 1e-04 |
Se realiza una prueba de independencia chi-cuadrado para determinar si existe una asociación estadísticamente significativa entre el grupo de edad y la longitud del cabello.
| statistic | p.value | parameter | method |
|---|---|---|---|
| 374.3863 | 0 | 6 | Pearson’s Chi-squared test |
Los hallazgos del análisis estadístico indican una asociación clara entre la edad y la longitud del cabello. Las gráficas muestran que las mujeres jóvenes (14–24 años) tienden a preferir cabellos largos, mientras que en los grupos de mayor edad se observa una transición hacia estilos más cortos.
Este patrón puede estar influenciado por varios factores, como:
Además, la prueba chi-cuadrado respalda estas observaciones, al indicar que la asociación entre las variables es estadísticamente significativa. Esto significa que no se trata de una diferencia aleatoria, sino de una tendencia observable con respaldo cuantitativo.
Este resultado valida el uso de herramientas estadísticas para explorar fenómenos del día a día, y demuestra cómo los datos pueden ayudar a entender comportamientos sociales y estéticos en distintos grupos poblacionales.
Los resultados obtenidos reflejan una asociación significativa entre la edad de las mujeres y la longitud de su cabello. Este patrón puede interpretarse desde distintas perspectivas:
Aunque este análisis no pretende establecer causalidades, sí resalta la utilidad de la estadística para identificar patrones que reflejan comportamientos colectivos, incluso en aspectos cotidianos como el estilo personal.
A través del análisis estadístico realizado, se identificó una asociación significativa entre la edad de las mujeres y la longitud de su cabello. Entre los hallazgos más relevantes se destacan:
Este comportamiento podría estar influenciado por factores culturales, estéticos o prácticos, como comodidad, percepción social o edad laboral.
A pesar de los resultados estadísticamente significativos obtenidos, el estudio presenta ciertas limitaciones que vale la pena considerar:
Para futuros estudios se recomienda trabajar con muestras más amplias, incorporar nuevas variables y utilizar técnicas de análisis multivariado que permitan una comprensión más profunda y matizada del fenómeno observado.
Este proyecto demuestra cómo la estadística puede aplicarse a situaciones cotidianas, revelando patrones que, a simple vista, podrían pasar desapercibidos.
A continuación, se presenta un diagrama de correlación entre las variables numéricas disponibles en la base de datos. Este gráfico permite visualizar la intensidad y dirección de la relación entre pares de variables mediante el tamaño y color de los círculos:
Datos utilizados:
https://users.stat.ufl.edu/~winner/data/hairlength.dat
R Core Team (2024). R: A language and environment for
statistical computing.
R Foundation for Statistical Computing, Vienna, Austria. URL: https://www.R-project.org/
RStudio Team (2024). RStudio: Integrated Development
Environment for R.
RStudio, PBC. URL: https://posit.co/
Wickham, H., et al. (2019). Welcome to the tidyverse. Journal of Open Source Software, 4(43), 1686.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021).
An Introduction to Statistical Learning: with Applications in R
(2nd ed.). Springer.
https://www.statlearning.com/
Wickham, H., & Grolemund, G. (2016). R for Data
Science. O’Reilly Media.
https://r4ds.had.co.nz/
Field, A., Miles, J., & Field, Z. (2012). Discovering Statistics Using R. SAGE Publications.