Tercer examen parcial



En este trabajo se utilizarán dos bases de datos con enfoque biológico para aplicar modelos estadísticos diferentes: regresión logística y regresión lineal.

La primera base, “Mushroom”, contiene 8124 registros de hongos descritos mediante 22 características categóricas, incluyendo color, forma, olor y textura. El objetivo es predecir si un hongo es venenoso o comestible, una variable binaria ideal para aplicar un modelo de regresión logística.

La segunda base, “Abalone” (Abulón), incluye 4177 observaciones con variables tanto numéricas como categóricas, como el largo del caparazón, peso y sexo del animal. Aquí se busca predecir la edad del abulón (estimada por el número de anillos), lo cual se ajusta a un modelo de regresión lineal por tratarse de una variable continua.



1. MUSHROOM

El análisis de esta base de datos permitirá identificar con mayor precisión si un hongo es comestible o tóxico utilizando únicamente características observables de su apariencia, como el color del sombrero, color de las láminas o el olor, con el objetivo de facilitar la clasificación sin necesidad de pruebas invasivas o de laboratorio.



2. Compresión de los datos

El conjunto de datos contiene 8124 muestras de hongos, descritas con 22 características categóricas (color, forma, olor, etc.). Cada hongo está clasificado como comestible (e) o venenoso (p), que es la variable objetivo.

Variables dependientes e independientes

  • Clase (classes): Variable dependiente que indica si el hongo es comestible (e) o venenoso (p). Es el objetivo del modelo, ya que se busca predecir esta condición a partir de otras características físicas.

  • Color del sombrero (cap-color): Describe el color del sombrero del hongo, con categorías como marrón, blanco, rojo o amarillo. Esta característica puede variar entre especies y es útil para su identificación visual.

  • Olor (odor): Una de las variables más relevantes, ya que ciertos olores desagradables (como a pescado, moho o químicos) están fuertemente asociados con hongos venenosos.

  • Color de las láminas (gill-color): Representa el color de las láminas bajo el sombrero, donde se producen las esporas. Algunas especies venenosas presentan colores específicos en esta región.



3. Preparación de los datos (Data Preparation):

Selección de las variables más influyentes: Se seleccionaron tres variables con mayor impacto sobre la clasificación de los hongos: el olor, el color del sombrero y el color de las láminas, que fueron consideradas las más relevantes en función de su capacidad para diferenciar entre hongos comestibles y venenosos.

Creación de un archivo Excel depurado: Aparte del conjunto de datos original, se generó un archivo Excel más depurado, donde se realizaron transformaciones de las variables categóricas



4. Modelado

Antes de proceder con el modelo de regresión logística, se generaron tablas y gráficas descriptivas para visualizar las distribuciones de las variables más influyentes (olor, color del sombrero y color de las láminas) y explorar las relaciones entre ellas. Esto permitió identificar patrones y asegurarse de que las variables seleccionadas fueran adecuadas para la predicción.

Con los datos listos y depurados, se ajustó un modelo de regresión logística para predecir si el hongo es comestible o venenoso, utilizando las variables más influyentes seleccionadas. Los coeficientes del modelo fueron analizados para evaluar la contribución de cada variable en la predicción de la toxicidad. Además, se construyó una matriz de confusión para evaluar el desempeño del modelo, observando los aciertos y errores en la clasificación.



5. Evaluación

Una vez ajustado el modelo de regresión logística, se procedió a evaluar su rendimiento mediante métricas de desempeño que permitieron analizar su efectividad en la clasificación de los hongos como comestibles o venenosos. Las métricas utilizadas fueron:

  • Desempeño: Esta métrica muestra la proporción total de predicciones correctas (tanto comestibles como venenosos) realizadas por el modelo. Un alto desempeño indica que el modelo tiene una capacidad general eficiente para clasificar correctamente los hongos.

  • Sensibilidad: También conocida como tasa de verdaderos positivos, esta métrica mide la capacidad del modelo para identificar correctamente los hongos venenosos. Es particularmente importante en este contexto, ya que un modelo con alta sensibilidad minimiza el riesgo de clasificar hongos venenosos como comestibles, lo cual podría tener consecuencias graves.

  • Especificidad: Es la medida de la capacidad del modelo para identificar correctamente los hongos comestibles, es decir, la tasa de verdaderos negativos. Esta métrica es igualmente crucial para asegurar que los hongos comestibles no sean erróneamente clasificados como venenosos.

Las métricas de desempeño fueron calculadas a partir de la matriz de confusión, que proporcionó una visión detallada de los aciertos y errores en las predicciones. Los resultados obtenidos permitieron validar la efectividad del modelo, confirmando que tiene un buen equilibrio entre sensibilidad y especificidad, lo que garantiza una clasificación confiable de los hongos.

\[ \frac{VP + VN}{Total} \]

\[ \frac{VP}{VP + FN} \]

\[ \frac{VN}{VN + FP} \]



1. ABULÓN

La base de datos del abulón proporciona información física detallada sobre diversas características del abulón, un tipo de molusco marino. El objetivo de procesar esta base de datos es predecir la edad del abulón a partir de sus mediciones físicas, lo cual es fundamental para entender su crecimiento y longevidad. La predicción de la edad es importante en estudios ecológicos y de pesca, ya que permite estimar la población de abulones en un área y gestionar adecuadamente los recursos marinos.

Al aplicar un modelo de regresión lineal sobre esta base de datos, podemos identificar relaciones entre las variables físicas como el sexo, la longitud, Y el diámetro, con la edad del abulón. Este tipo de análisis es crucial para realizar proyecciones y tomar decisiones informadas sobre la conservación y el manejo sostenible de la especie.



2. Compresión de los datos

Variables dependientes e independiente

  • Anillos: es el número de anillos de crecimiento que se observan en la cáscara del abulón, como en los árboles. Cada anillo representa un ciclo de crecimiento anual. Para estimar la edad real del abulón, debes sumar 1.5 años a este número.

  • Sexo: Indica el género o estado de madurez del abulón. Hay tres posibles valores: macho, hembra o infante o joven (que aún no se puede clasificar como macho o hembra).

  • Longitud: es la medida desde la punta a la base del abulón (la distancia más larga de su concha), medida en milímetros (mm). Es un indicador del tamaño general del abulón.

  • Peso total: es el peso del abulón completo, incluyendo: carne, vísceras y cáscara húmeda. Medido en gramos (g). Básicamente, es cuánto pesa todo el animal vivo y entero.



3. Preparación de los datos (Data Preparation):

Se seleccionaron las variables mas influyentes para predecir la edad del abulón a partir de los anillos: longitud, peso total y sexo. La longitud es un indicador directo del tamaño y la edad del abulón, ya que a mayor longitud, mayor edad. El peso total también está estrechamente relacionado con la edad, ya que los abulones más viejos son más pesados. Por último, el sexo, aunque categórico, se incluyó para explorar posibles diferencias de crecimiento entre machos y hembras. Estas variables son clave para comprender el crecimiento y la madurez del abulón.



4. Modelado

Antes de ajustar el modelo de regresión lineal, se crearon tablas y gráficas descriptivas para examinar las distribuciones de las variables más relevantes (longitud, peso total y sexo) y explorar cómo se relacionan entre sí. Esto permitió identificar posibles patrones y confirmar que las variables elegidas eran apropiadas para predecir la edad del abulón mediante los anillos.

Con los datos procesados, se procedió a ajustar el modelo de regresión lineal para estimar el número de anillos, utilizando las variables seleccionadas. Se analizaron los coeficientes del modelo para determinar la influencia de cada variable en la predicción de la edad del abulón. Además, se calcularon indicadores de desempeño, como el R², para medir la precisión del modelo.



5. Evaluación

Una vez ajustado el modelo de regresión lineal, se procedió a evaluar su rendimiento utilizando métricas de desempeño que permitieron analizar su efectividad en la predicción de la edad del abulón a través de los anillos. Las métricas utilizadas fueron:

  • Desempeño: Esta métrica refleja la capacidad del modelo para predecir correctamente la edad del abulón. Un alto desempeño indica que el modelo es eficaz en la predicción de los anillos y, por ende, en la estimación de la edad del abulón.

  • Coeficiente de determinación R²: Este indicador mide la proporción de la variabilidad de la edad (anillos) que es explicada por las variables predictoras seleccionadas (longitud, peso total y sexo). Un valor de R² cercano a 1 indica que el modelo es muy efectivo para predecir la edad del abulón, mientras que un valor cercano a 0 sugiere que el modelo no está explicando adecuadamente la variabilidad de la variable objetivo.