Workshop 1, Stats for AI - Bloque 2

Author

Alberto Dorantes

Published

September 24, 2025

Abstract
Este es un Workshop INDIVIDUAL. En este workshop revisaremos lo aprendido sobre modelos de regresión, y aprenderemos cómo incorporar efectos de interacción entre variables, así como efectos cuadráticos utilizando el modelo lineal.

Crea un documento de Google Colab para este Workshop y compártelo conmigo (cdorante@tec.mx).

Para la entrega en Canvas puedes subir la liga de Colab ó el doumento Jupyter (.ipynb).

En este Workshop trabajaremos con un dataset que contiene información real de empresas de Estados Unidos.

1 SOBRE EL DATASET

Tienes que trabajar con el siguiente dataset:

http://www.apradie.com/datos/empresas_2023.csv

Este dataets tiene datos anuales reales de 2023 de poco más de 1,000 empresas de manufactura de Estados Unidos.

Revisa las columnas para familiarizarte con el dataset. Como verás, tiene una estructura de datos llamada de corte transversal, ya que cada observación es información de ventas y utilidades de una empresa para un solo año. En otras palabras, tienes información de muchas empresas en un punto del tiempo.

Entre las columnas está:

  • ventas: Ingresos anuales de la empresa

  • activos: Valor de los activos de corto y largo plazo de la empresa en el año. Este valor es el valor contable de todos los recursos con los que la empresa tuvo en el año para generar operar y generar utilidad.

  • precio_acción: Precio de la acción al cierre del año

  • numacciones: Número de acciones disponibles de la empresa en el mercado

  • retorno_acción: Porcentaje de cambio (logarítmico) del precio de la acción entre 2022 y 2023

  • utilidad: Utilidad operativa de la empresa en el año.

  • deuda: Deuda financiera de la empresa en el año

Toda la información de dinero está en MILES DE DÓLARES AMERICANOS (1,000s USD). Por ejemplo, si una empresa tiene 1,000,000 de ventas quiere decir que vendió mil veces esto (mil millones de USD).

Notas importantes del dataset:

  • Ya se hizo trabajo de limpieza de datos nulos y errores de procesamiento

  • El valor contable de todos los recursos de la empresa (activos) es lo que está en la columna de activos. Algunos ejemplos de recurso de una empresa son: efectivo, inventario, terrenos, edificios, equipos, plantas de producción, etc.

  • El valor de mercado de la empresa se puede calcular multiplicando el precio de la acción (precio_accion) por el número de acciones (numacciones)

  • Normalmente el valor de mercado de una empresa pública (que cotiza en bolsas de valores) es más alto que su valor contable en libros ya que representa no sólo los activos tangibles sino los intangibles que los inversionistas valora, como la marca, la calidad de los productos/servicios, nivel de innovación, etc.

2 CHALLENGE 1

(En clase)

Tienes que diseñar y correr un modelo de regresión múltiple para contestar la siguiente pregunta:

  • Qué factores/variables están relacionados o afectan la productividad de las empresas para generar utilidad con los recursos que tiene?

Decide qué variable - proxy- utilizarás para medir la productividad de las empresas. Puedes decidir si crear una nueva variable utilizando las variables que tienes. También decide qué varibles/factores incluirías com variables X que pueden influir en la productividad de las empresas. Utiliza tu intuición y lo que has aprendido de estadística para seleccionar estas variables/factores.

Tienes que hacer lo siguiente:

  1. Corre y despliega el detalle del modelo (R2, coeficientes)

  2. Interpreta el modelo con tus propias palabras. Interpreta coeficientes en cuanto a tipo de relación, magnitud y significancia estadística.

  3. Menciona qué variable X de tu modelo es la que tiene mayor poder explicativo y por qué?

3 CHALLENGE 2

Como verás, si seleccionaste alguna variable proxy Y como utilidad ó ventas, lo que realmente estás midiendo con esta variable no sólo es productividad, sino también tamaño de la empresa. La utilidad de una empresa está determinada no sólo por su productividad, sino también por su tamaño ó recursos.

En esta estructura de datos de corte transversal tenemos empresas de tamaños muy diverso por lo que la variable de utilidad no es la más adecuada para medir la productividad de una empresa.

Podemos pensar en una variable proxy de productividad que pueda tener valores comparables sin importar el tamaño de la empresa. Esta variable proxy puede ser el % que representa la utilidad del valor de sus recursos. Este porcentaje puede ser comparable entre cualquier tamaño de empresa.

Así que utiliza la variable Retorno operativo sobre Activos (ROA) como variable proxy Y. Esta variable puedes generarla como la división entre utilidad y activos.

Puedes dejar tus variables X que tenías o hacer modificaciones que creas necesarias.

Haz lo siguiente:

  1. Corre y despliega el detalle del modelo (R2, coeficientes)

  2. Interpreta el modelo con tus propias palabras. Interpreta coeficientes en cuanto a tipo de relación, magnitud y significancia estadística.

  3. Menciona qué variable X de tu modelo es la que tiene mayor poder explicativo y por qué?

4 CHALLENGE 3

A) Diseña un modelo de regresión múltiple para contestar a la siguiente pregunta:

¿ Qué relación tiene el tamaño de la empresa y su productividad ? En otras palabras, cómo afecta el tamaño de la empresa el nivel de su productividad para generar utilidad? Para este modelo NO consideres otra variable X más que el tamaño de la empresa.

Para medir el tamaño de la empresa, utiliza su valor de mercado para clasificar a las empresas en 3 grupos:

  • Pequeña

  • Mediana

  • Grande

Divide la muestra en 3 grupos del mismo tamaño de acuerdo a valor de mercado (grupos de acuerdo a los percentiles 0-33%, 33%-66%, 66%-100%)

Corre el modelo y contesta a la pregunta de acuerdo al resultado del modelo

Para cada grupo, escribe su ecuación de regresión del valor esperado del ROA.

B) Modifica el modelo anterior para contestar la siguiente pregunta:

¿A parte del tamaño de la empresa, qué efecto tiene en la productividad la variable de utilidad por acción?

Basado en el modelo anterior, adiciona como variable X el efecto de la siguiente variable: Utilidad por acción (earnings per share).

Esta variable se ha encontrado que tiene relación importante con la productividad de las empresas. Esta variable puedes calcularla de la siguiente manera:

upa =\frac{\left(\frac{utilidad}{numacciones}\right)}{precio\_accion}

Si la utilidad por acción (upa) es igual a 0.20 se interpreta de la siguiente manera: si las utilidades de la empresa se repartieran a todos los inversionistas, cada inversionista recibiría 20 centavos por cada $1.0 que haya invertido en acciones de la empresa.

Corre el modelo modificado y contesta a la pregunta de acuerdo al resultado del modelo

C) Modifica el modelo anterior para contestar la siguiente pregunta:

¿ Existe alguna interacción entre el tamaño de la empresa y la utilidad por acción en su efecto a la productividad? En otras palabras, ¿El efecto de upa en la productividad es significatamente diferente dependiendo del tamaño de la empresa? Si es así, qué diferencias hay sobre efecto de upa en la productividad de acuerdo al tamaño de la empresa (pequeña, mediana, grande)?

De acuerdo a lo que aprendiste de interacción en modelos de regresión, modifica tu modelo anterior para incluir adecuadamente los efectos de interacción.

Corre el modelo modificado y contesta a la pregunta de acuerdo al resultado del modelo. Asegúrate que interpretas coeficientes y su significancia estadística para contestar la pregunta

Para cada grupo de tamaño, escribe su ecuación de regresión del valor esperado del ROA.

5 CHALLENGE 4

Basado en el modelo de regresión que incluye interacciones de tamaño y upa, cómo modificarías el modelo para responder la siguiente pregunta:

¿ Qué efecto tiene el porcentaje de deuda financiera con respecto a los activos en la productividad de las empresas (ROA), después de tomar en cuenta el efecto de upa y la interacción de upa con tamaño?

Examina si hay un efecto lineal directo y si hay un efecto cuadrático del porcentaje de deuda sobre el ROA

Corre el modelo modificado y contesta a la pregunta de acuerdo al resultado del modelo. Da una interpretación adecuada de los coeficientes relacionados y su significancia estadística.