Workshop 1, Stats for AI - Bloque 2

Author

Alberto Dorantes

Published

October 6, 2025

Abstract
Este es un Workshop INDIVIDUAL. En este workshop practicamos los temas de diagnóstico en regresión múltiple, que incluye: observaciones leverage, outliers y multicolienariedad

Puedes continuar trabajando en el mismo cuaderno Colab de tu Workshop 1, o crear uno nuevo. Comparte la liga conmigo (cdorante@tec.mx).

Para la entrega en Canvas puedes subir la liga de Colab ó el doumento Jupyter (.ipynb).

En este Workshop trabajaremos con el mismo dataet que trabajamos el Workshop 1, el cual contiene información real de empresas de Estados Unidos. Este documento esta en:

http://www.apradie.com/datos/empresas_2023.csv

Este dataset tiene datos anuales reales de 2023 de poco más de 1,000 empresas de manufactura de Estados Unidos.

Aquí un recordatorio del dataser:

Entre las columnas está:

Toda la información de dinero está en MILES DE DÓLARES AMERICANOS (1,000s USD). Por ejemplo, si una empresa tiene 1,000,000 de ventas quiere decir que vendió mil veces esto (mil millones de USD).

Notas importantes del dataset:

1 CHALLENGE

(En clase)

Leer en detalle la Lección 9 “Influential Points” del curso en línea de “Applied Regression Analysis” de PennState Eberly College of Science.

Utilizando el dataset empresas_2023 tienes que aplicar técnicas de diagnóstico explicadas la lección “Influential Points” y proponer e implementar técnicas de corrección antes de volver a correr el modelo de regresión múltiple del Challenge 4 del Workshop 1.

Tienes que realizar los cálculos / estimaciones de la Lección 9 utilizando álgebra matricial y cálculos manuales. Puedes utilizar alguna libraría de Python para corroborar que tus estimaciones son correctas.

En cada paso de tus cálculos tienes que explicar en detalle qué análisis haces y cómo lo haces, así como la interpretación de tus resultados.

Tienes que explicar con tus palabras cómo propones hacer correcciones para tratar casos de observaciones leverage y outliers, y correr una versión final con su interpretación, y comparar tu resultado con el que tuviste en el Challenge 4 del Workshop 1.