Workshop 1, Stats for AI - Bloque 2
Puedes continuar trabajando en el mismo cuaderno Colab de tu Workshop 1, o crear uno nuevo. Comparte la liga conmigo (cdorante@tec.mx).
Para la entrega en Canvas puedes subir la liga de Colab ó el doumento Jupyter (.ipynb).
En este Workshop trabajaremos con el mismo dataet que trabajamos el Workshop 1, el cual contiene información real de empresas de Estados Unidos. Este documento esta en:
http://www.apradie.com/datos/empresas_2023.csv
Este dataset tiene datos anuales reales de 2023 de poco más de 1,000 empresas de manufactura de Estados Unidos.
Aquí un recordatorio del dataser:
Entre las columnas está:
ventas: Ingresos anuales de la empresa
activos: Valor de los activos de corto y largo plazo de la empresa en el año. Este valor es el valor contable de todos los recursos con los que la empresa tuvo en el año para generar operar y generar utilidad.
precio_acción: Precio de la acción al cierre del año
numacciones: Número de acciones disponibles de la empresa en el mercado
retorno_acción: Porcentaje de cambio (logarítmico) del precio de la acción entre 2022 y 2023
utilidad: Utilidad operativa de la empresa en el año.
deuda: Deuda financiera de la empresa en el año
Toda la información de dinero está en MILES DE DÓLARES AMERICANOS (1,000s USD). Por ejemplo, si una empresa tiene 1,000,000 de ventas quiere decir que vendió mil veces esto (mil millones de USD).
Notas importantes del dataset:
Ya se hizo trabajo de limpieza de datos nulos y errores de procesamiento
El valor contable de todos los recursos de la empresa (activos) es lo que está en la columna de activos. Algunos ejemplos de recurso de una empresa son: efectivo, inventario, terrenos, edificios, equipos, plantas de producción, etc.
El valor de mercado de la empresa se puede calcular multiplicando el precio de la acción (precio_accion) por el número de acciones (numacciones)
Normalmente el valor de mercado de una empresa pública (que cotiza en bolsas de valores) es más alto que su valor contable en libros ya que representa no sólo los activos tangibles sino los intangibles que los inversionistas valora, como la marca, la calidad de los productos/servicios, nivel de innovación, etc.
1 CHALLENGE
(En clase)
Leer en detalle la Lección 9 “Influential Points” del curso en línea de “Applied Regression Analysis” de PennState Eberly College of Science.
Utilizando el dataset empresas_2023 tienes que aplicar técnicas de diagnóstico explicadas la lección “Influential Points” y proponer e implementar técnicas de corrección antes de volver a correr el modelo de regresión múltiple del Challenge 4 del Workshop 1.
Tienes que realizar los cálculos / estimaciones de la Lección 9 utilizando álgebra matricial y cálculos manuales. Puedes utilizar alguna libraría de Python para corroborar que tus estimaciones son correctas.
En cada paso de tus cálculos tienes que explicar en detalle qué análisis haces y cómo lo haces, así como la interpretación de tus resultados.
Tienes que explicar con tus palabras cómo propones hacer correcciones para tratar casos de observaciones leverage y outliers, y correr una versión final con su interpretación, y comparar tu resultado con el que tuviste en el Challenge 4 del Workshop 1.