“Donde otros ven datos, un administrador preparado ve oportunidades.”
1 Proyecto Final: Una breve resumen de la materia con una caja de herramientas útil para el administrador
1.1 Introducción
El presente documento tiene como propósito ofrecer una visión integrada y estructurada de los contenidos abordados en la asignatura de Métodos Cuantitativos Aplicados a la Administración durante el semestre 2026-I. Su elaboración responde a la intención de sintetizar los conceptos fundamentales, organizar los aprendizajes y construir un recurso práctico que facilite su aplicación en el ejercicio profesional de la administración.
El trabajo se compone de dos secciones:
Historias Ocultas de la Estadística
Presenta un pequeño video resumen de las historias detras de la ciencia que dieron origen a la estadistica tal como hoy la conocemos.
Guía para el MBA:
Presenta un panorama general que muestra la relevancia de los Métodos Cuantitativos en la Administración Moderna.
Estas tres secciones fueron diseñadas para ser un apoyo práctico y accesible para estudiantes de cualquier programa de Maestría en Administración. Espero que esta aportación contribuya a facilitar la comprensión de los métodos cuantitativos y sirva como un acompañamiento útil tanto para mis compañeros como para mí en la elaboración de nuestros trabajos académicos a lo largo de la maestría.
2 Historias Ocultas de la Estadística
2.1 Descubre las Historias Ocultas que Fundamentan la Estadística y la Ciencia de Datos.
Si te apasiona la Estadística y la Ciencia de Datos, o si estás buscando cambiar tu actitud hacia estas disciplinas, te invito a explorar las fascinantes historias detrás de los métodos que usamos hoy. En un entorno rico en datos, entender los orígenes de las técnicas cuantitativas es crucial.
Este resumen en video te llevará a través de narrativas históricas que dieron forma a las herramientas esenciales del análisis de datos, mostrando que los conceptos más formales nacieron de problemas prácticos y curiosos:
Cerveza, Té e Hipótesis: Entérate de anécdotas sorprendentes: ¿Sabías que el origen del famoso test t de Student fue ideado por William S. Gosset (publicando bajo el seudónimo “Student”) mientras trabajaba en la cervecería Guinness para monitorear la calidad de su cerveza?
Además, conoce la historia de “La Dama Catando el Té”, que inspiró a Ronald Fisher a desarrollar la idea de la hipótesis nula y a utilizar la distribución hipergeométrica para calcular las probabilidades de acierto.
Visualiza este resumen para apreciar la creatividad y la profundidad histórica inherente a los métodos cuantitativos. Da clic sobre la siguiente imagen para ver el video.
3 Guía para el MBA: La Relevancia de los Métodos Cuantitativos en la Administración Moderna
En el panorama empresarial del siglo XXI, la capacidad de tomar decisiones informadas y estratégicas es más crítica que nunca. Como acertadamente señala el profesor Ruey S. Tsay, nos encontramos en un “entorno rico en datos” donde “las economías y los mercados financieros están más integrados que nunca”. En este contexto, el dominio de los métodos cuantitativos ha dejado de ser una especialidad de nicho para convertirse en una competencia fundamental para cualquier líder de negocios. La intuición y la experiencia siguen siendo valiosas, pero deben ser aumentadas y validadas con un análisis riguroso de la información disponible.
3.1 Estadística vs. Ciencia de Datos
Para navegar este entorno, es crucial distinguir entre dos campos interrelacionados pero distintos: la Estadística y la Ciencia de Datos.
• La Estadística es la rama de las matemáticas que se ocupa de recolectar, analizar e interpretar datos numéricos para hacer predicciones o extraer conclusiones sobre una población. Proporciona el fundamento teórico para cuantificar la incertidumbre.
• La Ciencia de Datos es un subconjunto aplicado que utiliza métodos estadísticos para extraer conocimiento y patrones de grandes volúmenes de datos. Involucra un proceso más amplio que incluye la limpieza, integración y visualización de la información para descubrir tendencias ocultas.
Para aprovechar el poder de los datos, es indispensable entender el ciclo de vida completo del análisis. Esta guía está diseñada para llevarlo a través de este ciclo completo, comenzando con los fundamentos de la exploración de datos, pasando por el análisis de relaciones y la prueba de hipótesis, y culminando en el modelado predictivo—habilidades esenciales para la dirección estratégica moderna.
3.2 El Punto de Partida: De la Obtención de Datos al Análisis Exploratorio (EDA)
Todo gran viaje analítico comienza con un primer paso: la obtención y comprensión de los datos en su estado más puro. La calidad de cualquier modelo predictivo o decisión estratégica depende, en última instancia, de la calidad de la materia prima y de nuestra capacidad para dialogar con ella antes de aplicar técnicas complejas. Esta fase inicial sienta las bases para todo el trabajo posterior.
3.2.1 La Adquisición de Datos: El Combustible del Análisis
En la era digital, el acceso a los datos se ha democratizado.
Herramientas de código abierto como R facilitan la
descarga directa de información desde fuentes abiertas y repositorios
académicos con unas pocas líneas de código. Un ejemplo clásico es el
acceso al famoso conjunto de datos iris, un pilar en la
práctica del aprendizaje automático, que se puede obtener directamente
del Repositorio de Machine Learning de UC Irvine. Esta
facilidad de acceso permite a los profesionales y estudiantes practicar
con datos estructurados y de alta calidad, acelerando la curva de
aprendizaje y la experimentación.
Como ejemplo mostramos el siguiente fragmento de código R con el cual
se realiza una descarga real del dataset iris desde un
repositorio académico (UCI ML Repository). El código adicionalmente va a
realizar la lectura del dataset, la visualización de las primeras filas
con el objetivo de demostrar la facilidad de acceso a datos con la
herramienta R.
# Cargar librería necesaria
library(readr)
# URL del dataset iris desde el UCI Machine Learning Repository
url_iris <- "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
# Descarga y lectura del dataset
iris_uc <- read_csv(
url_iris,
col_names = c("Sepal.Length", "Sepal.Width", "Petal.Length", "Petal.Width", "Species")
)
# Mostrar las primeras filas
head(iris_uc)## # A tibble: 6 × 5
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## <dbl> <dbl> <dbl> <dbl> <chr>
## 1 5.1 3.5 1.4 0.2 Iris-setosa
## 2 4.9 3 1.4 0.2 Iris-setosa
## 3 4.7 3.2 1.3 0.2 Iris-setosa
## 4 4.6 3.1 1.5 0.2 Iris-setosa
## 5 5 3.6 1.4 0.2 Iris-setosa
## 6 5.4 3.9 1.7 0.4 Iris-setosa
3.2.2 Análisis Exploratorio de Datos (EDA): La Primera Conversación con tus Datos
Una vez que tenemos los datos, la tentación puede ser aplicar modelos sofisticados de inmediato. Sin embargo, este es un error común. Primero, debemos realizar un Análisis Exploratorio de Datos (EDA). Acuñado por el estadístico John Tukey, el EDA es el proceso de “mirar los datos para ver qué parecen decir”. Como dijo el propio Tukey, “Es importante entender lo que PUEDES HACER antes de aprender a medir qué TAN BIEN pareces haberlo HECHO”. El EDA es precisamente ese primer paso: entender el potencial de nuestros datos antes de someterlos a pruebas formales. No es un conjunto rígido de reglas, sino un ciclo iterativo y creativo que consiste en:
1. Generar preguntas sobre los datos.
2. Buscar respuestas a través de visualizaciones, transformaciones y modelado.
3. Utilizar lo aprendido para refinar las preguntas existentes y generar otras nuevas.
La importancia crítica de la visualización en el EDA queda perfectamente demostrada por el Cuarteto de Anscombe. Este famoso ejemplo, desarrollado por el estadístico Francis Anscombe en 1973, consiste en cuatro conjuntos de datos que poseen estadísticas descriptivas casi idénticas (media, varianza, correlación, etc.). Sin embargo, al graficarlos, revelan patrones visuales completamente diferentes. Este cuarteto es una poderosa advertencia de por qué confiar únicamente en los resúmenes numéricos puede llevar a conclusiones fundamentalmente erróneas y demuestra que la visualización no es un mero adorno, sino una herramienta de investigación indispensable.
| set | Media de X | Media de Y | Varianza de X | Varianza de Y | Correlación XY |
|---|---|---|---|---|---|
| 1 | 9 | 7.501 | 11 | 4.127 | 0.816 |
| 2 | 9 | 7.501 | 11 | 4.128 | 0.816 |
| 3 | 9 | 7.500 | 11 | 4.123 | 0.816 |
| 4 | 9 | 7.501 | 11 | 4.123 | 0.817 |
Un concepto fundamental para un EDA efectivo es el de los datos ordenados (tidy data). Un conjunto de datos se considera “ordenado” si sigue tres reglas simples pero poderosas:
Cada variable es una columna. Cada columna representa un atributo o una medida específica.
Cada observación es una fila. Cada fila representa una única instancia o unidad de medida.
Cada valor está en su propia celda. La intersección de una fila y una columna contiene un único valor.
Adherirse a este formato simplifica enormemente la manipulación, visualización y modelado de datos. Una vez que hemos explorado y ordenado nuestras variables individualmente, el siguiente paso lógico es investigar cómo se relacionan entre sí.
3.3 Analizando Relaciones: Covarianza y Correlación
Entender cómo se mueven las variables en conjunto es una de las tareas más estratégicas en los negocios. Desde un gestor de portafolios que busca diversificar el riesgo hasta un director de marketing que intenta predecir el comportamiento del consumidor, la capacidad de cuantificar las relaciones entre diferentes métricas es clave para la toma de decisiones.
Para medir estas relaciones, utilizamos dos conceptos estadísticos relacionados: la covarianza y la correlación. Es crucial entender su diferencia:
• La Covarianza es una medida que indica únicamente la dirección de la relación lineal entre dos variables. Un valor positivo significa que ambas variables tienden a moverse en la misma dirección, mientras que un valor negativo indica que se mueven en direcciones opuestas. Sin embargo, la magnitud de la covarianza es difícil de interpretar. Su magnitud depende de las unidades de las variables (por ejemplo, pesos vs. dólares), lo que dificulta comparar la fuerza de la relación entre diferentes pares de variables.
• La Correlación (específicamente, el coeficiente de correlación de Pearson) va un paso más allá. Mide tanto la dirección como la fuerza de la relación lineal, estandarizando el resultado en una escala universal de -1 a 1. Un valor de 1 indica una relación lineal positiva perfecta, -1 una relación lineal negativa perfecta, y 0 indica la ausencia de una relación lineal.
Un ejemplo práctico de su aplicación se encuentra en el mundo financiero. Consideremos las acciones de “The Magnificent Seven” (Apple, Amazon, Google, etc.). Un administrador de portafolio puede calcular una matriz de correlación para entender cómo los precios de estas acciones tienden a moverse entre sí. Visualizar esta matriz como un mapa de calor (heatmap) permite identificar rápidamente qué activos están altamente correlacionados (se mueven juntos) y cuáles no, lo cual es fundamental para construir un portafolio diversificado y gestionar el riesgo de manera efectiva.
## [1] "AAPL" "AMZN" "GOOGL" "NVDA" "META" "MSFT" "TSLA"
No obstante, es vital tener presente la advertencia más importante en el análisis de datos: correlación no implica causalidad. Este es quizás el error más común y peligroso. El ejemplo clásico lo ilustra perfectamente: en un día de verano, el clima soleado causa un aumento en el consumo de helado y, al mismo tiempo, un aumento en las quemaduras solares. El consumo de helado y las quemaduras solares estarán fuertemente correlacionados, pero es evidente que uno no causa el otro; ambos son el resultado de una tercera variable (el sol). Ignorar esta distinción puede llevar a decisiones de negocio basadas en conclusiones completamente falsas.
Para poder validar formalmente las relaciones que observamos y hacer inferencias más allá de la simple descripción, debemos recurrir a los principios de probabilidad que sustentan todo el análisis estadístico.
3.4 La Base de la Inferencia: Distribuciones de Probabilidad
Las distribuciones de probabilidad son el pilar teórico que nos permite pasar de describir una muestra de datos a hacer inferencias sobre la población completa de la que provienen. Nos proporcionan un marco para entender la probabilidad de observar ciertos resultados, lo cual es la base para probar hipótesis y tomar decisiones bajo incertidumbre.
De todas las distribuciones, la más importante y omnipresente es la Distribución Normal. Descubierta y popularizada por figuras como Francis Galton, quien usó su “tabla de Galton” (o quincunce) para demostrarla visualmente, esta distribución tiene propiedades matemáticas elegantes y muy útiles:
Tiene una distintiva forma de campana.
Es perfectamente simétrica alrededor de su centro.
La media, la mediana y la moda son iguales y coinciden en el punto más alto de la campana.
Una de las herramientas más prácticas derivadas de la distribución normal es la Regla Empírica, también conocida como la regla 68-95-99.7. Esta regla nos ofrece una forma rápida de estimar la dispersión de los datos sin necesidad de cálculos complejos:
• Aproximadamente el 68% de los datos se encuentra dentro de una desviación estándar de la media.
• Aproximadamente el 95% de los datos se encuentra dentro de dos desviaciones estándar de la media.
• Aproximadamente el 99.7% de los datos se encuentra dentro de tres desviaciones estándar de la media.
La relevancia de esta regla en la administración es particularmente notable en finanzas. Muchos modelos de riesgo, como el famoso Valor en Riesgo (VaR), se basan en el supuesto de que la probabilidad de los eventos de riesgo (como las fluctuaciones de precios de los activos) sigue una distribución normal. Esta suposición permite a los analistas estimar la pérdida máxima probable de una inversión en un período de tiempo determinado con un cierto nivel de confianza.
Armados con el conocimiento de las distribuciones y cómo describen la probabilidad de los datos, ahora podemos pasar a probar formalmente si las diferencias y relaciones que observamos son estadísticamente significativas o si podrían ser simplemente producto del azar.
3.5 De la Observación a la Conclusión: El Arte de las Pruebas Estadísticas
Las pruebas estadísticas son el procedimiento formal que nos permite tomar decisiones en un entorno de incertidumbre. Nos ayudan a determinar si los patrones, diferencias o relaciones que observamos en una muestra de datos son lo suficientemente fuertes como para concluir que también existen en la población general, o si, por el contrario, podrían deberse simplemente a la variabilidad aleatoria del muestreo.
3.5.1 Fundamentos de las Pruebas de Hipótesis
Una de las historias más célebres para entender el concepto de prueba de hipótesis es el experimento de la “Dama Catadora de Té” de Ronald Fisher. En la década de 1920, una colega de Fisher, la Dra. Muriel Bistol, afirmó que podía distinguir si en una taza de té se había vertido primero la leche o el té. Para probarlo, Fisher ideó un experimento y, lo que es más importante, formuló una hipótesis nula (H₀): la dama no tenía ninguna habilidad especial y estaba simplemente adivinando al azar.
La clave de la idea de Fisher es que la hipótesis nula no se puede probar directamente, pero sí se puede refutar si los resultados del experimento son lo suficientemente improbables bajo el supuesto de que H₀ es cierta.
Esto nos lleva a dos conceptos fundamentales:
• p-value (valor p): Es la probabilidad de obtener resultados al menos tan extremos como los que se observaron en el experimento, asumiendo que la hipótesis nula es verdadera. Un p-value pequeño (por ejemplo, 0.01) sugiere que nuestros datos observados son muy poco probables si la hipótesis nula fuera cierta, lo que pone en duda la validez de H₀.
• Nivel de Significación (alfa, α): Es un umbral de riesgo que el investigador establece antes de realizar la prueba (comúnmente 5% o 0.05). Representa la probabilidad máxima que estamos dispuestos a aceptar de cometer un Error de Tipo I: rechazar la hipótesis nula cuando en realidad es verdadera. Si el p-value es menor que alfa, rechazamos la hipótesis nula.
Enseguida se muestra un mapa de calor donde se muestran los resultados del experimento de Ronald Fisher sobre la dama catadora de té.
H₀ (nula): La persona no distingue entre té y leche → acierta al azar.
H₁ (alternativa): La persona sí distingue → acierta más de lo esperable por azar.
En este primer experimento, la dama acierta correctamente a las 4 tazas de leche pero falla una de las tazas donde primero se vertió el té.
## LechePrimero TePrimero
## PredijoLeche 4 0
## PredijoTe 1 3
##
## Fisher's Exact Test for Count Data
##
## data: tabla
## p-value = 0.07143
## alternative hypothesis: true odds ratio is greater than 1
## 95 percent confidence interval:
## 0.7957678 Inf
## sample estimates:
## odds ratio
## Inf
El resultado de la prueba de Fisher muestra que no hay evidencia para rechazar la hipotesis nula H₀ ya que p-value ≥ 0.05 por lo tanto los aciertos podrian deberse al azar.
Enseguida veamos otro ejemplo, donde la dama acierta correctamente los 8 casos, identificando cuáles fueron las tazas donde se virtió primero la leche y cuáles aquellas dónde se virtió primero el té:
## Té primero Leche primero
## Té primero 4 0
## Leche primero 0 4
El resultado de la prueba de Fisher muestra que hay evidencia para rechazar la hipotesis nula H₀ ya que p-value < 0.05 por lo tanto sí existe evidencia estadistica de que la dama sí distingue correctamente el orden en que se sirvió la bebida en su té.
##
##
## ---
## Resultados de la prueba exacta de Fisher (one-sided, alternative = 'greater'):
##
## Fisher's Exact Test for Count Data
##
## data: contingency_table
## p-value = 0.01429
## alternative hypothesis: true odds ratio is greater than 1
## 95 percent confidence interval:
## 2.003768 Inf
## sample estimates:
## odds ratio
## Inf
##
## Interpretación breve:
## - p-value pequeño indica que observar 8/8 por azar es muy improbable.
## - Con p < 0.05 rechazamos H0: la evidencia sugiere que la dama distingue mejor que al azar.
3.5.2 Comparando Proporciones con Datos Categóricos: La Prueba Chi-Cuadrado (χ²)
Cuando nuestras variables no son números continuos sino categorías (ej. “fumador” vs. “no fumador”, “cliente” vs. “no cliente”), la prueba Chi-cuadrado (χ²) es la herramienta adecuada. Se utiliza para determinar si existe una asociación estadísticamente significativa entre dos variables categóricas.
La prueba Chi-cuadrado compara las frecuencias observadas en una tabla de contingencia (los datos reales del estudio) con las frecuencias que esperaríamos ver si no hubiera ninguna relación entre las dos variables. Si la diferencia entre lo observado y lo esperado es suficientemente grande, podemos rechazar la hipótesis nula de que no hay asociación. Esta prueba es extremadamente útil en marketing y ciencias sociales para analizar datos de encuestas, como las respuestas a una escala de Likert.
3.5.3 Ejemplo Prueba χ²
Para ilustrar su aplicación, consideremos una investigación sobre la asociación entre el hábito de fumar en mujeres embarazadas durante la gestación y el bajo peso del bebé al nacer. Enseguida se muestra la aplicación de la prueba Chi-Cuadrado (χ²) usando datos simulados generados mediante R (400 observaciones).
3.5.3.1 Generación de Datos Simulados
En la siguiente tabla se pueden observar las primeras 10 observaciones de un total de 400 generadas mediante simulación en R:
| Fumar | Bajo_Peso |
|---|---|
| No fuma | Sí |
| Fuma | No |
| No fuma | Sí |
| Fuma | No |
| Fuma | No |
| No fuma | No |
| No fuma | No |
| Fuma | No |
| No fuma | No |
| No fuma | No |
3.5.3.2 Tabla de Contingencia
En la siguiente tabla de contingencia se muestran las frecuencias observadas:
| No | Sí | |
|---|---|---|
| Fuma | 68 | 47 |
| No fuma | 257 | 28 |
3.5.3.3 Definición de Hipótesis de la Prueba Ji-Cuadrada
Enseguida se define tanto la hipótesis nula como la hipótesis alternativa de la siguiente manera:
H₀ (Hipótesis nula):
El hábito de fumar durante el embarazo no está relacionado con el bajo peso al nacer.H₁ (Hipótesis alternativa):
El hábito de fumar sí está relacionado con el bajo peso al nacer.
3.5.3.4 Prueba χ²-Cuadrada
Ahora se aplica la prueba χ² directamente en R, donde:
X-squared → estadístico χ²
df → grados de libertad
p-value → valor p
Si p < 0.05, rechazamos la H₀ y concluimos que hay relación entre fumar y el bajo peso de los bebés al nacer.
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: tabla
## X-squared = 49.819, df = 1, p-value = 1.686e-12
3.5.3.5 Resultado e Interpretación
## [1] "Rechazamos H0: Existe evidencia estadística de que fumar durante el embarazo se relaciona con un mayor riesgo de bajo peso al nacer."
3.5.3.6 Gráficas Útiles: Mosaico (ideal para variables categóricas)
La siguiente gráfica de mosaico muestra visualmente la relación entre dos variables categóricas: fumar en el embarazo vs bajo peso al nacer
El ancho de cada rectángulo representa la proporción de mujeres embarazadas que fuman / no fuman.
El alto de cada rectángulo representa la proporción de bajo peso al nacer dentro de cada grupo.
Esta gráfica de mosaico revela que fumar durante el embarazo está fuertemente asociado con el bajo peso al nacer. El grupo de madres fumadoras (columna izquierda, más pequeña) muestra una proporción sustancial de bebés con bajo peso (en turquesa), mientras que en el grupo mucho más grande de madres no fumadoras (columna derecha), la proporción de bajo peso es considerablemente menor.
Adicionalmente, el tamaño de las columnas indica que la mayoría de las madres en este estudio no fumaron durante el embarazo, pero entre las que sí fumaron, el riesgo de tener un bebé con bajo peso es notablemente más alto
3.5.3.7 Gráficas Útiles: Barras apiladas con proporciones
La siguiente gráfica de barras apiladas con proporciones (útil cuando se quiere comparar porcentajes dentro de grupos) muestra que existe una clara relación entre el hábito de fumar y el bajo peso. Para los bebés cuyas madres fuman durante el embarazo, aproximadamente 40% presenta bajo peso (en turquesa), mientras que solo alrededor del 10% de las bebés de madres que no fuman en el embarazo presentan bajo peso al nacer. Esto indica que la prevalencia de bajo peso al nacer es cuatro veces mayor en madres fumadoras que en no fumadoras, sugiriendo que fumar es un factor asociado significativamente con tener un peso corporal más bajo.
Este análisis muestra cómo una prueba Chi-cuadrada permite evaluar si dos variables categóricas están asociadas. Las gráficas refuerzan la interpretación visual de la relación entre el hábito de fumar y el bajo peso del bebé.
3.5.4 Comparando Medias con Datos Continuos: t-Test y ANOVA
Cuando trabajamos con datos continuos y queremos comparar los promedios (medias) entre diferentes grupos, utilizamos dos pruebas principales: el t-Test y el ANOVA.
3.5.4.1 El t-Test
Esta prueba tiene un origen fascinante en la industria. Fue desarrollada a principios del siglo XX por William Sealy Gosset, un químico que trabajaba en la cervecería Guinness en Dublín. Debido a una política de la empresa que prohibía a sus empleados publicar investigaciones, Gosset publicó su trabajo bajo el seudónimo de “Student”, por lo que a menudo se le conoce como el “t-Test de Student”. Lo desarrolló como una forma económica de monitorear la calidad de la cerveza utilizando muestras pequeñas.
El t-Test se utiliza para comparar las medias de uno o dos grupos. Sus variantes más comunes son:
• De una muestra: Se usa para comparar la media de un solo grupo con un valor conocido. Ejemplo: ¿El nivel promedio de Salmonella en un lote de helado es significativamente mayor a 0.3 MPN/g?
| Media | Mediana | SD | N |
|---|---|---|---|
| 0.3536147 | 0.3572476 | 0.0718228 | 40 |
##
## One Sample t-test
##
## data: salmonella
## t = 4.7212, df = 39, p-value = 1.503e-05
## alternative hypothesis: true mean is greater than 0.3
## 95 percent confidence interval:
## 0.3344809 Inf
## sample estimates:
## mean of x
## 0.3536147
• De dos muestras independientes: Compara las medias de dos grupos distintos. Ejemplo: ¿Hay una diferencia significativa en el tiempo de reacción entre un grupo de pacientes que tomó un medicamento y un grupo que tomó un placebo?
| Grupo | Tiempo |
|---|---|
| Medicamento | 223.1296 |
| Medicamento | 262.4355 |
| Medicamento | 266.0175 |
| Medicamento | 222.2222 |
| Medicamento | 235.7129 |
| Medicamento | 243.5188 |
| Medicamento | 263.8129 |
| Medicamento | 255.0110 |
| Medicamento | 270.1470 |
| Medicamento | 261.4647 |
##
## Welch Two Sample t-test
##
## data: medicamento and placebo
## t = -2.9183, df = 77.561, p-value = 0.004604
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -23.60559 -4.45852
## sample estimates:
## mean of x mean of y
## 252.4248 266.4569
• Pareado (o de muestras relacionadas): Compara las medias de un mismo grupo en dos momentos diferentes o bajo dos condiciones distintas. Ejemplo: ¿Los mismos autos obtienen un mejor kilometraje con gasolina premium en comparación con la gasolina regular?
| Auto | Regular | Premium |
|---|---|---|
| 1 | 15.02410 | 16.03626 |
| 2 | 12.23923 | 12.87174 |
| 3 | 14.48032 | 15.98498 |
| 4 | 14.68314 | 16.16607 |
| 5 | 14.13865 | 14.97062 |
| 6 | 14.01552 | 14.68624 |
| 7 | 13.83369 | 14.37475 |
| 8 | 14.32553 | 15.42334 |
| 9 | 13.48904 | 14.38835 |
| 10 | 15.23970 | 16.77000 |
##
## Paired t-test
##
## data: premium and regular
## t = 12.674, df = 29, p-value = 2.375e-13
## alternative hypothesis: true mean difference is not equal to 0
## 95 percent confidence interval:
## 1.047448 1.450553
## sample estimates:
## mean difference
## 1.249
3.5.4.2 ANOVA (Análisis de Varianza)
¿Qué pasa si queremos comparar las medias de tres o más grupos? La solución es el Análisis de Varianza (ANOVA), desarrollado también por R.A. Fisher. La lógica fundamental del ANOVA se basa en determinar si la variabilidad entre los grupos es significativamente mayor que la variabilidad dentro de cada grupo. Si lo es, concluimos que al menos una de las medias de los grupos es diferente.
Este método es una generalización del t-Test que evita el problema de inflar la probabilidad de cometer un Error de Tipo I al realizar múltiples comparaciones. Un ejemplo clásico es un experimento con conejillos de indias para evaluar el efecto de diferentes venenos y antídotos en su tiempo de supervivencia, comparando los tiempos medios entre múltiples grupos de tratamiento.
| Supervivencia | Grupo |
|---|---|
| 10.879049 | Venenо A |
| 11.539645 | Venenо A |
| 15.117417 | Venenо A |
| 12.141017 | Venenо A |
| 12.258575 | Venenо A |
| 15.430130 | Venenо A |
| 12.921832 | Venenо A |
| 9.469878 | Venenо A |
| 10.626294 | Venenо A |
| 11.108676 | Venenо A |
## Df Sum Sq Mean Sq F value Pr(>F)
## Grupo 2 155.35 77.68 33.63 4.68e-08 ***
## Residuals 27 62.37 2.31
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Supervivencia ~ Grupo, data = datos_anova)
##
## $Grupo
## diff lwr upr p adj
## Venenо B-Venenо A -2.836318 -4.521570 -1.151066 0.0007928
## Venenо C-Venenо A -5.573810 -7.259062 -3.888558 0.0000000
## Venenо C-Venenо B -2.737492 -4.422744 -1.052240 0.0011608
Más allá de comparar grupos, los métodos cuantitativos nos permiten ir un paso más allá y modelar las relaciones entre variables para hacer predicciones sobre el futuro.
3.6 Modelado Predictivo: El Poder del Análisis de Regresión
El análisis de regresión es una de las herramientas más potentes y versátiles en el arsenal de la administración moderna. A diferencia de las pruebas que simplemente comparan grupos o miden asociaciones, la regresión nos permite modelar la relación entre variables para predecir resultados futuros, una capacidad de inmenso valor estratégico.
El concepto tiene sus raíces en el trabajo del polímata del siglo XIX, Sir Francis Galton. Al estudiar la relación entre la estatura de los padres y la de sus hijos (un fenómeno que observó por primera vez con el tamaño de las semillas de guisantes), Galton notó un fenómeno curioso: los padres muy altos tendían a tener hijos altos, pero no tan altos como ellos; y los padres muy bajos tendían a tener hijos bajos, pero no tan bajos. Acuñó el término “regresión a la mediocridad” para describir esta tendencia de los valores extremos a acercarse al promedio en la siguiente generación, dando así su nombre a esta técnica estadística.
El objetivo del modelo de regresión lineal simple es encontrar la línea recta que mejor se ajusta a un conjunto de puntos de datos. Esta “mejor” línea se calcula utilizando el método de Mínimos Cuadrados Ordinarios (OLS), que minimiza la suma de las distancias verticales al cuadrado entre cada punto de dato y la propia línea. La ecuación de esta línea nos permite predecir el valor de una variable dependiente (el resultado que queremos predecir) a partir del valor de una o más variables independientes (los predictores).
Una medida clave para evaluar la calidad de un modelo de regresión es el Coeficiente de Determinación (R²). Este valor, que va de 0 a 1, indica la proporción de la varianza en la variable dependiente que es “explicada” por las variables independientes en el modelo. En términos sencillos, el R² nos dice qué tan bien el modelo se ajusta a los datos: un R² de 0.75 significa que el 75% de la variabilidad en nuestro resultado puede ser explicada por los predictores del modelo.
Podemos ilustrar el proceso completo utilizando el propio dataset de Galton sobre las estaturas:
1. Visualizar la relación: Se comienza creando un diagrama de dispersión para observar visualmente la relación entre la altura de los padres (variable independiente) y la altura de los hijos (variable dependiente).
La siguiente gráfica permite observar que existe una relación positiva: padres más altos tienden a tener hijos más altos, pero no de forma perfecta. Este patrón es el origen del concepto de regresión a la mediocridad formulado por Galton.
2. Ajustar un modelo lineal: Se aplica el método de regresión lineal para calcular la línea de mejor ajuste.
3. Interpretar el resultado: El modelo arroja coeficientes que cuantifican la relación. Por ejemplo, el análisis de Galton podría revelar un resultado como: “por cada pulgada de aumento en la altura promedio de los padres, la altura del hijo tiende a aumentar en 0.646 pulgadas”.
## (Intercept) Padres
## 23.9415302 0.6462906
Este fue exactamente el patrón que llevó a Galton a formular su célebre idea de la “regresión a la mediocridad”, ya que la estatura de los hijos tendía a acercarse al promedio poblacional aun cuando los padres fueran muy altos o muy bajos.
Estas herramientas de predicción y modelado no son meramente teóricas; tienen aplicaciones directas y cruciales en campos como las finanzas.
3.7 Aplicaciones Directas en las Finanzas Matemáticas
Los conceptos estadísticos y cuantitativos que hemos explorado convergen de manera poderosa en el campo de las finanzas, un área de especial interés para cualquier estudiante de MBA. La capacidad de transformar datos brutos en inteligencia financiera procesable es una ventaja competitiva fundamental. A continuación, se reiteran dos aplicaciones clave que demuestran este principio.
1. Gestión de Portafolios: El análisis de correlación es la piedra angular de la teoría moderna de portafolios. Para un gestor de inversiones, el objetivo no es solo elegir activos con altos rendimientos, sino construir un portafolio que equilibre rendimiento y riesgo. Al analizar la correlación entre diferentes activos financieros (acciones, bonos, materias primas), un gestor puede diversificar eficazmente. Un portafolio que combina activos poco correlacionados o negativamente correlacionados (que tienden a moverse en direcciones opuestas) será inherentemente más estable y menos vulnerable a las fluctuaciones de un solo sector del mercado.
2. Medición de Riesgo: La Distribución Normal y su Regla Empírica forman la base teórica para muchas herramientas de gestión de riesgo. La más conocida es el Valor en Riesgo (VaR), una métrica estándar en la industria financiera. El VaR estima la pérdida máxima probable que una inversión o portafolio podría experimentar en un período de tiempo determinado, con un nivel de confianza específico (por ejemplo, 95%). Este cálculo a menudo asume que los rendimientos de los activos siguen una distribución normal, permitiendo a las instituciones financieras cuantificar su exposición al riesgo de mercado y tomar decisiones informadas sobre la asignación de capital.
Dominar este ciclo de análisis no es un ejercicio académico; es la competencia que distingue a los líderes que se anticipan al futuro de aquellos que simplemente reaccionan ante él.
3.8 Acordeón del Ciclo de Análisis de Datos
Para consolidar los conceptos discutidos, podemos resumir el proceso completo de análisis de datos en un ciclo de cuatro fases claras y consecutivas. Este resumen sirve como una guía práctica o “cheatsheet” para abordar cualquier problema de negocio basado en datos.
1. Obtención de Datos: La fase de recolección de la materia prima. Actividades clave: extraer datos de fuentes internas (CRM, ERP), repositorios públicos, o a través de APIs y técnicas de web scraping.
2. Exploración y Limpieza (EDA): La fase de “conversación inicial” con los datos. Actividades clave: usar visualizaciones (histogramas, diagramas de dispersión) para entender patrones, detectar anomalías y valores atípicos, y reestructurar la información a un formato ordenado (tidy data) para facilitar el análisis.
3. Análisis y Modelado: La fase donde se extraen respuestas y predicciones. Actividades clave: aplicar técnicas estadísticas formales (pruebas de hipótesis, regresión) para validar relaciones, comparar grupos y construir modelos que pronostiquen resultados de negocio.
4. Conclusiones y Comunicación: La fase final que convierte el análisis en valor. Actividades clave: traducir los hallazgos estadísticos (p-values, coeficientes) en insights de negocio accionables, y comunicar estas recomendaciones de forma clara y persuasiva a los stakeholders para impulsar la toma de decisiones estratégicas.
4 Transparencia
4.1 Cláusula de Transparencia sobre los Resúmenes Generados
Parte del resumen en texto y la estructura para el video sobre las “Historias Ocultas de la Estadística” fueron generados por un modelo de inteligencia artificial (GoogleNotebookLM). Por otro lado la generación de código en R contó con apoyo de inteligencia articifial generativa OpenAI como asistente de programación y sugerencias de sintaxis que fueron revisadas, ejecutadas y depuradas para asegurar su ejecución.
La información contenida en estos resúmenes se basa estrictamente en la interpretación y el extracto del material de clase para la materia de Métodos Cuantitativos Aplicados a la Administración proporcionado por el Dr. Carlos Rodriguez durante el semestre 2026-I.
Este contenido no es una creación original ni se basa en conocimientos externos. Su propósito es organizar y presentar de manera coherente y resumida la información del curso impartido con el fin de ser un pequeño acordeon o texto de estudio rápido para el estudiante.