Trabajo Final. Estadística Aplicada

Introducción.

El índice Standard & Poor’s 500 (S&P 500) es uno de los principales referentes del mercado de renta variable estadounidense y mundial, ya que agrupa a 500 de las compañías más representativas por capitalización bursátil. Dentro de este conjunto, el sector de servicios financieros cumple un papel fundamental en la intermediación del ahorro, la financiación de proyectos y la gestión de riesgos en la economía. En este trabajo se analiza una muestra de 67 empresas de dicho sector que forman parte del S&P 500, utilizando una base de datos obtenida de la plataforma Kaggle, que incluye información sobre precios de las acciones, capitalización de mercado, crecimiento de ingresos, peso en el índice y ubicación geográfica, entre otras variables.

A partir de esta información, el objetivo general del trabajo es aplicar herramientas de estadística descriptiva, inferencial y de modelamiento a un contexto real de mercado, con el fin de caracterizar el comportamiento de las empresas financieras y explorar posibles relaciones entre sus indicadores. En la primera sección se realiza una descripción univariada y bivariada de las principales variables, resaltando la heterogeneidad en precios, tamaños y niveles de crecimiento, así como la concentración geográfica del sector. En la segunda sección se construyen intervalos de confianza y se desarrollan pruebas de hipótesis sobre medias, varianzas y proporciones, comparando en particular las empresas ubicadas en las Top 5 ciudades con las de otras ciudades.

Finalmente, en la tercera sección se plantea y estima un modelo de regresión logística que busca explicar la probabilidad de que una empresa presente un precio de acción considerado “alto” (superior a 400 USD) en función de variables financieras clave y de su localización geográfica. Este enfoque permite integrar los conceptos estudiados en el curso en un solo ejercicio aplicado, y reflexionar sobre las posibilidades y limitaciones de la estadística para analizar fenómenos financieros reales.

Sección 1: Estadística Descriptiva.

Identificación de la base de datos

Caracterización del conjunto de datos.

El Standard & Poor’s 500 (S&P 500) es ampliamente reconocido como el índice financiero de referencia a nivel global. Este indicador bursátil refleja el desempeño de 500 de las principales compañías que cotizan en las bolsas de valores de Estados Unidos, integrando una diversidad de sectores económicos. En la práctica, el S&P 500 funciona no solo como un termómetro del mercado estadounidense, sino también como una herramienta clave para inversionistas, gestores de fondos y analistas, quienes lo utilizan para evaluar la salud económica, medir riesgos y comparar rendimientos de diferentes carteras de inversión.

En este caso, se trabajó con un conjunto de datos enfocado en las acciones de las empresas del sector de servicios financieros que forman parte del S&P 500, lo que corresponde a una muestra de 67 compañías. La base incluye 8 variables, entre ellas: precios, capitalización bursátil, ciudad e industria de pertenencia. Con esta información, se identificaron las ciudades con mayor representación en el índice y se compararon con aquellas que tienen menor presencia, buscando reconocer patrones y concentraciones dentro del sector analizado.

La fuente de los datos es la plataforma Kaggle, disponible en el siguiente enlace: https://www.kaggle.com/datasets/andrewmvd/sp-500-stocks/data

Limpieza y preprocesamiento de los datos.

Se realizó la depuración del archivo inicialmente tomando las empresas pertenecientes al sector de servicios financieros, posteriormente se omitió las variables que se encontraban incompletas o no cumplían con los criterios planteados en el proyecto. A continuación, se presentan las variables descartadas: “Exchange”, “Longname”, “Sector”, “EBITDA”, “State”, “Country”, “Fulltimeemployments”.

Se adjunta el código de programación con el que se realizó la limpieza de los datos.

Preprocesamiento de la base de datos

Descripción de las variables

Descripción de variables1

Estadísticas descriptivas de forma univariada, utilizando una tabla 1 con los indicadores de tendencia central, dispersión y posición.

sd(DatosNuevos3$Currentprice)

## [1] 183.8171

sd(DatosNuevos3$Marketcap)

## [1] 1.67007e+11

sd(DatosNuevos3$Revenuegrowth)

## [1] 0.2440448

sd(DatosNuevos3$Weight)

## [1] 0.003004667

sd(DatosNuevos3$Currentprice)/mean(DatosNuevos3$Currentprice)*100

## [1] 90.82266

sd(DatosNuevos3$Marketcap)/mean(DatosNuevos3$Marketcap)*100

## [1] 157.4172

sd(DatosNuevos3$Revenuegrowth)/mean(DatosNuevos3$Revenuegrowth)*100

## [1] 198.4827

sd(DatosNuevos3$Weight)/mean(DatosNuevos3$Weight)*100

## [1] 157.4172

Tabla 1

Tabla 2

Tabla 3

Tabla 4

Comentarios.

- Precios heterogéneos: El precio promedio de las acciones es 202,39, con alta dispersión (desviación estándar 183,82 y aproximadamente un Coeficiente de Variación de 91%), lo que refleja gran diversidad en la valoración de las empresas financieras.

- Capitalización desigual: La capitalización bursátil promedio es de 1,06e+11, pero con un rango muy amplio (de 7,98e+09 a 9,79e+11) y una dispersión elevada (Coeficiente de Variación aproximadamente de 157%), evidenciando brechas significativas en el tamaño de las compañías.

- Ingresos altamente volátiles: El crecimiento de ingresos presenta un promedio bajo (12,3%) pero muy variable (rango entre -60,2% y 133,4%, Coeficiente de Variación aproximadamente de 198%), lo que refleja riesgos y oportunidades diferenciadas.

- Distribución de Weight: El peso relativo de las empresas en el índice es bajo en promedio (0,0019), pero con alta dispersión presentando un coeficiente de variación de 157%, mostrando gran desigualdad en la influencia de cada firma.

- Asimetría entre media y mediana: En todas las variables cuantitativas, la media supera a la mediana, lo que indica sesgo positivo y concentración en pocas empresas de gran tamaño.

- Diversidad estructural: Los altos coeficientes de variación en todas las variables (superiores al 90%) evidencian un sector financiero heterogéneo en precios, tamaño y desempeño.

- Dominancia de grandes corporaciones: La fuerte diferencia entre mínimos y máximos, sobre todo en Marketcap y Currentprice, resalta la presencia de empresas dominantes que concentran gran parte del valor.

Gráficos para variables cualitativas.

Diagramas de barras para Industria y Ciudad

ggplot(DatosNuevos3,aes(x=Industry))+
  geom_bar(fill="blue")+
  labs(title="Diagrama de barras para conteo por industria",x="Industria",y="Conteo")+
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1))

ggplot(DatosNuevos3,aes(x=City))+
  geom_bar(fill="red")+
  labs(title="Diagrama de barras para conteo por ciudad",x="Ciudad",y="Conteo")+ 
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1))

Gráficos para variables cuantitativas.

Histograma

g1=ggplot(DatosNuevos3,aes(x=Currentprice))+
  geom_histogram(fill="green")+
  labs(title="Histograma para Precio actual",x="Precio (USD Dollars)",y="Conteo")
g2=ggplot(DatosNuevos3,aes(x=Marketcap))+
  geom_histogram(fill="yellow")+
  labs(title="Histograma para Capitalización de Mercados",x="Precio (USD Dollars)",y="Conteo")
g3=ggplot(DatosNuevos3,aes(x=Revenuegrowth))+
  geom_histogram(fill="purple")+
  labs(title="Histograma para Crecimiento de ingresos",x="% (Crecimiento)",y="Conteo")
g4=ggplot(DatosNuevos3,aes(x=Weight))+
  geom_histogram(fill="brown")+
  labs(title="Histograma para Porcentaje de participación en el índice S&P500",x="%(Participación en S&P500)",y="Conteo")
grid.arrange(g1,g2,g3,g4)

## `stat_bin()` using `bins = 30`. Pick better value `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value `binwidth`.

Diagrama de cajas

d1=ggplot(DatosNuevos3,aes(x=Currentprice))+
  geom_boxplot(fill="gold")+
  labs(title="Diagrama de cajas para Precio actual",x="Precio (USD Dollars)")
d2=ggplot(DatosNuevos3,aes(x=Marketcap))+
  geom_boxplot(fill="aquamarine4")+
  labs(title="Diagrama de cajas para Capitalización de Mercados",x="Precio (USD Dollars)")
d3=ggplot(DatosNuevos3,aes(x=Revenuegrowth))+
  geom_boxplot(fill="pink")+
  labs(title="Diagrama de cajas para Crecimiento de ingresos",x="Precio (USD Dollars)")
d4=ggplot(DatosNuevos3,aes(x=Weight))+
  geom_boxplot(fill="darkolivegreen1")+
  labs(title="Diagrama de cajas para Porcentaje de participación en el índice S&P500",x="%(Participación en S&P500)")
grid.arrange(d1,d2,d3,d4)

Gráfico Bivariado. Diagrama de cajas por grupos (x=Industria, y=Precio Actual).

ggplot(DatosNuevos3,aes(x=Industry,y=Currentprice))+
  geom_boxplot(fill="#BF3EFF")+
  labs(title="Diagrama de cajas por grupos",x="Industria",y="Precio actual")+ 
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1))

Gráfico Bivariado. Diagrama de cajas por grupos (x=City, y=Precio Actual).

ggplot(DatosNuevos3,aes(x=City,y=Currentprice))+
  geom_boxplot(fill="#BF3EFF")+
  labs(title="Diagrama de cajas por grupos",x="Ciudad",y="Precio actual")+ 
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1))

Comentarios gráficos univariados.

Diagrama de Barras.

Algunas industrias concentran muchas más empresas que otras, el mayor peso está en Asset Management, Banks Regional y Seguros de Propiedad, por lo que son industrias claves en el sector analizado.

Otras industrias como Reinsurance y Seguros Diversificados tienen una representación mínima, indicando menor relevancia.

Diagrama de Barras conteo por ciudad.

Se analizaron dos grupos, el top 5 de ciudades con mayor número de empresas y el otro grupo son las empresas restantes en el resto del país.

El gráfico muestra que, aunque en el top 5 sigue siendo un polo importante, la mayor parte de las empresas analizadas están localizadas en varias ciudades, esto refleja la descentralización geográfica del sector financiero, donde múltiples regiones aportan significativamente a la muestra.

Histogramas.

Precio actual: La mayoría de los precios de las acciones se concentran en rangos bajos (0 – 250 USD), mostrando un grupo pequeño alrededor de los 500 dólares y un dato atípico, donde es la empresa Barack con una acción por encima de 1000 dólares

Capitalización: La gran mayoría de empresas tienen capitalizaciones relativamente pequeñas. Pocas empresas tienen capitalizaciones enormes.

Crecimiento: Se observa que la mayoría de empresas tienen un crecimiento en torno a 0 – 0.2 (0 % a 20 %). Hay algunos valores negativos (empresas con decrecimiento) y algunos valores muy altos (outliers con gran crecimiento). Indicando que hay un crecimiento moderado en el sector

Porcentaje de Participación: La mayoría de las empresas tienen una participación muy baja (cercana a 0 %). Solo unas pocas empresas tienen una participación más alta (outliers). Mostrando un dato atípico que la empresa con mayor participación es Berkshire Hathaway

Diagrama de Cajas.

Precio actual: La caja es estrecha, lo que indica que la mayoría de los precios se concentran en un rango relativamente bajo. Hay varios datos atípicos, hay empresas con acciones caras.

Capitalización: La gran mayoría de empresas tienen capitalizaciones bajas, pues la caja está muy cerca del origen. Esto refleja la realidad del mercado: pocas compañías dominan con capitalizaciones gigantes

Crecimiento: El crecimiento está bastante concentrado, pero con excepciones importantes.

Porcentaje de Participación: La caja muestra que casi todas las empresas tienen participación muy baja dentro del índice. Es un mercado altamente concentrado en pocas empresas.

Comentarios gráficos bivariados.

Diagrama de cajas por ciudades.

El gráfico muestra que las empresas del top 5 tienden a tener precios de acción más elevados y con mayor dispersión, mientras que las de otras ciudades se concentran en valores más bajos. Sin embargo, en ambos grupos existen compañías excepcionales que se destacan como outliers con precios muy altos.

Diagrama de cajas por grupos.

Se ve una mayor dispersión y precios más altos en Credit Services y Financial Data & Stock Exchanges, lo que sugiere que estas industrias tienen empresas con gran variabilidad y cotizaciones más elevadas, por el lado contrario, hay estabilidad y precios más bajos en Banks (Diversified y Regional) y Insurance - Reinsurance, con rangos muy estrechos. Se da a entender que la variabilidad del precio depende fuertemente de la industria, unos con mayor concentración y otros con mayor dispersión, también algunos pocos con datos atípicos.

Matriz de correlación

cor(DatosCuantitativos)

##               Currentprice   Marketcap Revenuegrowth      Weight
## Currentprice    1.00000000  0.29244814    0.08680647  0.29244814
## Marketcap       0.29244814  1.00000000   -0.05920392  1.00000000
## Revenuegrowth   0.08680647 -0.05920392    1.00000000 -0.05920392
## Weight          0.29244814  1.00000000   -0.05920392  1.00000000

La matriz de correlación muestra que la mayoría de las variables no tienen una relación significativa, con coeficientes cercanos a 0. Se observa una débil correlación negativa entre Revenue growth y Marketcap (≈ -0.0592), y una débil correlación positiva entre Current price y Marketcap (≈ 0.29). La única correlación fuerte es entre Marketcap y Weight (coeficiente = 1), lo cual se debe a que Weight se calcula directamente a partir de Marketcap, representando su participación en el índice S&P.

ggplot(DatosCuantitativos, aes(x=Marketcap,y=Revenuegrowth))+
  geom_jitter(color="hotpink")+
  geom_smooth(method = lm, color="maroon")+
  labs(x="Capitalización de Mercado",y="Crecimiento de ingresos")

## `geom_smooth()` using formula = 'y ~ x'

ggplot(DatosCuantitativos, aes(x=Weight,y=Currentprice))+
  geom_jitter(color="hotpink2")+
  geom_smooth(method = lm, color="maroon1")+
  labs(x="Porcentaje de participación en el índice S&P500",y="Precio actual")

## `geom_smooth()` using formula = 'y ~ x'

Sección 2: Intervalos de confianza y pruebas de hipótesis

Esta sección desarrolla análisis estadísticos aplicados a una muestra de 67 empresas del sector de servicios financieros que hacen parte del índice S&P 500. El objetivo es aplicar conceptos de intervalos de confianza y pruebas de hipótesis sobre variables cuantitativas y proporciones.

La variable cualitativa “City” fue recodificada en dos grupos: Top 5 ciudades con mayor frecuencia y Otras ciudades. A partir de esta clasificación, se comparan dos subpoblaciones.

- Definición de variables cuantitativas.

A continuación, se identifican las variables cuantitativas seleccionadas para el análisis estadístico. Estas variables contienen información financiera clave de las empresas del sector de servicios financieros y serán utilizadas para estimaciones puntuales, intervalos de confianza y pruebas de hipótesis:

# Mostrar tabla
knitr::kable(tabla_variables, caption = "Descripción de las variables utilizadas en el análisis")

Descripción de las variables utilizadas en el análisis
Variable	Descripción	Tipo
Currentprice	Precio actual del activo	numeric
Marketcap	Capitalización de mercado	numeric
Revenuegrowth	Crecimiento de ingresos	numeric
Weight	Peso asignado en el portafolio	numeric

Estas variables permiten evaluar el comportamiento financiero de las compañías y comparar resultados entre los grupos definidos por la variable cualitativa City

- Se asume normalidad.

Como segundo punto, se asume normalidad de las variables cuantitativas con fines metodológicos, a pesar de que los datos no presentan una distribución normal según las pruebas realizadas. Esta decisión permite aplicar procedimientos paramétricos que simplifican el desarrollo del trabajo y mantienen coherencia con los contenidos abordados en clase. No obstante, se reconoce que, ante la ausencia de normalidad, una alternativa válida sería el uso de pruebas no paramétricas, las cuales no requieren este supuesto y podrían ofrecer resultados más robustos en contextos similares.

- Nivel de confianza y nivel de significancia.

Se adopta un nivel de confianza del 95%, lo que implica un nivel de significancia (α) del 5% para todas las pruebas estadísticas realizadas.

Estimaciones puntuales y por intervalos del promedio y la desviación estándar

Cálculo e interpretación de las estimaciones puntuales de una población

Se presentan las estimaciones puntuales del promedio y la desviación estándar para las variables cuantitativas analizadas, con el fin de caracterizar la muestra en términos de magnitud y dispersión. Estas medidas permiten comprender el comportamiento financiero de las empresas del sector y sirven como base para los análisis inferenciales posteriores.

- Currentprice presenta un precio promedio de aproximadamente 202.39 USD, con una desviación estándar de 183.82 USD, lo que indica una alta variabilidad entre los precios de las acciones dentro del sector financiero. Esta dispersión sugiere la coexistencia de empresas con valores bursátiles muy distintos.

- Marketcap tiene un promedio de 106.09 mil millones USD, con una desviación estándar de 167.01 mil millones USD, reflejando una amplia dispersión en el tamaño de las empresas analizadas. Esto evidencia la presencia de compañías tanto de gran escala como de menor capitalización dentro del conjunto de datos.

- Revenuegrowth muestra un crecimiento promedio de 12.30%, con una desviación estándar de 24.40%, lo que sugiere diferencias significativas en el desempeño de ingresos entre compañías. Esta variabilidad puede estar asociada a factores como el modelo de negocio, la etapa de desarrollo o el entorno competitivo.

- Weight tiene un promedio de 0.00191, con una desviación estándar de 0.00300, lo que indica que la mayoría de las empresas tienen un peso relativamente bajo dentro del índice S&P 500, aunque con algunas excepciones notables que poseen una influencia considerable en el mercado.

Cálculo e interpretación de las estimaciones por intervalos de una población

Los siguientes intervalos de confianza del 95% permiten estimar con mayor precisión los parámetros poblacionales de las variables cuantitativas analizadas. Cada intervalo refleja el rango dentro del cual se espera que se encuentre el valor verdadero del parámetro, considerando la variabilidad de la muestra y el nivel de confianza establecido.

Promedio

En cuanto al precio actual de las acciones (`Currentprice`), se estima que el valor medio poblacional se encuentra entre 158.38 USD y 246.41 USD, lo que indica una dispersión moderada en los precios de las acciones dentro del sector financiero.

Para la capitalización de mercado (`Marketcap`), el promedio poblacional se ubica entre 66.10 mil millones USD y 146.08 mil millones USD, lo que refleja una alta heterogeneidad en el tamaño de las empresas analizadas.

En relación con el crecimiento de ingresos (`Revenuegrowth`), se estima que el crecimiento medio poblacional se encuentra entre 6.45% y 18.14%, lo que sugiere un comportamiento financiero variable entre las compañías del sector.

Respecto al peso en el índice (`Weight`), el promedio poblacional se encuentra entre 0.00119 y 0.00263, lo que confirma que la mayoría de las empresas tienen una participación baja en el índice S&P 500, aunque con algunas diferencias entre ellas.

Desviación estándar

En cuanto a la desviación estándar del precio actual de las acciones, se estima que el parámetro poblacional se encuentra entre 157.11 USD y 221.55 USD, lo que indica una alta dispersión en los precios de las acciones dentro del sector.

Para la capitalización de mercado, el intervalo de confianza para la desviación estándar va de 142.74 mil millones USD a 201.29 mil millones USD, evidenciando una gran variabilidad en el tamaño de las empresas incluidas en la muestra.

En el caso del crecimiento de ingresos, la desviación estándar poblacional se encuentra entre 20.86% y 29.41%, lo que muestra diferencias significativas en el desempeño financiero de las compañías analizadas.

Finalmente, la desviación estándar del peso en el índice se estima entre 0.00257 y 0.00362, lo que indica que, aunque la mayoría de las empresas tienen un peso reducido, existen algunas con una influencia relativa considerablemente mayor dentro del índice.

Cálculo e interpretación de las estimaciones puntuales de dos población

Se comparan las estimaciones puntuales del promedio y la desviación estándar de las variables cuantitativas entre dos subpoblaciones definidas por la variable cualitativa `City`: empresas ubicadas en las Top 5 ciudades y aquellas en Otras ciudades. Esta comparación permite identificar diferencias relevantes en magnitud y dispersión entre los grupos.

Promedio (media)

En relación con el precio actual de las acciones, las empresas en las Top 5 ciudades presentan un promedio de 220.67 USD, superior al de las empresas en otras ciudades, que es de 188.45 USD. Esta diferencia sugiere una mayor valoración bursátil en los principales centros financieros.

Para la capitalización de mercado, el promedio en las Top 5 ciudades alcanza los 112.78 mil millones USD, mientras que en otras ciudades es de 100.99 mil millones USD. Aunque la diferencia es moderada, se observa una ligera concentración de empresas de mayor tamaño en las ciudades principales.

En cuanto al crecimiento de ingresos, se presenta un comportamiento inverso: las empresas en otras ciudades tienen un promedio de 13.40%, superior al 10.85% observado en las Top 5. Esto podría indicar un mayor dinamismo en mercados menos concentrados o en expansión.

Respecto al peso en el índice, las empresas en las Top 5 ciudades tienen un promedio de 0.00203, mientras que en otras ciudades es de 0.00182. Esta diferencia refleja una mayor influencia relativa de las empresas ubicadas en los principales centros dentro del índice S&P 500.

Desviación estándar

En cuanto a la variabilidad del precio actual de las acciones, las empresas en las Top 5 ciudades presentan una desviación estándar de 222.14 USD, frente a 149.89 USD en otras ciudades. Esto indica una gama más amplia de valores bursátiles en los principales centros financieros.

Para la capitalización de mercado, la dispersión es considerablemente mayor en otras ciudades, con una desviación estándar de 190.69 mil millones USD, en comparación con 132.70 mil millones USD en las Top 5. Esto sugiere una mayor heterogeneidad en el tamaño de las empresas fuera de los principales núcleos.

En el caso del crecimiento de ingresos, la variabilidad es más alta en otras ciudades (29.65%) que en las Top 5 (15.43%), lo que refuerza la idea de un comportamiento más diverso en mercados secundarios, posiblemente influenciado por factores regionales o sectoriales.

Finalmente, la dispersión del peso en el índice también es mayor en otras ciudades, con una desviación estándar de 0.00343, frente a 0.00239 en las Top 5. Esto indica una distribución más desigual de la influencia relativa en el índice fuera de los principales centros financieros.

Cálculo e interpretación de las estimaciones por intervalos de dos poblaciones

Se presentan los intervalos de confianza del 95% para la media de cada variable cuantitativa, diferenciando entre empresas ubicadas en las Top 5 ciudades y aquellas en Otras ciudades. Estos intervalos permiten estimar el valor medio poblacional con un margen de precisión, considerando la variabilidad de cada grupo.

En cuanto al precio actual de las acciones, las empresas ubicadas en las Top 5 ciudades presentan un intervalo de confianza de [167.47, 273.86] USD, mientras que las empresas en otras ciudades tienen un intervalo de [152.55, 224.34] USD. Aunque los rangos se superponen parcialmente, se observa una tendencia hacia precios más altos en las principales ciudades.

Para la capitalización de mercado, el intervalo de confianza en las Top 5 ciudades es de [81,002,764,516, 144,554,222,011] USD, mientras que en otras ciudades es de [55,328,295,930, 146,649,948,058] USD. A pesar de que los límites superiores son similares, las empresas en las Top 5 presentan una capitalización mínima más elevada, lo que sugiere una mayor concentración de grandes empresas en esos centros financieros.

En relación con el crecimiento de ingresos, las empresas en las Top 5 ciudades tienen un intervalo de [0.0716, 0.1455], mientras que las de otras ciudades presentan un rango más amplio de [0.0630, 0.2050]. Esto indica una mayor variabilidad y potencial de crecimiento en las empresas ubicadas fuera de los principales centros financieros.

Respecto al peso en el índice, el intervalo para las Top 5 ciudades es de [0.00146, 0.00260], y para las otras ciudades es de [0.00100, 0.00264]. Aunque los rangos son similares, las empresas en las Top 5 tienden a tener un peso ligeramente más alto en promedio dentro del índice S&P 500.

Por otro lado, los intervalos de confianza del 95% para la desviación estándar permiten estimar la variabilidad poblacional de cada variable cuantitativa, diferenciando entre los mismos dos grupos. Estos rangos reflejan el grado de dispersión de los datos dentro de cada subpoblación.

Para el precio actual de las acciones, la desviación estándar en las Top 5 ciudades se encuentra entre [189.86, 267.75] USD, mientras que en otras ciudades va de [128.11, 180.66] USD. Esto sugiere una mayor dispersión de precios en las principales ciudades, posiblemente debido a la presencia de empresas con valores bursátiles más extremos.

En cuanto a la capitalización de mercado, el intervalo en las Top 5 ciudades es de [113,421,491,218, 159,948,000,000] USD, y en otras ciudades de [162,983,484,140, 229,840,817,866] USD. La mayor dispersión en otras ciudades indica una mayor heterogeneidad en el tamaño de las empresas fuera de los principales centros financieros.

Para el crecimiento de ingresos, las Top 5 ciudades presentan un intervalo de desviación estándar entre [0.1319, 0.1860], mientras que en otras ciudades el rango es de [0.2534, 0.3574]. Esta diferencia refleja una mayor variabilidad en el desempeño financiero de las empresas fuera de las ciudades principales.

Finalmente, en el caso del peso en el índice, el intervalo de desviación estándar en las Top 5 ciudades es de [0.00204, 0.00288], mientras que en otras ciudades es de [0.00293, 0.00414]. Esto indica que las empresas fuera de las Top 5 presentan una distribución más desigual en su influencia relativa dentro del índice S&P 500.

Estimación puntual y por intervalos de la proporción de acuerdo a la variable cualitativa

Se presenta la estimación puntual y por intervalo de la proporción de empresas según la variable cualitativa `City`, que clasifica las observaciones en dos grupos: Top 5 ciudades y Otras ciudades. Esta proporción permite conocer la distribución relativa de las empresas dentro de cada subpoblación geográfica y sirve como base para los análisis comparativos posteriores.

La estimación puntual indica que el 56.72% de las empresas pertenecen al grupo de Otras ciudades, mientras que el 43.28% se encuentran en las Top 5 ciudades. Esta diferencia revela que, dentro del conjunto de datos analizado, existe una mayor representación de empresas ubicadas fuera de los principales centros financieros.

Para complementar, se calcula el intervalo de confianza del 95% para la proporción de empresas en las Top 5 ciudades, obteniendo un rango de [0.3142, 0.5515]. Esto significa que, con un 95% de confianza, se espera que la proporción real de empresas en las Top 5 ciudades se encuentre entre 31.42% y 55.15%. Este intervalo refleja la incertidumbre asociada a la estimación muestral y permite realizar inferencias sobre la distribución poblacional del sector financiero.

Diferencia entre las proporciones de las variables cuantitativas, con base en la variable cualitativa

Usando la variable cuantitativa Currentprice se define el éxito cómo:

Yi = Precio de la acción superior a 400 USD.

1 va a ser Top 5 de ciudades, 2 va a ser Otras ciudades.

Se busca saber si existe una diferencia significativa entre las proporciones de empresas exitosas ubicadas en las Top 5 ciudades frente a aquellas en Otras ciudades, dentro del sector de servicios financieros.

Se presenta el intervalo de confianza del 95% para la diferencia de proporciones entre dos subpoblaciones definidas por la variable cualitativa `City`. Esta estimación permite evaluar si existe una diferencia significativa en la proporción de éxito (según el criterio definido previamente) entre empresas ubicadas en las Top 5 ciudades y aquellas en Otras ciudades.

El intervalo obtenido para la diferencia de proporciones es [–0.0805, 0.1622]. Este rango incluye el valor cero, lo que indica que no se puede afirmar con un 95% de confianza que exista una diferencia estadísticamente significativa entre las proporciones de éxito de los dos grupos.

Esto significa que, aunque se observa una diferencia en las proporciones muestrales, dicha diferencia podría deberse al azar o a la variabilidad inherente a la muestra. Por lo tanto, no hay evidencia suficiente para concluir que la ubicación geográfica (Top 5 vs Otras ciudades) influya de manera significativa en la proporción de empresas exitosas bajo el criterio establecido.

Pruebas de hipótesis para los parámetros de una población y de dos poblaciones

Prueba de hipótesis para verificar la normalidad de la variable cuantitativa “Currentprice”

H0: Los datos provienen de una normal.

H1: Los datos no provienen de una normal

Dado que el valor p es menor que el nivel de significancia (1.063e-07 < α = 0.05), se rechaza la hipótesis nula.

Se concluye que los datos de la variable Currentprice no provienen de una distribución normal.

Prueba de hipótesis para una población: Marketcap

H0: μ = 90,000,000,000

H1: μ > 90,000,000,000

Se realiza una prueba de hipótesis para una sola población con el objetivo de evaluar si la capitalización promedio de mercado (`Marketcap`) de las empresas del sector financiero supera los 90,000 millones USD. Para ello, se plantea una hipótesis nula (H0) que establece que el valor medio poblacional es igual a 90,000 millones USD, frente a una hipótesis alternativa (H1) que propone que dicho valor es mayor.

La prueba se lleva a cabo bajo el supuesto de normalidad, utilizando una prueba t para una muestra con cola derecha. El valor observado del estadístico t es 0.7887 y se obtiene un valor p de 0.2166.

Dado que el valor p (0.2166) es mayor que el nivel de significancia α = 0.05, no se rechaza la hipótesis nula. Por lo tanto, no se cuenta con evidencia estadística suficiente para afirmar que la capitalización promedio de mercado de las empresas del sector financiero sea superior a 90,000 millones USD.

Prueba de hipótesis para dos poblaciones

Paso 1. Definir si las varianzas son iguales o diferentes (Razón de varianzas)

H0: σ₁²/σ₂² = 1→ Las varianzas poblacionales son iguales.

H1: σ₁²/σ₂² ≠ 1→ Las varianzas poblacionales son diferentes.

El valor del estadístico F obtenido es 2.1964 y un valor p de 0.02558. Dado que este valor p es menor que el nivel de significancia α = 0.05, se rechaza la hipótesis nula que plantea igualdad de varianzas entre los dos grupos.

Por lo tanto, se concluye que existe una diferencia estadísticamente significativa entre las varianzas de los precios actuales de las acciones en empresas ubicadas en las Top 5 ciudades y aquellas en Otras ciudades.

En consecuencia, para la prueba de diferencia de medias entre ambos grupos, se debe aplicar la prueba t con varianzas desiguales.

Paso 2. Realizar la prueba de hipótesis de diferencia de medias.

H0: μ₁ - μ₂ = 0 → No hay diferencia en el promedio de Currentprice entre los dos grupos.

H1: μ₁ - μ₂ ≠ 0 → Existe una diferencia en el promedio de Currentprice entre los dos grupos.

Dado que en el paso anterior se concluyó que las varianzas son diferentes, se aplica la prueba t de Welch para muestras independientes con varianzas desiguales. El resultado arroja un estadístico t de 0.67288 y un valor p de 0.5043.

Como el valor p es mayor que el nivel de significancia α = 0.05, no se rechaza la hipótesis nula. Esto indica que no hay evidencia estadística suficiente para afirmar que existe una diferencia significativa en el promedio de `Currentprice` entre los dos grupos.

Además, el intervalo de confianza del 95% para la diferencia de medias es [–64.13, 128.57], lo que incluye el valor cero y refuerza la conclusión de que la diferencia observada podría deberse al azar o a la variabilidad muestral. Por lo tanto, se considera que los precios promedio de las acciones son estadísticamente similares entre empresas ubicadas en las Top 5 ciudades y aquellas en otras ciudades.

Sección 3: Planteamiento de Modelo de Regresión Logística.

¿Por qué usar un modelo de regresión logística?

En una regresión lineal clásica (MCO) con variable respuesta cuantitativa, los supuestos centrales son:

- Relación lineal entre la variable respuesta y los predictores.

- Normalidad de los errores.

- Homocedasticidad (varianza constante de los errores).

- Independencia de las observaciones.

- Ausencia de multicolinealidad fuerte entre los predictores.

En la base de datos usada:

1. Las variables cuantitativas están lejos de ser normales: En particular, para Currentprice realizaron la prueba de Shapiro–Wilk y obtuvieron un valor p = 1.063e-07, menor que 0,05, ya mostró evidencia estadística formal de no normalidad. El comportamiento tan asimétrico y con datos atípicos extremos en Currentprice y Marketcap hace muy poco razonable suponer errores normales.

2. Los histogramas y diagramas de caja de Currentprice, Marketcap, Revenuegrowth y Weight muestran fuerte asimetría, valores atípicos y colas largas, es decir, distribuciones muy alejadas de la normal. Esto se puede asociarse con heterocedasticidad (varianza no constante).

En un primer momento se consideró ajustar un modelo de regresión lineal entre las variables financieras cuantitativas (Currentprice, Marketcap, Revenuegrowth, Weight). Sin embargo, las pruebas de normalidad aplicadas anteriormente, particularmente para la variable Currentprice (Shapiro–Wilk con p = 1.063e-07), junto con la fuerte asimetría observada en los histogramas y diagramas de cajas, evidencian que los supuestos de normalidad y homocedasticidad del modelo lineal no se cumplen de forma razonable. Dado que el interés del estudio se orienta a modelar la probabilidad de que una empresa cumpla cierta condición de “éxito”, se opta por emplear un modelo de regresión logística, el cual está diseñado para variables respuesta binarias y no exige normalidad de la variable dependiente.

Definición del “éxito” y variable respuesta.

Con base en el análisis desarrollado anteriormente, se define una variable binaria Y_ique clasifica a las empresas según el nivel de su precio actual de la acción:

Definimos la variable respuesta \(Y_i\) como: \[ Y_i = \begin{cases} 1, & \text{si } \text{Currentprice}_i > 400 \\ 0, & \text{si } \text{Currentprice}_i \le 400 \end{cases} \]

Esta definición de éxito permite traducir una variable financiera continua (Currentprice) en un criterio práctico de alto precio bursátil, coherente con el análisis previo de proporciones de empresas con precios elevados que se realizó en el Avance 2

Como variables independientes se consideran los indicadores cuantitativos ya trabajados antes:

- X1i: Marketcap (capitalización bursátil de la empresa i).

- X2i: Revenuegrowth (crecimiento de ingresos).

- X3i: Weight (peso de la empresa en el índice S&P 500).

Adicionalmente, se incluye una variable indicadora:

- X4i: City_top5, variable dicotómica que toma el valor 1 si la empresa pertenece al grupo de Top 5 ciudades y 0 si pertenece a Otras ciudades, de acuerdo con la recodificación realizada anteriormente.

Modelo de regresión logística.

Bajo este esquema, se plantea un modelo de regresión logística binaria para explicar la probabilidad de que una empresa presente un precio de acción alto en función de sus características financieras y de su localización geográfica:

\[ \log\left(\frac{\pi_i}{1 - \pi_i}\right) = \beta_0 + \beta_1 \,\text{Marketcap}_i + \beta_2 \,\text{Revenuegrowth}_i + \beta_3 \,\text{Weight}_i + \beta_4 \,\text{City\_top5}_i \]

donde

\[ \pi_i=P(Y_i=1\mid X_i) \]

representa la probabilidad de que la empresa i tenga un precio de acción superior a 400 USD. Esta especificación sigue la estructura general del modelo logístico vista en clase, en la cual el logit (logaritmo de la razón de probabilidades) se modela como una combinación lineal de los predictores.

Interpretación esperada de los coeficientes.

- B1: mide cómo cambia el logit de la probabilidad de tener un precio alto al aumentar la capitalización bursátil. Un B1>0indicaría que empresas más grandes (mayor Marketcap) tienden a tener mayor probabilidad de precio de acción alto.

- B2: refleja el efecto del crecimiento de ingresos. Un B2>0sugeriría que empresas con mayor Revenuegrowth tienen más probabilidad de estar en el grupo de precios altos.

- B3: captura la relación entre el peso en el índice (Weight) y la probabilidad de tener un precio alto.

- B4: compara a las empresas localizadas en el Top 5 de ciudades frente al resto. Si B4>0, pertenecer al grupo de ciudades principales se asocia con una mayor probabilidad de tener un precio de acción superior a 400 USD, controlando por las demás variables.

Justificación de búsqueda de la relación.

El modelo propuesto permite responder a una pregunta de interés práctico en el contexto del sector financiero del S&P 500: “¿Qué tan asociadas están las características financieras de tamaño, crecimiento e importancia dentro del índice, junto con la ubicación geográfica de la empresa, con la probabilidad de que su acción tenga un precio considerado alto?”

Desde la perspectiva de análisis de información financiera, esto ayuda a:

- Identificar factores asociados con precios bursátiles elevados dentro del sector de servicios financieros

- Evaluar si las empresas ubicadas en las principales ciudades financieros (Top 5 ciudades) presentan mayor probabilidad de cotizar a precios altos.

- Proporcionar una herramienta probabilística: el modelo logístico entrega directamente probabilidades de “éxito” que pueden interpretarse y compararse entre empresas con diferentes combinaciones de características.

##########################################
# 1. Preparación de la base de datos     #
##########################################

# (DatosNuevos3 ya existe, con las variables:
#  Currentprice, Marketcap, Revenuegrowth, Weight, City)

# 1.1 Variable binaria de "éxito":
#     Yi = 1 si Currentprice > 400 USD (precio alto)
#     Yi = 0 si Currentprice <= 400 USD (precio no alto)

DatosNuevos3 <- DatosNuevos3 %>%
  mutate(
    Yi = if_else(Currentprice > 400, 1, 0)
  )

# Verificar conteo de 0 y 1
table(DatosNuevos3$Yi)

## 
##  0  1 
## 57 10

# 1.2 Variable indicadora para City (Top 5 vs Otras)
#     City_top5 = 1 si City es "Top 5"
#     City_top5 = 0 si City es "Otras ciudades"

DatosNuevos3 <- DatosNuevos3 %>%
  mutate(
    City_top5 = if_else(City == "Top 5", 1, 0)
  ) %>%
  as.data.table()

# Verificar recodificación
table(DatosNuevos3$City, DatosNuevos3$City_top5)

##                 
##                   0  1
##   Otras ciudades 38  0
##   Top 5           0 29

##########################################
# 2. Ajuste del modelo de regresión logística
##########################################

# Modelo:
# logit(P(Yi = 1)) = β0 + β1*Marketcap + β2*Revenuegrowth +
#                    β3*Weight + β4*City_top5

mod_logit_fin <- glm(
  Yi ~ Marketcap + Revenuegrowth + Weight + City_top5,
  family = binomial(link = "logit"),
  data   = DatosNuevos3
)

summary(mod_logit_fin)

## 
## Call:
## glm(formula = Yi ~ Marketcap + Revenuegrowth + Weight + City_top5, 
##     family = binomial(link = "logit"), data = DatosNuevos3)
## 
## Coefficients: (1 not defined because of singularities)
##                 Estimate Std. Error z value Pr(>|z|)    
## (Intercept)   -2.395e+00  6.348e-01  -3.772 0.000162 ***
## Marketcap      3.336e-12  1.687e-12   1.977 0.048044 *  
## Revenuegrowth  2.484e-01  1.575e+00   0.158 0.874720    
## Weight                NA         NA      NA       NA    
## City_top5      3.653e-01  7.192e-01   0.508 0.611469    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 56.469  on 66  degrees of freedom
## Residual deviance: 52.299  on 63  degrees of freedom
## AIC: 60.299
## 
## Number of Fisher Scoring iterations: 4

En este modelo estamos estimando la probabilidad de que una empresa tenga un precio de acción superior a 400 USD. Para eso, se toma esa probabilidad y se le aplica una transformación (conocida como logit) que permite trabajarla como una combinación lineal de las variables explicativas. En particular, la probabilidad de tener un precio alto se explica a partir de la capitalización bursátil de la empresa (Marketcap), su crecimiento de ingresos (Revenuegrowth), su peso dentro del índice (Weight) y si pertenece o no al grupo de ciudades Top 5 (City_top5). Cuando el coeficiente asociado a una de estas variables es positivo, significa que, a medida que esa variable aumenta, también aumenta la probabilidad de que la empresa esté en el grupo de precios altos, manteniendo las demás constantes. Si el coeficiente es negativo, ocurre lo contrario: valores más altos de esa variable se relacionan con una menor probabilidad de tener un precio de acción superior a 400 USD.

##########################################
# 3. Odds Ratios e intervalos de confianza
##########################################

# Odds ratios (OR) de los coeficientes
OR <- exp(coef(mod_logit_fin))
OR

##   (Intercept)     Marketcap Revenuegrowth        Weight     City_top5 
##    0.09118781    1.00000000    1.28192322            NA    1.44101369

# Intervalos de confianza al 95% para los coeficientes
IC_OR <- exp(confint(mod_logit_fin))

## Waiting for profiling to be done...

IC_OR

##                    2.5 %     97.5 %
## (Intercept)   0.02139144  0.2734556
## Marketcap     1.00000000  1.0000000
## Revenuegrowth 0.03988312 20.9282281
## Weight                NA         NA
## City_top5     0.34438271  6.2155445

# Redondeando:
round(OR, 3)

##   (Intercept)     Marketcap Revenuegrowth        Weight     City_top5 
##         0.091         1.000         1.282            NA         1.441

round(IC_OR, 3)

##               2.5 % 97.5 %
## (Intercept)   0.021  0.273
## Marketcap     1.000  1.000
## Revenuegrowth 0.040 20.928
## Weight           NA     NA
## City_top5     0.344  6.216

Con los odds ratios obtenidos:

Intercepto (0,091; IC 0,021–0,273):

El intercepto representa la razón de probabilidades de que una empresa tenga un precio alto (> 400 USD) cuando todas las variables explicativas toman el valor cero. No tiene una interpretación financiera directa (porque “cero” en Marketcap, Revenuegrowth, etc., no es realista), pero indica que, en ese punto de referencia, la probabilidad de éxito sería muy baja.

Marketcap (OR ≈ 1,000; IC 1,000–1,000)

El odds ratio igual a 1 implica que, tal como está el modelo, un cambio en la capitalización bursátil prácticamente no modifica la razón de probabilidades de tener un precio alto. Además, el intervalo de confianza está centrado en 1, lo que sugiere que no se encuentra evidencia estadística de asociación entre Marketcap y la probabilidad de que el precio supere 400 USD.

Revenuegrowth (OR ≈ 1,282; IC 0,040–20,928)

En promedio, un aumento de una unidad en Revenuegrowth multiplicaría la razón de probabilidades de precio alto por 1,282 (es decir, un incremento del 28,2 % en las “odds”). Sin embargo, el intervalo de confianza es muy amplio y contiene el valor 1, por lo que esta asociación es muy incierta y no puede considerarse estadísticamente concluyente.

City_top5 (OR ≈ 1,441; IC 0,344–6,216)

Las empresas ubicadas en las ciudades del Top 5 tendrían, en promedio, una razón de probabilidades de precio alto aproximadamente 44 % mayor que las empresas de otras ciudades. No obstante, el intervalo de confianza también incluye el valor 1, así que no hay evidencia estadística fuerte de que pertenecer al Top 5 de ciudades cambie de forma significativa la probabilidad de tener un precio de acción superior a 400 USD.

Weight (NA)

Para Weight no se pudo calcular el odds ratio ni el intervalo de confianza, lo que suele estar asociado a problemas numéricos en el ajuste, como falta de variación útil de la variable dentro de los grupos 0/1 o colinealidad con otras variables. En la práctica, esto indica que Weight no está aportando información robusta al modelo en la forma en que se especificó.

Además, dado que Weight está perfectamente correlacionada con Marketcap (peso calculado directamente a partir de la capitalización bursátil), el modelo de regresión logística no puede estimar de forma estable un coeficiente adicional para esta variable. Esto refleja un problema de colinealidad perfecta, por lo que Weight no se considera en la interpretación del modelo y sería recomendable excluirla en una versión final del mismo.

##########################################
# 4. Predicciones y curva ROC / AUC      #
##########################################

# 4.1 Probabilidades predichas de Yi = 1
DatosNuevos3$predicted_prob <- predict(
  mod_logit_fin,
  type = "response"
)

# Ver un resumen de las probabilidades
summary(DatosNuevos3$predicted_prob)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.07672 0.09441 0.12419 0.14925 0.15476 0.70469

# 4.2 Curva ROC y AUC (usando pROC)

roc_obj <- roc(
  response  = DatosNuevos3$Yi,              # Valores reales 0/1
  predictor = DatosNuevos3$predicted_prob,  # Probabilidades predichas
  levels    = c(0, 1),                      # 0 = "control", 1 = "caso"
  direction = "<"
)

# AUC (Area Under the Curve)
auc(roc_obj)

## Area under the curve: 0.6754

# 4.3 Gráfico de la curva ROC
plot(
  roc_obj,
  main = "Curva ROC - Modelo logístico (Precio alto > 400 USD)"
)

Interpretación de las probabilidades predichas

El resumen de predicted_prob muestra que las probabilidades estimadas de que una empresa tenga un precio de acción mayor a 400 USD son, en general, bajas: la media está alrededor de 0,15 y el 75% de las empresas tiene probabilidades menores a ~0,155. Solo unos pocos casos alcanzan valores cercanos a 0,70. Esto es coherente con el hecho de que, en la base de datos, las empresas con precios “altos” son una minoría, por lo que el modelo tiende a asignar probabilidades moderadas o bajas a la mayoría de observaciones.

Interpretación de la curva ROC y el AUC

El área bajo la curva ROC (AUC) es aproximadamente 0,68. Este valor indica que el modelo tiene una capacidad de discriminación moderada para distinguir entre empresas con precio alto y no alto: es claramente mejor que clasificar al azar (AUC = 0,5), pero está lejos de un modelo muy preciso (AUC cercano a 0,9 o 1). En términos prácticos, el modelo logra separar “algo mejor que al azar” a las empresas con precios altos, pero su poder predictivo es limitado, por lo que los resultados deben interpretarse como una aproximación exploratoria más que como una herramienta de predicción muy robusta.

##########################################
# 5. Punto de corte óptimo (criterio de Youden)
##########################################

optimal_coords <- coords(
  roc_obj,
  x           = "best",
  best.method = "youden",
  ret         = c("threshold", "sensitivity", "specificity")
)

optimal_coords

##   threshold sensitivity specificity
## 1 0.1553343         0.6   0.8245614

# Umbral de probabilidad óptimo
threshold <- optimal_coords["threshold"]
threshold

##   threshold
## 1 0.1553343

El modelo selecciona como punto de corte óptimo una probabilidad de aproximadamente 0,156. Esto significa que, si la probabilidad predicha de que una empresa tenga un precio de acción mayor a 400 USD es igual o superior a 15,6 %, el modelo la clasifica como “precio alto”; si es menor, la clasifica como “no alto”.

En ese umbral, el modelo obtiene una sensibilidad de 0,60 y una especificidad de 0,82. Es decir:

- Detecta correctamente alrededor del 60 % de las empresas que realmente tienen precios altos (no se le escapan todas, pero sí una parte importante).

- Clasifica correctamente cerca del 82 % de las empresas que no tienen precios altos, es decir, comete pocos falsos positivos.

El punto de corte elegido prioriza tener una buena capacidad para no sobre-clasificar empresas como “precio alto”, manteniendo una sensibilidad moderada, lo que es razonable en un contexto donde las empresas con precios altos son minoría.

En la práctica, al aplicar el punto de corte de 0,156 el modelo clasifica a todas las empresas como de “precio alto”, por lo que la especificidad real en la muestra es nula, a pesar de que el criterio de Youden sugiere un valor teórico cercano al 82 %. Esta situación refleja la sensibilidad del modelo a una muestra pequeña y desbalanceada y confirma que sus resultados deben tomarse con prudencia.

##########################################
# 6. Clasificación binaria y matriz de confusión
##########################################

# 6.1 Clasificación según el umbral óptimo
DatosNuevos3$Yi_pred <- if_else(
  DatosNuevos3$predicted_prob >= threshold,
  1, 0
)

# 6.2 Matriz de confusión
Tabla <- table(
  Predicho = DatosNuevos3$Yi_pred,
  Real     = DatosNuevos3$Yi
)
Tabla

##         Real
## Predicho  0  1
##        1 57 10

El modelo clasifica a las 67 empresas como “precio alto” (Predicho = 1).

De esas 67:

- 10 sí tienen realmente precio > 400 USD → Verdaderos Positivos (TP).

- 57 en realidad no tienen precio > 400 USD → Falsos Positivos (FP).

No aparece fila “Predicho = 0”, es decir, el modelo no calificó a ninguna empresa como “no alta” con ese punto de corte.

En términos de desempeño:

La sensibilidad (capacidad de encontrar a las empresas realmente “altas”) es máxima: detecta las 10 empresas con precio > 400 USD.

Pero la especificidad es nula: no identifica ninguna empresa como “no alta”, todas las mete en el grupo de “alto”.

La precisión global (accuracy) es baja: solo 10 de 67 clasificaciones son correctas (alrededor del 15 %).

Con este umbral el modelo se comporta como un clasificador que sobreestima el grupo de empresas de precio alto, lo que hace que detecte todos los casos positivos pero cometa muchos errores al marcar como “altas” empresas que en realidad no lo son. Esto refuerza la idea de que el modelo tiene una capacidad de clasificación limitada y debe interpretarse con cautela.

ggplot(DatosNuevos3, aes(x = predicted_prob, fill = as.factor(Yi))) +
  geom_histogram(bins = 30, alpha = 0.6, position = "identity") +
  labs(
    x = "Probabilidad predicha de precio alto (> 400 USD)",
    y = "Frecuencia",
    fill = "Yi (0 = no alto, 1 = alto)",
    title = "Distribución de probabilidades predichas\nModelo logístico S&P 500 financiero"
  )

En el histograma se observa que la mayoría de las empresas tienen probabilidades predichas bajas de presentar un precio de acción superior a 400 USD, concentradas principalmente entre 0,07 y 0,20. Tanto las empresas con precio “no alto” (Yi = 0, barras rosadas) como las de precio “alto” (Yi = 1, barras azules) se superponen en ese rango, lo que indica que el modelo no logra separarlas con mucha claridad. Solo unos pocos casos presentan probabilidades más altas (por encima de 0,3–0,4), que corresponden a empresas que el modelo identifica como más propensas a tener precios altos. En conjunto, la distribución confirma que el modelo tiende a asignar probabilidades moderadas o bajas y que su capacidad discriminante es limitada, coherente con el AUC cercano a 0,68.

Conclusiones del modelo de regresión logística

El modelo de regresión logística planteado para explicar la probabilidad de que una empresa del sector financiero del S&P 500 presente un precio de acción superior a 400 USD, a partir de su capitalización bursátil (Marketcap), crecimiento de ingresos (Revenuegrowth), peso en el índice (Weight) y pertenencia al grupo de ciudades Top 5 (City_top5), muestra una capacidad explicativa limitada. Los odds ratios de las variables se encuentran cercanos a 1 y con intervalos de confianza amplios, por lo que no se obtiene evidencia estadísticamente sólida de una asociación fuerte entre estos indicadores y la probabilidad de pertenecer al grupo de precios “altos”. El área bajo la curva ROC es cercana a 0,68, lo que indica un poder de discriminación moderado: el modelo clasifica algo mejor que al azar, pero está lejos de ser una herramienta predictiva precisa.

Además, las probabilidades predichas se concentran mayoritariamente en valores bajos y el histograma muestra una fuerte superposición entre empresas con precio alto y no alto, confirmando que la separación entre ambos grupos es limitada. Con el punto de corte óptimo (aproximadamente 0,156), se obtiene un compromiso moderado entre sensibilidad y especificidad, pero aún con un número importante de errores de clasificación. En conjunto, estos resultados sugieren que el modelo debe interpretarse principalmente como un ejercicio exploratorio para relacionar las características financieras y la localización geográfica con el nivel de precio de la acción, más que como un modelo robusto para predecir qué empresas alcanzan precios superiores a 400 USD.

Conclusiones.

En términos generales, el análisis realizado sobre las 67 empresas del sector de servicios financieros del S&P 500 confirma que se trata de un conjunto altamente heterogéneo. Los resultados descriptivos muestran una gran dispersión en el precio de las acciones, en la capitalización bursátil y en el crecimiento de ingresos, así como una fuerte concentración del peso en el índice en un grupo reducido de compañías. Asimismo, la recodificación de la variable City en Top 5 versus otras ciudades permite evidenciar que, aunque existen hubs financieros con mayor presencia de empresas, las diferencias en el comportamiento de los precios no siempre son estadísticamente significativas.

Desde el punto de vista inferencial, los intervalos de confianza y las pruebas de hipótesis aplicados a medias, varianzas y proporciones indican que no hay evidencia suficiente para afirmar que la capitalización promedio de mercado supere un umbral específico ni que exista una diferencia significativa en el precio promedio de las acciones entre las Top 5 ciudades y el resto. De igual forma, la prueba de normalidad para la variable Currentprice revela que sus datos no provienen de una distribución normal, lo que limita el uso de algunos modelos paramétricos clásicos y motiva la búsqueda de alternativas como la regresión logística.

El modelo de regresión logística propuesto permite explorar la relación entre las características financieras y la localización geográfica con la probabilidad de que una empresa presente un precio de acción superior a 400 USD. Sin embargo, los odds ratios cercanos a uno, los intervalos de confianza amplios, el AUC moderado y el comportamiento de la matriz de confusión muestran que su capacidad explicativa y predictiva es limitada, por lo que debe interpretarse principalmente con fines académicos y exploratorios. En conjunto, el trabajo cumple el propósito de integrar estadística descriptiva, inferencia y modelamiento en un caso real de mercado, y sugiere que futuras investigaciones podrían incorporar un número mayor de observaciones, otras variables financieras (como medidas de rentabilidad o riesgo) y diferentes especificaciones de modelo para lograr una mejor comprensión del comportamiento de las acciones del sector financiero en el S&P 500.

Trabajo Final. Estadística Aplicada

Valentina Castro Hurtado, Sebastián Perlaza Silva, Simón Taylor Vásquez, Kevin Stiven Toloza Esterilla.

2025-11-23

Introducción.

Sección 1: Estadística Descriptiva.

Identificación de la base de datos

Caracterización del conjunto de datos.

La fuente de los datos es la plataforma Kaggle, disponible en el siguiente enlace: https://www.kaggle.com/datasets/andrewmvd/sp-500-stocks/data

Limpieza y preprocesamiento de los datos.

Se adjunta el código de programación con el que se realizó la limpieza de los datos.

Descripción de las variables

Estadísticas descriptivas de forma univariada, utilizando una tabla 1 con los indicadores de tendencia central, dispersión y posición.

Comentarios.

- Precios heterogéneos: El precio promedio de las acciones es 202,39, con alta dispersión (desviación estándar 183,82 y aproximadamente un Coeficiente de Variación de 91%), lo que refleja gran diversidad en la valoración de las empresas financieras.

- Capitalización desigual: La capitalización bursátil promedio es de 1,06e+11, pero con un rango muy amplio (de 7,98e+09 a 9,79e+11) y una dispersión elevada (Coeficiente de Variación aproximadamente de 157%), evidenciando brechas significativas en el tamaño de las compañías.

- Ingresos altamente volátiles: El crecimiento de ingresos presenta un promedio bajo (12,3%) pero muy variable (rango entre -60,2% y 133,4%, Coeficiente de Variación aproximadamente de 198%), lo que refleja riesgos y oportunidades diferenciadas.

- Distribución de Weight: El peso relativo de las empresas en el índice es bajo en promedio (0,0019), pero con alta dispersión presentando un coeficiente de variación de 157%, mostrando gran desigualdad en la influencia de cada firma.

- Asimetría entre media y mediana: En todas las variables cuantitativas, la media supera a la mediana, lo que indica sesgo positivo y concentración en pocas empresas de gran tamaño.

- Diversidad estructural: Los altos coeficientes de variación en todas las variables (superiores al 90%) evidencian un sector financiero heterogéneo en precios, tamaño y desempeño.

- Dominancia de grandes corporaciones: La fuerte diferencia entre mínimos y máximos, sobre todo en Marketcap y Currentprice, resalta la presencia de empresas dominantes que concentran gran parte del valor.

Gráficos para variables cualitativas.

Diagramas de barras para Industria y Ciudad

Gráficos para variables cuantitativas.

Histograma

Diagrama de cajas

Gráfico Bivariado. Diagrama de cajas por grupos (x=Industria, y=Precio Actual).

Gráfico Bivariado. Diagrama de cajas por grupos (x=City, y=Precio Actual).

Comentarios gráficos univariados.

Diagrama de Barras.

Algunas industrias concentran muchas más empresas que otras, el mayor peso está en Asset Management, Banks Regional y Seguros de Propiedad, por lo que son industrias claves en el sector analizado.

Otras industrias como Reinsurance y Seguros Diversificados tienen una representación mínima, indicando menor relevancia.

Diagrama de Barras conteo por ciudad.

Se analizaron dos grupos, el top 5 de ciudades con mayor número de empresas y el otro grupo son las empresas restantes en el resto del país.

El gráfico muestra que, aunque en el top 5 sigue siendo un polo importante, la mayor parte de las empresas analizadas están localizadas en varias ciudades, esto refleja la descentralización geográfica del sector financiero, donde múltiples regiones aportan significativamente a la muestra.

Histogramas.

Precio actual: La mayoría de los precios de las acciones se concentran en rangos bajos (0 – 250 USD), mostrando un grupo pequeño alrededor de los 500 dólares y un dato atípico, donde es la empresa Barack con una acción por encima de 1000 dólares

Capitalización: La gran mayoría de empresas tienen capitalizaciones relativamente pequeñas. Pocas empresas tienen capitalizaciones enormes.

Crecimiento: Se observa que la mayoría de empresas tienen un crecimiento en torno a 0 – 0.2 (0 % a 20 %). Hay algunos valores negativos (empresas con decrecimiento) y algunos valores muy altos (outliers con gran crecimiento). Indicando que hay un crecimiento moderado en el sector

Porcentaje de Participación: La mayoría de las empresas tienen una participación muy baja (cercana a 0 %). Solo unas pocas empresas tienen una participación más alta (outliers). Mostrando un dato atípico que la empresa con mayor participación es Berkshire Hathaway

Diagrama de Cajas.

Precio actual: La caja es estrecha, lo que indica que la mayoría de los precios se concentran en un rango relativamente bajo. Hay varios datos atípicos, hay empresas con acciones caras.

Capitalización: La gran mayoría de empresas tienen capitalizaciones bajas, pues la caja está muy cerca del origen. Esto refleja la realidad del mercado: pocas compañías dominan con capitalizaciones gigantes

Crecimiento: El crecimiento está bastante concentrado, pero con excepciones importantes.

Porcentaje de Participación: La caja muestra que casi todas las empresas tienen participación muy baja dentro del índice. Es un mercado altamente concentrado en pocas empresas.

Comentarios gráficos bivariados.

Diagrama de cajas por ciudades.

Diagrama de cajas por grupos.

Matriz de correlación

Sección 2: Intervalos de confianza y pruebas de hipótesis

Esta sección desarrolla análisis estadísticos aplicados a una muestra de 67 empresas del sector de servicios financieros que hacen parte del índice S&P 500. El objetivo es aplicar conceptos de intervalos de confianza y pruebas de hipótesis sobre variables cuantitativas y proporciones.

La variable cualitativa “City” fue recodificada en dos grupos: Top 5 ciudades con mayor frecuencia y Otras ciudades. A partir de esta clasificación, se comparan dos subpoblaciones.

- Definición de variables cuantitativas.

Estas variables permiten evaluar el comportamiento financiero de las compañías y comparar resultados entre los grupos definidos por la variable cualitativa City

- Se asume normalidad.

- Nivel de confianza y nivel de significancia.

Se adopta un nivel de confianza del 95%, lo que implica un nivel de significancia (α) del 5% para todas las pruebas estadísticas realizadas.

Estimaciones puntuales y por intervalos del promedio y la desviación estándar

Cálculo e interpretación de las estimaciones puntuales de una población

- Weight tiene un promedio de 0.00191, con una desviación estándar de 0.00300, lo que indica que la mayoría de las empresas tienen un peso relativamente bajo dentro del índice S&P 500, aunque con algunas excepciones notables que poseen una influencia considerable en el mercado.

Cálculo e interpretación de las estimaciones por intervalos de una población

Promedio

En cuanto al precio actual de las acciones (Currentprice), se estima que el valor medio poblacional se encuentra entre 158.38 USD y 246.41 USD, lo que indica una dispersión moderada en los precios de las acciones dentro del sector financiero.

Para la capitalización de mercado (Marketcap), el promedio poblacional se ubica entre 66.10 mil millones USD y 146.08 mil millones USD, lo que refleja una alta heterogeneidad en el tamaño de las empresas analizadas.

En relación con el crecimiento de ingresos (Revenuegrowth), se estima que el crecimiento medio poblacional se encuentra entre 6.45% y 18.14%, lo que sugiere un comportamiento financiero variable entre las compañías del sector.

Respecto al peso en el índice (Weight), el promedio poblacional se encuentra entre 0.00119 y 0.00263, lo que confirma que la mayoría de las empresas tienen una participación baja en el índice S&P 500, aunque con algunas diferencias entre ellas.

Desviación estándar

En cuanto a la desviación estándar del precio actual de las acciones, se estima que el parámetro poblacional se encuentra entre 157.11 USD y 221.55 USD, lo que indica una alta dispersión en los precios de las acciones dentro del sector.

Para la capitalización de mercado, el intervalo de confianza para la desviación estándar va de 142.74 mil millones USD a 201.29 mil millones USD, evidenciando una gran variabilidad en el tamaño de las empresas incluidas en la muestra.

En el caso del crecimiento de ingresos, la desviación estándar poblacional se encuentra entre 20.86% y 29.41%, lo que muestra diferencias significativas en el desempeño financiero de las compañías analizadas.

Finalmente, la desviación estándar del peso en el índice se estima entre 0.00257 y 0.00362, lo que indica que, aunque la mayoría de las empresas tienen un peso reducido, existen algunas con una influencia relativa considerablemente mayor dentro del índice.

Cálculo e interpretación de las estimaciones puntuales de dos población

Promedio (media)

En relación con el precio actual de las acciones, las empresas en las Top 5 ciudades presentan un promedio de 220.67 USD, superior al de las empresas en otras ciudades, que es de 188.45 USD. Esta diferencia sugiere una mayor valoración bursátil en los principales centros financieros.

Para la capitalización de mercado, el promedio en las Top 5 ciudades alcanza los 112.78 mil millones USD, mientras que en otras ciudades es de 100.99 mil millones USD. Aunque la diferencia es moderada, se observa una ligera concentración de empresas de mayor tamaño en las ciudades principales.

En cuanto al crecimiento de ingresos, se presenta un comportamiento inverso: las empresas en otras ciudades tienen un promedio de 13.40%, superior al 10.85% observado en las Top 5. Esto podría indicar un mayor dinamismo en mercados menos concentrados o en expansión.

Respecto al peso en el índice, las empresas en las Top 5 ciudades tienen un promedio de 0.00203, mientras que en otras ciudades es de 0.00182. Esta diferencia refleja una mayor influencia relativa de las empresas ubicadas en los principales centros dentro del índice S&P 500.

Desviación estándar

En cuanto a la variabilidad del precio actual de las acciones, las empresas en las Top 5 ciudades presentan una desviación estándar de 222.14 USD, frente a 149.89 USD en otras ciudades. Esto indica una gama más amplia de valores bursátiles en los principales centros financieros.

En el caso del crecimiento de ingresos, la variabilidad es más alta en otras ciudades (29.65%) que en las Top 5 (15.43%), lo que refuerza la idea de un comportamiento más diverso en mercados secundarios, posiblemente influenciado por factores regionales o sectoriales.

Finalmente, la dispersión del peso en el índice también es mayor en otras ciudades, con una desviación estándar de 0.00343, frente a 0.00239 en las Top 5. Esto indica una distribución más desigual de la influencia relativa en el índice fuera de los principales centros financieros.

En cuanto al precio actual de las acciones (`Currentprice`), se estima que el valor medio poblacional se encuentra entre 158.38 USD y 246.41 USD, lo que indica una dispersión moderada en los precios de las acciones dentro del sector financiero.

Para la capitalización de mercado (`Marketcap`), el promedio poblacional se ubica entre 66.10 mil millones USD y 146.08 mil millones USD, lo que refleja una alta heterogeneidad en el tamaño de las empresas analizadas.

En relación con el crecimiento de ingresos (`Revenuegrowth`), se estima que el crecimiento medio poblacional se encuentra entre 6.45% y 18.14%, lo que sugiere un comportamiento financiero variable entre las compañías del sector.

Respecto al peso en el índice (`Weight`), el promedio poblacional se encuentra entre 0.00119 y 0.00263, lo que confirma que la mayoría de las empresas tienen una participación baja en el índice S&P 500, aunque con algunas diferencias entre ellas.

Como el valor p es mayor que el nivel de significancia α = 0.05, no se rechaza la hipótesis nula. Esto indica que no hay evidencia estadística suficiente para afirmar que existe una diferencia significativa en el promedio de `Currentprice` entre los dos grupos.