Identificación de la base de datos

Row

Caracterización del conjunto de datos.

El Standard & Poor’s 500 (S&P 500) es ampliamente reconocido como el índice financiero de referencia a nivel global. Este indicador bursátil refleja el desempeño de 500 de las principales compañías que cotizan en las bolsas de valores de Estados Unidos, integrando una diversidad de sectores económicos. En la práctica, el S&P 500 funciona no solo como un termómetro del mercado estadounidense, sino también como una herramienta clave para inversionistas, gestores de fondos y analistas, quienes lo utilizan para evaluar la salud económica, medir riesgos y comparar rendimientos de diferentes carteras de inversión.
En este caso, se trabajó con un conjunto de datos enfocado en las acciones de las empresas del sector de servicios financieros que forman parte del S&P 500, lo que corresponde a una muestra de 67 compañías. La base incluye 8 variables, entre ellas: precios, capitalización bursátil, ciudad e industria de pertenencia. Con esta información, se identificaron las ciudades con mayor representación en el índice y se compararon con aquellas que tienen menor presencia, buscando reconocer patrones y concentraciones dentro del sector analizado.
La fuente de los datos es la plataforma Kaggle, disponible en el siguiente enlace: https://www.kaggle.com/datasets/andrewmvd/sp-500-stocks/data

Limpieza y preprocesamiento de los datos.

Se realizó la depuración del archivo inicialmente tomando las empresas pertenecientes al sector de servicios financieros, posteriormente se omitió las variables que se encontraban incompletas o no cumplían con los criterios planteados en el proyecto. A continuación, se presentan las variables descartadas: “Exchange”, “Longname”, “Sector”, “EBITDA”, “State”, “Country”, “Fulltimeemployments”.
Se adjunta el código de programación con el que se realizó la limpieza de los datos.

Preprocesamiento de la base de datos
Preprocesamiento de la base de datos

Descripción de las variables

Row

Descripción de variables.

Descripción de variables1 Descripción de variables1

Estadísticas Descriptivas

Row

Estadísticas descriptivas de forma univariada, utilizando una tabla 1 con los indicadores de tendencia central, dispersión y posición.

     Symbol                             Shortname 
 ACGL   : 1   AFLAC Incorporated             : 1  
 AFL    : 1   Allstate Corporation (The)     : 1  
 AIG    : 1   American Express Company       : 1  
 AIZ    : 1   American International Group, I: 1  
 AJG    : 1   Ameriprise Financial, Inc.     : 1  
 ALL    : 1   Aon plc                        : 1  
 (Other):61   (Other)                        :61  
                             Industry   Currentprice       Marketcap        
 Asset Management                :11   Min.   :  16.32   Min.   :7.789e+09  
 Banks - Regional                : 9   1st Qu.:  77.46   1st Qu.:2.315e+10  
 Insurance - Property & Casualty : 9   Median : 147.58   Median :5.126e+10  
 Financial Data & Stock Exchanges: 8   Mean   : 202.39   Mean   :1.061e+11  
 Credit Services                 : 7   3rd Qu.: 256.98   3rd Qu.:1.071e+11  
 Insurance Brokers               : 6   Max.   :1028.69   Max.   :9.788e+11  
 (Other)                         :17                                        
 Revenuegrowth        City               Weight         
 Min.   :-0.602   Length:67          Min.   :0.0001401  
 1st Qu.: 0.048   Class :character   1st Qu.:0.0004166  
 Median : 0.116   Mode  :character   Median :0.0009221  
 Mean   : 0.123                      Mean   :0.0019087  
 3rd Qu.: 0.162                      3rd Qu.:0.0019261  
 Max.   : 1.334                      Max.   :0.0176094  
                                                        
[1] 183.8171
[1] 1.67007e+11
[1] 0.2440448
[1] 0.003004667
[1] 90.82266
[1] 157.4172
[1] 198.4827
[1] 157.4172

Tabla 1 Tabla 2 Tabla 3 Tabla 4

Comentarios Estadísticas Descriptivas

Row

Comentarios.

  • Precios heterogéneos: El precio promedio de las acciones es 202,39, con alta dispersión (desviación estándar 183,82 y aproximadamente un Coeficiente de Variación de 91%), lo que refleja gran diversidad en la valoración de las empresas financieras.
  • Capitalización desigual: La capitalización bursátil promedio es de 1,06e+11, pero con un rango muy amplio (de 7,98e+09 a 9,79e+11) y una dispersión elevada (Coeficiente de Variación aproximadamente de 157%), evidenciando brechas significativas en el tamaño de las compañías.
  • Ingresos altamente volátiles: El crecimiento de ingresos presenta un promedio bajo (12,3%) pero muy variable (rango entre -60,2% y 133,4%, Coeficiente de Variación aproximadamente de 198%), lo que refleja riesgos y oportunidades diferenciadas.
  • Distribución de Weight: El peso relativo de las empresas en el índice es bajo en promedio (0,0019), pero con alta dispersión presentando un coeficiente de variación de 157%, mostrando gran desigualdad en la influencia de cada firma.
  • Asimetría entre media y mediana: En todas las variables cuantitativas, la media supera a la mediana, lo que indica sesgo positivo y concentración en pocas empresas de gran tamaño.
  • Diversidad estructural: Los altos coeficientes de variación en todas las variables (superiores al 90%) evidencian un sector financiero heterogéneo en precios, tamaño y desempeño.
  • Dominancia de grandes corporaciones: La fuerte diferencia entre mínimos y máximos, sobre todo en Marketcap y Currentprice, resalta la presencia de empresas dominantes que concentran gran parte del valor.

Gráficos de los datos

Row

Gráficos para variables cualitativas.

Diagramas de barras para Industria y Ciudad

Row

Gráficos para variables cuantitativas.

Histograma

Diagrama de cajas

Gráficos bivariados

Row

Gráfico Bivariado. Diagrama de cajas por grupos (x=Industria, y=Precio Actual).

Gráfico Bivariado. Diagrama de cajas por grupos (x=City, y=Precio Actual).

Comentarios Gráficos Univariados y Bivariados

Row

Comentarios gráficos univariados.

Diagrama de Barras.
Algunas industrias concentran muchas más empresas que otras, el mayor peso está en Asset Management, Banks Regional y Seguros de Propiedad, por lo que son industrias claves en el sector analizado.
Otras industrias como Reinsurance y Seguros Diversificados tienen una representación mínima, indicando menor relevancia.

Diagrama de Barras conteo por ciudad.
Se analizaron dos grupos, el top 5 de ciudades con mayor número de empresas y el otro grupo son las empresas restantes en el resto del país.
El gráfico muestra que, aunque en el top 5 sigue siendo un polo importante, la mayor parte de las empresas analizadas están localizadas en varias ciudades, esto refleja la descentralización geográfica del sector financiero, donde múltiples regiones aportan significativamente a la muestra.

Histogramas.
Precio actual: La mayoría de los precios de las acciones se concentran en rangos bajos (0 – 250 USD), mostrando un grupo pequeño alrededor de los 500 dólares y un dato atípico, donde es la empresa Barack con una acción por encima de 1000 dólares
Capitalización: La gran mayoría de empresas tienen capitalizaciones relativamente pequeñas. Pocas empresas tienen capitalizaciones enormes.
Crecimiento: Se observa que la mayoría de empresas tienen un crecimiento en torno a 0 – 0.2 (0 % a 20 %). Hay algunos valores negativos (empresas con decrecimiento) y algunos valores muy altos (outliers con gran crecimiento). Indicando que hay un crecimiento moderado en el sector
Porcentaje de Participación: La mayoría de las empresas tienen una participación muy baja (cercana a 0 %). Solo unas pocas empresas tienen una participación más alta (outliers). Mostrando un dato atípico que la empresa con mayor participación es Berkshire Hathaway

Diagrama de Cajas.
Precio actual: La caja es estrecha, lo que indica que la mayoría de los precios se concentran en un rango relativamente bajo. Hay varios datos atípicos, hay empresas con acciones caras.
Capitalización: La gran mayoría de empresas tienen capitalizaciones bajas, pues la caja está muy cerca del origen. Esto refleja la realidad del mercado: pocas compañías dominan con capitalizaciones gigantes
Crecimiento: El crecimiento está bastante concentrado, pero con excepciones importantes.
Porcentaje de Participación: La caja muestra que casi todas las empresas tienen participación muy baja dentro del índice. Es un mercado altamente concentrado en pocas empresas.

Row

Comentarios gráficos bivariados.

Diagrama de cajas por ciudades.
El gráfico muestra que las empresas del top 5 tienden a tener precios de acción más elevados y con mayor dispersión, mientras que las de otras ciudades se concentran en valores más bajos.
Sin embargo, en ambos grupos existen compañías excepcionales que se destacan como outliers con precios muy altos.
Diagrama de cajas por grupos.
Se ve una mayor dispersión y precios más altos en Credit Services y Financial Data & Stock Exchanges, lo que sugiere que estas industrias tienen empresas con gran variabilidad y cotizaciones más elevadas, por el lado contrario, hay estabilidad y precios más bajos en Banks (Diversified y Regional) y Insurance - Reinsurance, con rangos muy estrechos.
Se da a entender que la variabilidad del precio depende fuertemente de la industria, unos con mayor concentración y otros con mayor dispersión, también algunos pocos con datos atípicos.

Análisis con dos variables (Correlación)

Row

Matriz de correlación

              Currentprice   Marketcap Revenuegrowth      Weight
Currentprice    1.00000000  0.29244814    0.08680647  0.29244814
Marketcap       0.29244814  1.00000000   -0.05920392  1.00000000
Revenuegrowth   0.08680647 -0.05920392    1.00000000 -0.05920392
Weight          0.29244814  1.00000000   -0.05920392  1.00000000

Row

Interpretación y gráficos de dispersión.

La matriz de correlación muestra que la mayoría de las variables no tienen una relación significativa, con coeficientes cercanos a 0.
Se observa una débil correlación negativa entre Revenue growth y Marketcap (≈ -0.0592), y una débil correlación positiva entre Current price y Marketcap (≈ 0.29).
La única correlación fuerte es entre Marketcap y Weight (coeficiente = 1), lo cual se debe a que Weight se calcula directamente a partir de Marketcap, representando su participación en el índice S&P.

Row