Identificación de la base de datos

Row

Caracterización del conjunto de datos.

El conjunto de datos analizado corresponde a las acciones de las empresas que conforman el índice Standard and Poor’s 500 (S&P 500), uno de los referentes bursátiles más reconocidos a nivel mundial. Este índice refleja el comportamiento de 500 grandes compañías que cotizan en los mercados de valores de Estados Unidos y sirve como un indicador clave del desempeño del mercado accionario y de la economía en general.
Para este trabajo, se tomó como población de interés el sector de servicios financieros, del cual se extrajo una muestra de 67 empresas. El conjunto de datos cuenta con 8 variables que recogen información relevante sobre dichas compañías y sus acciones, lo que permite realizar análisis estadísticos orientados al estudio de tendencias, riesgos y oportunidades dentro del sector.
La fuente de los datos es la plataforma Kaggle, disponible en el siguiente enlace: https://www.kaggle.com/datasets/andrewmvd/sp-500-stocks/data

Limpieza y preprocesamiento de los datos.

Se realizó la depuración del archivo inicialmente tomando las empresas pertenecientes al sector de servicios financieros, posteriormente se omitió las variables que se encontraban incompletas o no cumplían con los criterios planteados en el proyecto. A continuación, se presentan las variables descartadas: “Exchange”, “Longname”, “Sector”, “EBITDA”, “State”, “Country”, “Fulltimeemployments”.
Se adjunta el código de programación con el que se realizó la limpieza de los datos.

Preprocesamiento de la base de datos
Preprocesamiento de la base de datos

Descripción de las variables

Row

Descripción de variables.

Descripción de variables1 Descripción de variables1

Estadísticas Descriptivas

Row

Estadísticas descriptivas de forma univariada, utilizando una tabla 1 con los indicadores de tendencia central, dispersión y posición.

     Symbol                             Shortname 
 ACGL   : 1   AFLAC Incorporated             : 1  
 AFL    : 1   Allstate Corporation (The)     : 1  
 AIG    : 1   American Express Company       : 1  
 AIZ    : 1   American International Group, I: 1  
 AJG    : 1   Ameriprise Financial, Inc.     : 1  
 ALL    : 1   Aon plc                        : 1  
 (Other):61   (Other)                        :61  
                             Industry   Currentprice       Marketcap        
 Asset Management                :11   Min.   :  16.32   Min.   :7.789e+09  
 Banks - Regional                : 9   1st Qu.:  77.46   1st Qu.:2.315e+10  
 Insurance - Property & Casualty : 9   Median : 147.58   Median :5.126e+10  
 Financial Data & Stock Exchanges: 8   Mean   : 202.39   Mean   :1.061e+11  
 Credit Services                 : 7   3rd Qu.: 256.98   3rd Qu.:1.071e+11  
 Insurance Brokers               : 6   Max.   :1028.69   Max.   :9.788e+11  
 (Other)                         :17                                        
 Revenuegrowth        City               Weight         
 Min.   :-0.602   Length:67          Min.   :0.0001401  
 1st Qu.: 0.048   Class :character   1st Qu.:0.0004166  
 Median : 0.116   Mode  :character   Median :0.0009221  
 Mean   : 0.123                      Mean   :0.0019087  
 3rd Qu.: 0.162                      3rd Qu.:0.0019261  
 Max.   : 1.334                      Max.   :0.0176094  
                                                        
[1] 183.8171
[1] 1.67007e+11
[1] 0.2440448
[1] 0.003004667
[1] 90.82266
[1] 157.4172
[1] 198.4827
[1] 157.4172

Tabla 1 Tabla 2 Tabla 3 Tabla 4

Comentarios Estadísticas Descriptivas

Row

Comentarios.

  • Alta concentración en Nueva York y predominancia de industrias clave: El 29,6% de las empresas del sector financiero del S&P 500 están en Nueva York; las industrias más representadas son Asset Management (16,3%), Regional Banks y Property & Casualty Insurance (13,4% cada una).
  • Precio promedio elevado con alta variabilidad: El precio promedio de las acciones fue de 202,39 con una desviación estándar de 183,82, reflejando gran heterogeneidad (coeficiente de variación ≈ 90%).
  • Amplias diferencias en capitalización bursátil: La capitalización promedio fue de 1,06e+11, pero con máximos cercanos a 9,79e+11, lo que revela oportunidades para distintos tipos de inversionistas.
  • Crecimiento de ingresos altamente variable: El crecimiento de ingresos osciló entre -60,2% y 133,4%, con una media de 12,3% y una gran dispersión (coeficiente de variación ≈ 198%).
  • Sector financiero diverso y estructuralmente complejo: Aunque concentrado en Nueva York, el sector presenta diversidad geográfica, industrial y financiera, lo que refleja su complejidad.

Gráficos de los datos

Row

Gráficos para variables cualitativas.

Diagramas de barras para Industria y Ciudad

Row

Gráficos para variables cuantitativas.

Histograma

Diagrama de cajas

Gráficos bivariados

Row

Gráfico Bivariado. Diagrama de cajas por grupos (x=Industria, y=Precio Actual).

Gráfico Bivariado. Diagrama de cajas por grupos (x=City, y=Precio Actual).

Comentarios Gráficos Univariados y Bivariados

Row

Comentarios gráficos univariados.

Diagrama de Barras.
Algunas industrias concentran muchas más empresas que otras, el mayor peso está en Asset Management, Banks Regional y Seguros de Propiedad, por lo que son industrias claves en el sector analizado.
Otras industrias como Reinsurance y Seguros Diversificados tienen una representación mínima, indicando menor relevancia.

Diagrama de Barras conteo por ciudad.
Se analizaron dos grupos, el top 5 de ciudades con mayor número de empresas y el otro grupo son las empresas restantes en el resto del país.
El gráfico muestra que, aunque en el top 5 sigue siendo un polo importante, la mayor parte de las empresas analizadas están localizadas en varias ciudades, esto refleja la descentralización geográfica del sector financiero, donde múltiples regiones aportan significativamente a la muestra.

Histogramas.
Precio actual: La mayoría de los precios de las acciones se concentran en rangos bajos (0 – 250 USD), mostrando un grupo pequeño alrededor de los 500 dólares y un dato atípico, donde es la empresa Barack con una acción por encima de 1000 dólares
Capitalización: La gran mayoría de empresas tienen capitalizaciones relativamente pequeñas. Pocas empresas tienen capitalizaciones enormes.
Crecimiento: Se observa que la mayoría de empresas tienen un crecimiento en torno a 0 – 0.2 (0 % a 20 %). Hay algunos valores negativos (empresas con decrecimiento) y algunos valores muy altos (outliers con gran crecimiento). Indicando que hay un crecimiento moderado en el sector
Porcentaje de Participación: La mayoría de las empresas tienen una participación muy baja (cercana a 0 %). Solo unas pocas empresas tienen una participación más alta (outliers). Mostrando un dato atípico que la empresa con mayor participación es Berkshire Hathaway

Diagrama de Cajas.
Precio actual: La caja es estrecha, lo que indica que la mayoría de los precios se concentran en un rango relativamente bajo. Hay varios datos atípicos, hay empresas con acciones caras.
Capitalización: La gran mayoría de empresas tienen capitalizaciones bajas, pues la caja está muy cerca del origen. Esto refleja la realidad del mercado: pocas compañías dominan con capitalizaciones gigantes
Crecimiento: El crecimiento está bastante concentrado, pero con excepciones importantes.
Porcentaje de Participación: La caja muestra que casi todas las empresas tienen participación muy baja dentro del índice. Es un mercado altamente concentrado en pocas empresas.

Row

Comentarios gráficos bivariados.

Diagrama de cajas por ciudades.
El gráfico muestra que las empresas del top 5 tienden a tener precios de acción más elevados y con mayor dispersión, mientras que las de otras ciudades se concentran en valores más bajos.
Sin embargo, en ambos grupos existen compañías excepcionales que se destacan como outliers con precios muy altos.
Diagrama de cajas por grupos.
Se ve una mayor dispersión y precios más altos en Credit Services y Financial Data & Stock Exchanges, lo que sugiere que estas industrias tienen empresas con gran variabilidad y cotizaciones más elevadas, por el lado contrario, hay estabilidad y precios más bajos en Banks (Diversified y Regional) y Insurance - Reinsurance, con rangos muy estrechos.
Se da a entender que la variabilidad del precio depende fuertemente de la industria, unos con mayor concentración y otros con mayor dispersión, también algunos pocos con datos atípicos.

Análisis con dos variables (Correlación)

Row

Matriz de correlación

              Currentprice   Marketcap Revenuegrowth      Weight
Currentprice    1.00000000  0.29244814    0.08680647  0.29244814
Marketcap       0.29244814  1.00000000   -0.05920392  1.00000000
Revenuegrowth   0.08680647 -0.05920392    1.00000000 -0.05920392
Weight          0.29244814  1.00000000   -0.05920392  1.00000000

Row

Interpretación y gráficos de dispersión.

La matriz de correlación muestra que la mayoría de las variables no tienen una relación significativa, con coeficientes cercanos a 0.
Se observa una débil correlación negativa entre Revenue growth y Marketcap (≈ -0.0592), y una débil correlación positiva entre Current price y Marketcap (≈ 0.29).
La única correlación fuerte es entre Marketcap y Weight (coeficiente = 1), lo cual se debe a que Weight se calcula directamente a partir de Marketcap, representando su participación en el índice S&P.

Row