Información del conjunto de datos

Row

Caracterización del conjunto de datos

Conjunto de datos a trabajar: Acciones de las empresas del S&P 500 enfocado en las empresas del sector de servicios financieros. Tamaño de muestra: 67 empresas. Número de variables: 8 variables. Link de obtención de datos: https://www.kaggle.com/datasets/andrewmvd/sp-500-stocks/data

Limpieza y preprocesamiento de los datos.

Se realizó la depuración del archivo inicialmente tomando las empresas pertenecientes al sector de servicios financieros, posteriormente se omitió las variables que se encontraban incompletas o no cumplían con los criterios planteados en el proyecto. A continuación, se presentan las variables descartadas: “Exchange”, “Longname”, “Sector”, “EBITDA”, “State”, “Country”, “Fulltimeemployments”. Se adjunta el código de programación con el que se realizó la limpieza de los datos.

Preprocesamiento de la base de datos
Preprocesamiento de la base de datos

Descripción de las variables

Row

Descripción de variables.

Descripción de variables1 Descripción de variables1

Estadísticas Descriptivas

Row

Estadísticas descriptivas de forma univariada, utilizando una tabla 1 con los indicadores de tendencia central, dispersión y posición.

     Symbol                             Shortname 
 ACGL   : 1   AFLAC Incorporated             : 1  
 AFL    : 1   Allstate Corporation (The)     : 1  
 AIG    : 1   American Express Company       : 1  
 AIZ    : 1   American International Group, I: 1  
 AJG    : 1   Ameriprise Financial, Inc.     : 1  
 ALL    : 1   Aon plc                        : 1  
 (Other):61   (Other)                        :61  
                             Industry   Currentprice       Marketcap        
 Asset Management                :11   Min.   :  16.32   Min.   :7.789e+09  
 Banks - Regional                : 9   1st Qu.:  77.46   1st Qu.:2.315e+10  
 Insurance - Property & Casualty : 9   Median : 147.58   Median :5.126e+10  
 Financial Data & Stock Exchanges: 8   Mean   : 202.39   Mean   :1.061e+11  
 Credit Services                 : 7   3rd Qu.: 256.98   3rd Qu.:1.071e+11  
 Insurance Brokers               : 6   Max.   :1028.69   Max.   :9.788e+11  
 (Other)                         :17                                        
 Revenuegrowth             City        Weight         
 Min.   :-0.602   New York   :19   Min.   :0.0001401  
 1st Qu.: 0.048   Atlanta    : 3   1st Qu.:0.0004166  
 Median : 0.116   Chicago    : 3   Median :0.0009221  
 Mean   : 0.123   Charlotte  : 2   Mean   :0.0019087  
 3rd Qu.: 0.162   Columbus   : 2   3rd Qu.:0.0019261  
 Max.   : 1.334   Minneapolis: 2   Max.   :0.0176094  
                  (Other)    :36                      
[1] 183.8171
[1] 1.67007e+11
[1] 0.2440448
[1] 0.003004667
[1] 90.82266
[1] 157.4172
[1] 198.4827
[1] 157.4172

Tabla 1 Tabla 2 Tabla 3 Tabla 4

Gráficos de los datos

Row

Gráficos para variables cualitativas

Diagramas de barras para Industria y Ciudad

Row

Gráficos para variables cuantitativas

Histograma

Diagrama de cajas

Análisis con dos variables (Correlación)

Row

Matriz de correlación

              Currentprice   Marketcap Revenuegrowth      Weight
Currentprice    1.00000000  0.29244814    0.08680647  0.29244814
Marketcap       0.29244814  1.00000000   -0.05920392  1.00000000
Revenuegrowth   0.08680647 -0.05920392    1.00000000 -0.05920392
Weight          0.29244814  1.00000000   -0.05920392  1.00000000

Row

Interpretación y gráficos de dispersión.

La matriz de correlación muestra que la mayoría de las variables no tienen una relación significativa, con coeficientes cercanos a 0. Se observa una débil correlación negativa entre Revenue growth y Marketcap (≈ -0.0592), y una débil correlación positiva entre Current price y Marketcap (≈ 0.29). La única correlación fuerte es entre Marketcap y Weight (coeficiente = 1), lo cual se debe a que Weight se calcula directamente a partir de Marketcap, representando su participación en el índice S&P.

Row

Modelo lineal simple

Row

x = Precio Actual y = Capitalización de Mercado z = Crecimiento de Ingresos v = Porcentaje de Participación

Modelo lineal simple


Call:
lm(formula = v ~ y)

Residuals:
       Min         1Q     Median         3Q        Max 
-2.721e-17 -8.602e-19 -2.186e-19  1.424e-18  2.195e-17 

Coefficients:
             Estimate Std. Error   t value Pr(>|t|)    
(Intercept) 0.000e+00  7.409e-19 0.000e+00        1    
y           1.799e-14  3.765e-30 4.779e+15   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.108e-18 on 65 degrees of freedom
Multiple R-squared:      1, Adjusted R-squared:      1 
F-statistic: 2.284e+31 on 1 and 65 DF,  p-value: < 2.2e-16

Row


Call:
lm(formula = z ~ y)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.73267 -0.07705 -0.01393  0.03794  1.20549 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.321e-01  3.561e-02   3.711  0.00043 ***
y           -8.651e-14  1.809e-13  -0.478  0.63414    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.2455 on 65 degrees of freedom
Multiple R-squared:  0.003505,  Adjusted R-squared:  -0.01183 
F-statistic: 0.2286 on 1 and 65 DF,  p-value: 0.6341

Row


Call:
lm(formula = v ~ x)

Residuals:
       Min         1Q     Median         3Q        Max 
-0.0029923 -0.0010872 -0.0007500 -0.0001104  0.0145017 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)  
(Intercept) 9.412e-04  5.283e-04   1.782   0.0795 .
x           4.780e-06  1.939e-06   2.466   0.0163 *
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.002895 on 65 degrees of freedom
Multiple R-squared:  0.08553,   Adjusted R-squared:  0.07146 
F-statistic: 6.079 on 1 and 65 DF,  p-value: 0.01633

Interpretación del intercepto y la pendiente del modelo lineal simple

Row

Interpretaciones:

  • Modelo 1: En este modelo, se analiza cómo varía el peso (Weight) en función de la capitalización de mercado (Marketcap). El intercepto es igual a 0, lo cual significa que cuando la capitalización de mercado es 0, el peso esperado es de 0 unidades. Por otro lado, la pendiente es igual a 1.799e-14, lo cual significa que por cada aumento de una unidad en la capitalización de mercado, el peso se incrementa en aproximadamente 0.00000000000001799 unidades. Este modelo presenta un ajuste perfecto, lo cual es muy poco común en la práctica y sugiere que el peso podría haber sido calculado directamente a partir de la capitalización de mercado, probablemente como una proporción u otra transformación directa de esta variable.
  • Modelo 2: En este caso, se estudia la relación entre el crecimiento de los ingresos (Revenuegrowth) y la capitalización de mercado (Marketcap). El intercepto es igual a 0.1321, lo cual significa que cuando la capitalización de mercado es 0, el crecimiento esperado de los ingresos es de 0.1321 unidades. Por otro lado, la pendiente es igual a -8.651e-14, lo cual significa que por cada aumento de una unidad en la capitalización de mercado, el crecimiento de los ingresos disminuye en aproximadamente 0.00000000000008651 unidades.
  • Modelo 3:Este modelo examina cómo varía el peso (Weight) con respecto al precio actual (Currentprice). El intercepto es igual a 0.0009412, lo cual significa que cuando el precio actual es 0, el peso esperado es de 0.0009412 unidades. Por otro lado, la pendiente es igual a 0.00000478, lo cual significa que por cada aumento de una unidad en el precio actual, el peso se incrementa en 0.00000478 unidades.

Diagrama de cajas por grupos

Row

Diagrama de cajas por grupos (x=Industria, y=Precio Actual).

Conclusiones

Row

Conclusiones

  • 1. Alta concentración en Nueva York y predominancia de industrias clave: El 29,6% de las empresas del sector financiero del S&P 500 están en Nueva York; las industrias más representadas son Asset Management (16,3%), Regional Banks y Property & Casualty Insurance (13,4% cada una).
  • 2. Precio promedio elevado con alta variabilidad: El precio promedio de las acciones fue de 202,39 con una desviación estándar de 183,82, reflejando gran heterogeneidad (coeficiente de variación ≈ 90%).
  • 3. Alta dispersión en el desempeño financiero del sector: Las variables cuantitativas muestran gran variabilidad, lo que indica un sector financiero diverso en tamaño y resultados.
  • 4. Amplias diferencias en capitalización bursátil: La capitalización promedio fue de 1,06e+11, pero con máximos cercanos a 9,79e+11, lo que revela oportunidades para distintos tipos de inversionistas.
  • 5. Crecimiento de ingresos altamente variable: El crecimiento de ingresos osciló entre -60,2% y 133,4%, con una media de 12,3% y una gran dispersión (coeficiente de variación ≈ 198%).
  • 6. Sector financiero diverso y estructuralmente complejo: Aunque concentrado en Nueva York, el sector presenta diversidad geográfica, industrial y financiera, lo que refleja su complejidad.
  • 7. Correlación estructural fuerte entre Marketcap y Weight: Solo Marketcap y Weight tienen correlación perfecta (1), ya que Weight se calcula directamente a partir de Marketcap; las demás variables no presentan vínculos relevantes.
  • 8. Influencia leve de Marketcap y Currentprice sobre Weight: La regresión sugiere una relación positiva débil entre Weight y Marketcap/Currentprice, pero no se evidencia una relación clara con Revenue Growth.