quantmod es un paquete diseñado para ayudar a traders del mundo financiero a desarrollar modelos econométricos que puedan ayudarles a hacer su trading.

Este paquete contiene diversas funciones para poder recolectar, visualizar y gestionar data.
getSymbols() es una función que es parte de paquete de quantmod.Esta función crea una xts (extensible time series) con la que es posible descargar data financiera (como cierres de acciones, precios de ETFs, tasas de interés, etc) actual de diversas fuentes (por ejemplo yahoo finance, google finance, FRED y oanda)

En el chonk posterior se descagan a través de getSymbols los datos históricos de Tesla (TSLA) y Microsoft (MSFT) con una periodicidad diaria desde el primedio de enero de 2019 hasta el 28 de febrero de 2023. La fuente de estos datos de yahoo.

NOTA IMPORTANTE: para que se puedan descargar los datos de yahoo finance, es necesario utilizar el “ticker” de las compañías en vez de su nombre comercial. (ejemplo en vez de poner tesla es necesario poner TSLA)

En la función de getSymbols se agregaron los siguiente argumentos: -from= para indicar la fecha inicial de la serie de tiempo -to= para indicar la fecha límite de la serie de tiempo -src= para indicar la fuente de la cual se desean descargar los datos -periodicity= indica la periodicidad de los datos de la serie de tiempo (diaria, mensual, trimestral, anual)

library(quantmod) #esta función se agregó con la intención de descargar los datos del paquete de quantmod a la computadora 

getSymbols(c("MSFT","TSLA"), from="2019-01-01", to="2023-02-28",src="yahoo",periodicity="daily") 
[1] "MSFT" "TSLA"

Después de haber descargado los datos a través de getSymbols, es posible poder ver el contenido de estas series de tiempo.

En la base de datos que fue descargada por yahoo se incluyen diferentes columnas que indican el: -open -high -low -close -adjusted (precio ajustado) -volume data

Debido a que la series de tiempo descragadas son muy largas es posible ver el contenido de las primeras y de las últimas líneas de código a través de diversas funciones.

La función de head() sirve para poder ver las primeras líneas de código.


head(MSFT,5) 
           MSFT.Open MSFT.High MSFT.Low
2019-01-02     99.55    101.75    98.94
2019-01-03    100.10    100.19    97.20
2019-01-04     99.72    102.51    98.93
2019-01-07    101.64    103.27   100.98
2019-01-08    103.04    103.97   101.71
           MSFT.Close MSFT.Volume
2019-01-02     101.12    35329300
2019-01-03      97.40    42579100
2019-01-04     101.93    44060600
2019-01-07     102.06    35656100
2019-01-08     102.80    31514400
           MSFT.Adjusted
2019-01-02      96.63264
2019-01-03      93.07774
2019-01-04      97.40672
2019-01-07      97.53095
2019-01-08      98.23811
#se inclyó el número 5 para indicar que se desean visualizar la primera línea de los datos de la serie de tiempo. Se pueden poner otros argumentos para ver más líneas de la serie de tiempo (ejemplo si se quiere 10 datos se debería usar el código head(MSFT,10))

En el código posterior se utiliza la función tail() para poder ver las últimas líneas de la serie de tiempo

tail(MSFT, n=10)
           MSFT.Open MSFT.High MSFT.Low
2023-02-13    267.64    274.60   267.15
2023-02-14    272.67    274.97   269.28
2023-02-15    268.32    270.73   266.18
2023-02-16    264.02    266.74   261.90
2023-02-17    259.39    260.09   256.00
2023-02-21    254.48    255.49   251.59
2023-02-22    254.09    254.34   250.34
2023-02-23    255.56    256.84   250.48
2023-02-24    249.96    251.00   248.10
2023-02-27    252.46    252.82   249.39
           MSFT.Close MSFT.Volume
2023-02-13     271.32    44630900
2023-02-14     272.17    37047900
2023-02-15     269.32    28922400
2023-02-16     262.15    29603600
2023-02-17     258.06    30000100
2023-02-21     252.67    28397400
2023-02-22     251.51    22491100
2023-02-23     254.77    29219100
2023-02-24     249.22    24990900
2023-02-27     250.16    21190000
           MSFT.Adjusted
2023-02-13      270.6421
2023-02-14      271.4900
2023-02-15      269.3200
2023-02-16      262.1500
2023-02-17      258.0600
2023-02-21      252.6700
2023-02-22      251.5100
2023-02-23      254.7700
2023-02-24      249.2200
2023-02-27      250.1600
#se incluye en el código el argumento n=10, para indicar que se desean ver las últimas 10 líneas de la base de datos. Se pueden cambiar el número de líneas que se desean ver.

Es importante mencionar que el set de datos descargados de TESLA no inlcuye la columna de adjusted price, sin embargo es posible conocer este dato para dia través de la función que se muestra en el siguiente chunk:

adjTSLA = Ad(TSLA) 

#la función de ad sirve para descargar los datos históricos de los precios ajustados de tesla. 

adjTSLA = TSLA$TSLA.Adjusted
#se usa el $ para fijar la columna al data set 

#se nombró a la función ajdTSLA para poderla llamar más adelante

head(adjTSLA) #se utiliza la función head() para poder conocer los primeros 5 datos de la serie 
           TSLA.Adjusted
2019-01-02      20.67467
2019-01-03      20.02400
2019-01-04      21.17933
2019-01-07      22.33067
2019-01-08      22.35667
2019-01-09      22.56867

A continuación se muestra otra forma de seleccionar la columna que contiene el dato del precio ajustado de Tesla

NOTA IMPORTANTE: lo que se incluye en el chunk también puede ser aplicado en caso de que se quieran seleccionar otras columnas


adjTSLA = TSLA[, 6] #la columna de los precios ajustados es la 6, por eso se selecciona esta 

#NOTA IMPORTANTE: en todos los sets de datos se tienen dos dimensiones [filas,columnas]

#es importante nota que en este caso solamente se quiere la información de las columna de datos ajustados, pero se quieren mantener todas las filas. Es por lo anterior que se mantiene el espacio de la fila vacio.

dim(TSLA) #a través de la función dim es posible conocer las dimeciones de todos los sets de datos. 
[1] 1046    6
#con la función de dim es posible conocer que el número total de filas de la serie de datos es 1046, mientras que el total de columnas es 6

Además de poder seleccionar los dtaos específicos de una columna, también es posible seleccionar filas específicas utilizando el mismo método, es decir el de [fila, columna].

En el chunk que se muestra a continuación se muestra como se pueden elegir las primeras 10 filas de la serie de tiempo

TSLAfirstdays = TSLA[1:10,] #como solo se desean conocer las filas 1 a la 10 se utiliza la notación 1:10 .Pero con todas las columnas, entonces se deja el espacio de columnas vació 

TSLAfirstdays #se llama a la función 
           TSLA.Open TSLA.High TSLA.Low
2019-01-02  20.40667  21.00867 19.92000
2019-01-03  20.46667  20.62667 19.82533
2019-01-04  20.40000  21.20000 20.18200
2019-01-07  21.44800  22.44933 21.18333
2019-01-08  22.79733  22.93400 21.80133
2019-01-09  22.36667  22.90000 22.09800
2019-01-10  22.29333  23.02600 22.11933
2019-01-11  22.80600  23.22733 22.58467
2019-01-14  22.82533  22.83333 22.26667
2019-01-15  22.33333  23.25333 22.30000
           TSLA.Close TSLA.Volume
2019-01-02   20.67467   174879000
2019-01-03   20.02400   104478000
2019-01-04   21.17933   110911500
2019-01-07   22.33067   113268000
2019-01-08   22.35667   105127500
2019-01-09   22.56867    81493500
2019-01-10   22.99800    90846000
2019-01-11   23.15067    75586500
2019-01-14   22.29333    78709500
2019-01-15   22.96200    90849000
           TSLA.Adjusted
2019-01-02      20.67467
2019-01-03      20.02400
2019-01-04      21.17933
2019-01-07      22.33067
2019-01-08      22.35667
2019-01-09      22.56867
2019-01-10      22.99800
2019-01-11      23.15067
2019-01-14      22.29333
2019-01-15      22.96200

También es posible seleccionar columnas y filas específicas.

En el chunk que se muestra a continuación se ejemplifica como se puede seleccionar columnas y filas específicas al seleccionar los primeros 10 días de los precios ajustados de tesla

TSLA_adjusted_first_prices = TSLA[1:6,6] #se selecciona de las filas 1 a 10, pues contienen los primeros 10 datos. De igual manera se seleccionan la columna 6 que contiene los datos de los precios ajustados. 

head(TSLA_adjusted_first_prices)
           TSLA.Adjusted
2019-01-02      20.67467
2019-01-03      20.02400
2019-01-04      21.17933
2019-01-07      22.33067
2019-01-08      22.35667
2019-01-09      22.56867

Si se desea seleccionar más de una columna, entonces se puede utilizar el contenedor c() e indicar que columnas se desean seleccionar. A continuación se presenta un ejemplo en el que se desean conocer los datos del open y close (columnas 1 y 4) de los primero 10 días de la base de datos (fila 1 a 10)

TSLA_Open_Close = TSLA[1:10,c(1,4)]
head(TSLA_Open_Close)
           TSLA.Open TSLA.Close
2019-01-02  20.40667   20.67467
2019-01-03  20.46667   20.02400
2019-01-04  20.40000   21.17933
2019-01-07  21.44800   22.33067
2019-01-08  22.79733   22.35667
2019-01-09  22.36667   22.56867

Una nota importante es que también se pueden seleccionar filas utilizando el índice de fechas. Por ejemplo si se desean seleccionar todos los precios de la acción de Tesla del año 2021, entonces se puede hacer los siguiente:

TESLA_2021 = TSLA["2021-01-01/2021-12-31", ] #como no se mencionan argumentos de columnas, entonces se incluyen todas las columnas
head(TESLA_2021)
           TSLA.Open TSLA.High TSLA.Low
2021-01-04  239.8200  248.1633 239.0633
2021-01-05  241.2200  246.9467 239.7333
2021-01-06  252.8300  258.0000 249.7000
2021-01-07  259.2100  272.3300 258.4000
2021-01-08  285.3333  294.8300 279.4633
2021-01-11  283.1333  284.8100 267.8733
           TSLA.Close TSLA.Volume
2021-01-04   243.2567   145914600
2021-01-05   245.0367    96735600
2021-01-06   251.9933   134100000
2021-01-07   272.0133   154496700
2021-01-08   293.3400   225166500
2021-01-11   270.3967   177904800
           TSLA.Adjusted
2021-01-04      243.2567
2021-01-05      245.0367
2021-01-06      251.9933
2021-01-07      272.0133
2021-01-08      293.3400
2021-01-11      270.3967

También es posible combinar la selección de columnas y la selección de filas con el índice de fechas

TESLA_2021_adjusted = TSLA["2021-01-01/2021-12-31", "TSLA.Adjusted"]
#NOTA IMPORTANTE: es posible seleccionar las columnas al poner el número de columna, o su nombre.

head(TESLA_2021_adjusted) #se llaman los primeros 6 datos de la selección 
           TSLA.Adjusted
2021-01-04      243.2567
2021-01-05      245.0367
2021-01-06      251.9933
2021-01-07      272.0133
2021-01-08      293.3400
2021-01-11      270.3967

DATA MERGING

Se puede utilizar la función de merge() para unir a dos o más series de tiempo, para integrarlas a una sola data sheet

prices = merge(MSFT,TSLA)
# To get only Adjusted prices:
adjprices = Ad(prices)

También se puede utilizar una función dentro de otra función para tener mejor gestión de la data.

POr ejemplo es posible realizar todo el código del chunk anterior, con solamente una línea de código:

adjprices <- Ad(merge(MSFT,TSLA))

Ahora que se tiene una sola datasheet con los precios ajustados de ambas acciones, es posible cambiar el nombre de las columnas. Como se muestra a continuación:

names(adjprices)<-c("msft","tesla")

Ahora es posible hacer referencias a los precios ajustados utilizando estos nombres

head(adjprices$tesla) #se pone adjprices$tesla para indicar que se desea conocer los primeros 6 datos del precio ajustado de tesla 
              tesla
2019-01-02 20.67467
2019-01-03 20.02400
2019-01-04 21.17933
2019-01-07 22.33067
2019-01-08 22.35667
2019-01-09 22.56867
# si se quisiera conocer los primeros 6 datos del precio ajustado de microsft se utilizaría la siguiente función: head(adjprices$msft)

VISUALIZACIÓN DE LOS PRECIOS

Para entender de mejor manera y visualizar como han sido valuadas las acciones de tesla y de microsoft a lo largo del tiempo, es necesario graficar la función de adjprices

plot(adjprices)

Cuando ambas series tienen diferentes escalas es mejor graficarlas de manera separada

plot(adjprices,multi.panel=TRUE)

#con el argumento multi.panel=true, es posible comparar las dos gráficas por separado

Es importante considerar que al comparar dos acciones la magnitud del precio ajustado no pueden utilizarse para definir cual de las dos acciones tiene un valor de mercado más alto. Lo anterior se debe a que el valor de mercado se da a través del mercado de capitalización, es decir a través de la multiplicación del precio ajustado por el número de acciones. (valor de mercado=precio ajustado x número de acciones)

Se puede utiliza la función chartSeries, para poder visualizar tanto el precio ajustado de la acción como el trading volume

chartSeries(MSFT, theme=("white"))

#theme white se utiliza para que el fondo de la gráfica sea blanco. El único otro color que se puede aplicar la fondo de esta gráfica es negro

También es posible graficar periosos específicos, por ejemplo es posible graficar el comportamiento del precio ajustado de Microsoft en 2021 solamente:

chartSeries(MSFT, subset = '2021-01-01/2021-12-31')

#como se había mencionadp anteriormente chartSeries ayuda a graficar tanto el precio ajustado de la acción como el volumen

#se agrega el argumento subset, para así poder incluir el periodo de tiempo (o índice de tiempo) específico que se desea graficar 

RETORNOS FINANCIEROS PARA SERIES DE TIEMPO

Como es bien sabido existen múltiples maneras de obtener el retorno de una acción. Entre los principales métodos se encuentra el dividir el precio ajustado de una acción entre el precio ajustado del periodo anterior, y eso restarlo entre 1. (ejemplo para sacar el retorno de enero de 2022 sería necesario realizar lo siguiente: (precio ajustado enero 2022/precio ajustado diciembre 2021)-1)

El método más recomendable es el de sacar la diferencia del logaritmo del precio más reciente y del precio del periodo anterior. (ejemplo para sacar el retorno de enero de 2022 sería necesario realizar lo siguiente: log(precio ajustado enero 2022/precio ajustado diciembre 2021))

RETORNOS SIMPLES EN SERIES DE TIEMPO:

Para poder calcular el retorno simple deberá ser necesario utilizar el precio ajustado de las acciones. Para calcular el valor pasado del precio de una variable de series de tiempo se puede utilizar la función lag.

R = adjprices / stats::lag(adjprices,n=1) - 1 
head(R)
                   msft        tesla
2019-01-02           NA           NA
2019-01-03 -0.036787785 -0.031471704
2019-01-04  0.046509282  0.057697413
2019-01-07  0.001275364  0.054361202
2019-01-08  0.007250632  0.001164318
2019-01-09  0.014299491  0.009482585

RETORNOS COMPUESTOS CONTINUOS

Se pueden sacar los retornos compuestos continuos utilizando los valores descontads al utilizar las funciones de diff() y de log().

NOTA: la función diff calcula la diferencia entre el valor de tiempo de la serie y su valor pasado

r = diff(log(adjprices))
head(r)
                   msft        tesla
2019-01-02           NA           NA
2019-01-03 -0.037481523 -0.031977580
2019-01-04  0.045460132  0.056094294
2019-01-07  0.001274551  0.052935088
2019-01-08  0.007224472  0.001163641
2019-01-09  0.014198217  0.009437908

Es importante recordar que los log prices son retornos compuestos de manera continua en un periodo.

También se pueden graficar los retornos diarios que Tesla ha tenido a lo largo del timepo.

A continuación es posible ver que existe una alta volatilidad en los retornos diarios durante los meses que duró la pandemia. Esta volatilidad puede ser calculada a através de la desviación estándar

plot(R$tesla)

ESTADÍSTICAS DESCRIPTIVAS CON SERIES DE TIEMPO

El paquete PerfomanceAnalytics contiene diversas funciones para realizar estadísticas descriptivas

library(PerformanceAnalytics)
table1 <- table.Stats(R) #la función table.Stats sirve para conocer las medidas estadísticas descriptivas básicas de una serie de tiempo

table1 #se llama la función 

En caso de que se desee obtener estadísticas descriptivas específicas se pueden utilizar diferentes funciones, como mean() y sd

mean_tesla_R = mean(R$tesla, na.rm=TRUE) #la función mean() sirve conocer el promedio 

median_tesla_R = median(R$tesla, na.rm=TRUE)
#la función median() sirve conocer la mediana

sd_tesla_R = sd(R$tesla, na.rm=TRUE)
#la función sd() sirve para conocer la desviación estandar 

#NOTA IMPORTANTE na.rm=TRUE es una opción que ayuda a que se eliminen los valores NA antes de realizar los calculos 

cat("Tesla daily mean return is ",mean_tesla_R, "\n") 
Tesla daily mean return is  0.003113736 
#NOTA IMPORTANTE: la función cat (siglas para concentrate and prime) da salida a los datos en el formato deseado

A través de la línea de código 234 es posible conocer que la media del retorno diario de tesla es 0.0031

cat("Tesla daily median return is ",median_tesla_R, "\n")
Tesla daily median return is  0.002260816 

A través del código en el chunk anterior es posible conocer que la mediana del retorno diario de tesla es 0.00226

cat("Tesla daily volatility is ", sd_tesla_R)
Tesla daily volatility is  0.04253301

A través del código en el chunk anterior es posible conocer que la volatilidad (es decir la desviación estandar) del retorno diario de tesla es 0.04253

NOTA IMPORTANTE: cuando existen valores de NA en las columnas el programa no puede calcular las estadísticas descriptivas, a menos de que se utilicé la opción na.rm=TRUE.

Cuando la media y la mediana son muy diferentes, por lo general se toma como señal de que no hay normalidad en la distribución de la variable. En el ejemplo de tesla se puede ver que la mediana es mucho menor que la medio (media=0.14% y mediana 0.31%). La mediana es mejor métrica para medir los valores centrales de tendencia de retornos financieros.

NOTA IMPORTANTE: si la Kurtosis de la variable es mayor a 3, entonces la variable tiene valores más extremos que una distribución normal.

En el ejemplo de Tesla se puede ver que tanto la media como la mediana tienen valores nayores a tres.

NOTA IMPORTANTE: por lo general los retornos financieros tienen valores más extremos a comparación de variables que tienen distribución normal, por lo que la desviación estandar no es suficiente para entender de mejor manera la dispersión de los retornos.

NOTA IMPORTANTE: los quartiles dan una mejor percepción de la volatilidad de los retornos financieros. Por lo que se recomienda utilizar el gráfico de caja.

chart.Boxplot(R)


#los círculos rojos que se muestran en el gráfico son la media, la límea en medio es la mediana. 
#las cajas incluyen 50% de data del Q1 o Q1 (presentíl 25) al Q3. 
#las líneas verticales limitan los valores no extremos. 
#Los puntos son los valores extremos de la distribución

Ahora que se esta utlizando el gráfico de caja es posible entender de menor manera que Microsoft tiene más volatilidad que Tesla (ósea que es más riesgoso que tesla).

VISUALIZING HOLDING RETURNO OVER TIME

Se puede utilizar la función de charts.PerformanceSummary() para visualizar cuanto se generaría si se invirtiera $1 y se mantuviera por un periodo de tiempo.

charts.PerformanceSummary(R$tesla, 
                          main = "Performance of $1.00 Tesla",
                          wealth.index = TRUE)

También es posible calcular el exact holding period return al obtener el porcentaje de crecimiento de la serie a través del precio ajustado

hpr_tesla = as.numeric(adjprices$tesla[nrow(adjprices)]) / as.numeric(adjprices$tesla[1]) - 1
hpr_tesla
[1] 9.042725

Al expresar el dato arrojado por el programa en porcentaje se tiene 904.2725% de retorno de holding period.

Al interpretar lo anterior tenemos que si se invirtiera $1 en Tesla al inicio del periodo, entonces se tendría $10.04273 al final del periodo.

Este mismo ejercicio puede ser realizado para Microsoft:

charts.PerformanceSummary(R$msft, 
                          main = "Performance of $1.00 in Microsoft",
                          wealth.index = TRUE)


hpr_msft = as.numeric(adjprices$msft[nrow(adjprices)]) / as.numeric(adjprices$msft[1]) - 1
hpr_msft
[1] 1.588773
#Al expresar el dato arrojado por el programa en porcentaje se tiene 158.8773% de retorno de holding period. 

#Al interpretar lo anterior tenemos que si se invirtiera $1 en Microsoft al inicio del periodo, entonces se tendría $10.04273 al final del periodo. 

DATA STRUCTURES

Existen 3 estructuras de data set: -Series de tiempo (varios periodos de tiempo y se pueden tener varios sujetos que se muestran en columnas) -Cross sectional (muchos sujetos, pero solamente 1 periodo de tiempo) -Panel data structure (varios sujetos y más de un periodo de tiempo para cada sujeto)

DATA MANAGMENT FOR PANEL DATA

Antes de diseñar un modelo econométrico es necesario tener una gestión simple y sofisticada de la data que se va a manejar.

En el ejemplo se mostrará como combinar dos datasets (una serie de tiempo con la información histórica del IPyC, y un data ser con la información de cuartos de año de diferentes empresas mexicanas)

NOTA IMPORTANTE: solamente se pueden fusionar datasets que tengan la misma granularidad, es decir data sets que compartan la misma periodicidad. Lo que quiere decir que si se tiene dos series de tiempo, una con datos anuales y la otra con datos mensuales, entonces no se podrán fusionar.

En el chunk posterior se descargará la información del sitio economatica, y contiene la información de cuartos de año de rms mexicanas

# primero es importante descargar el paquete readxl que permite descargar documentos de excel de sitios web
library(readxl)
download.file("http://www.apradie.com/datos/datamx2020q4.xlsx",
              "firmspaneldata.xlsx", mode="wb")
trying URL 'http://www.apradie.com/datos/datamx2020q4.xlsx'
Content type 'application/vnd.openxmlformats-officedocument.spreadsheetml.sheet' length 5163617 bytes (4.9 MB)
==================================================
downloaded 4.9 MB
# se utiliza la función download file para descargar el archivo, y luego se pone como argumento el sitio de donde se va a descargar el archivo
# el último argumento indica que se va a descargar el excel como documento local 

paneldataset <- read_excel("firmspaneldata.xlsx")

Se necesita fusionar el retorno mensual del mercado con el data set anterior por lo que se necesita realizar los siguente 1. Descargar el mercado mensual de yahoo a través de la función getSymbols()

library(quantmod)
getSymbols("^MXX", from="2000-01-01", to= "2019-12-31",
            periodicity="monthly", src="yahoo")
[1] "^MXX"
  1. transformar (collapse) la data para que sea cuatrimestral
QMXX <- to.quarterly(MXX,indexAt='startof')
head(QMXX) #se utilizó head para poder ver el contenido de la data
           MXX.Open MXX.High MXX.Low MXX.Close
2000-01-01  7185.71  8417.33 6510.84   7473.25
2000-04-01  7459.75  7639.38 5516.77   6948.33
2000-07-01  6953.73  7548.57 6171.95   6334.56
2000-10-01  6334.64  6502.60 5148.02   5652.19
2001-01-01  5651.35  6615.83 5512.77   5727.89
2001-04-01  5733.67  6895.70 5541.68   6666.17
           MXX.Volume MXX.Adjusted
2000-01-01          0      7473.25
2000-04-01          0      6948.33
2000-07-01          0      6334.56
2000-10-01          0      5652.19
2001-01-01          0      5727.89
2001-04-01 4888424600      6666.17

Como se puede ver en la data anterior se muestran las columnas de open, high, low, colse, volumen y adjusted price. Sin embargo solamente se necesitará el precio ajustado para calcular el retorno, por lo que solamente se selecciona la columna de Close

QMXX = QMXX$MXX.Adjusted
#se le cambio el nombre a la columna 
colnames(QMXX) <- "MXXindex"

Ahora es posible calcular el retorno del mercado

QMXX$MXXreturns <- diff(log(QMXX)) #recordando que la función de diff() ayuda a sacar la diferencia en los datos y log() ayuda a sacar los logaritmos. 

Casi todo esta listo para poder fusionar esta data cuatrimestral con el panel dataset, sin embargo antes es necesario tener ambos data sets en una misma columna. En este caso la columna en común es la de un cuarto.

La función llamada QMXX tiene el índice de cuarto, pero no como columna, por lo que a continuación se creará un data frame con la columna de cuarto igual al índice

QMXX.df<-data.frame(quarter=index(QMXX),coredata(QMXX)) #se crea un dataframe con una columna de cuarto
#en este chunk se copia la inforación del índice QMXX y después se utiliza coredata() 
#coredata() es una función que copia la información de un objeto perio sin copiar el formato 

La columna en común debe de ser del mismo tipo para asegurar que la columna de cuarto del dataset sea Data type:

paneldataset$quarter<-as.Date(paneldataset$quarter)

3- fusionar la nueva serie de tiempo con el panel data

paneldataset<-merge(paneldataset,QMXX.df,by="quarter")
#después de utilizar la función de mergue ahora se tiene un dataset para las empresas mexicanas, la información histórica del IPyC y los retornos del IPyC. 

SETTING A PANEL DATA STRUCTURE

Es importante que el data set (ósea el paneldataset) tenga la estructura de un cuarto anual (para las empresas mexicanas de la data).

Para lo anterior es necesario definir al dataset como un panel de data. Esto se puede lograr utilizar la función de pdata.frame().

NOTA IMPORTANTE: para poder utilizar esta función es necesario instalar el paquete plm

En el chunk posterior se indica que el indice del data panel va a tener el a las empresas como sujeto y la columna con los cuartos como el tiempo

library(plm)
paneldataset <- pdata.frame(paneldataset, index= c("firmcode","quarter"))

DATA CALCULATIONS WITH PANEL DATA

Para poder realizar selecciones y calculos en panel data sets es necesario utilizar el paquete dplyr.

NOTA IMPORTANTE: dplyr es un paquete que tiene herramientas muy poderosas que pueden facilitar la gestión de panel data sets.

library(dplyr)

Es importante mencionar que el data set que se ha estado utilizando tiene información histórica quatrimestral de empresas que estan activas y no activas en la Bolsa Mexicana de Valores. Para este ejercicio solamente se van a necesitar las empresas que si están activas en la BMV.

En el chunk posterior se muestra como mantener solamente las empresas que son necesarias para el ejercicio.

activedata<-paneldataset[paneldataset$status=="active",]
activedata<-activedata[activedata$year>=2010,]

#como se puede observar se seleccionan las filas que se desean al incluir argumentos como que en la columna de status tengan el valor "active". 

Ahora que se seleccionaron las empresas que estan activas en la BMV, de acuerdo a la base de datos, es importate también seleccionar ciertas columnas de este data set que puedan ser de utilidad para hacer ciertas operaciones financieras.

Para poder realizar lo anterior se utilizará la operación “%>%” (que puede utilizarse después de instalar el paquete dplyr)

activedata<-activedata %>%
    select(firm,quarter,year,revenue,cogs,ebit,totalassets,
           adjustedstockprice, naics1)

#se seleccionan las columnas deseadas después de utilizar la operación %>%

CALCULATING FINANCIAL RETURNS AND RATIOS WITH PANEL DATA

Para poder calcular los retornos del panel data set se utiliza el mismo método que se tomo en cuenta para calcular los retornos de tesla y de microsoft (es decir sacar la diferencia de los logaritmos de los datos)

activedata$r = diff(log(activedata$adjustedstockprice))

Al realizar la acción anterior se agregó una columna al en el panel data. En caso de que existiera un cabio en alguna de las empresas no sería necesario calculcar los rendimientos de nuevo, solamente habría de revisar si los valores de los primeros cuartos de cada empresa tienen el valor de NA. A continuación se va a calcular el retorno sobre activos (ROA) utilizando el EBIT en vez de la utilidad neta:

activedata$ROA = activedata$ebit / activedata$totalassets

A contnuación se calcularán el margen de utilidad/profit margin(PM) y la rotación de activos (ATO). Para el calculo de del margen de utilidad se utilizará el EBIT en lugar de la utilidad neta:

activedata$PM = activedata$ebit / activedata$revenue
activedata$ATO = activedata$revenue / activedata$totalassets

USING CONDITIONALS TO CREATE COLUMNS

A continuación se va a crear una columna con variables binarias que ayuden a identificar de manera más sencilla si el ROA en un cuarto específico es mayor al ROA de cuatro cuartos (un año) previo.

Para poder lograr lo anterior será necesario utilizar la función ifelse().


activedata$ROAsignal = ifelse(activedata$ROA>
                    plm::lag(activedata$ROA, 4),1,0)

#en el primer parámetro de la función se usa un condición logica que puede ser verdadera o falsa. En este caso la condición evalua si el ROA es mayor que el ROA de cuatro periodos anteriores.

#En caso de la condición sea verdadera entonces se le asignará el valor del segundo parametro, si la condición es falsa se le asgnará el tercer parametro.

NOTA IMPORTANTE: ifelese() es una de gran utilidad especialmente en la gestión de data financiera, pues puede crear señales que comparen valores financeros. La estructura general de esta función es la siguiente: ifelse(data_condition, value_if_TRUE, value_if_FALSE)

A continuación se muestra un ejemplo de como puede ser utilizada la función

a=5
b=10
ifelse(a>b,1,0)
[1] 0
#debido a que “a” no es mayor a “b”, entonces la función arroja el resultado de 0.

DESCRIPTIVE STATISTICS WITH PANEL DATA

NOTA IMPORTANTE: el proceso para sacar las estadísticas descriptivas de un data panel no es el mismo que se usa para poder obtener las estadísticas descriptivas de una serie de tiempo. Es de suma importante tomar en cuenta el periodo del data panel a la hora de sacar estadísticas, pues el descuido de este aspecto puede resultar en la obtención de datos erróneos.

Es posible empezar a realizar el proceso de sacar las estadísticas descriptivas al seleccionar el último cuarto de la data:

data2019q4 = activedata[activedata$quarter=='2019-10-01',]
summary(data2019q4[,c(4:7,10)])
    revenue               cogs          
 Min.   :0.000e+00   Min.   :        0  
 1st Qu.:3.257e+06   1st Qu.:   672312  
 Median :1.063e+07   Median :  5771803  
 Mean   :5.096e+07   Mean   : 33001268  
 3rd Qu.:3.540e+07   3rd Qu.: 22720676  
 Max.   :1.007e+09   Max.   :630651367  
 NA's   :30          NA's   :30         
      ebit            totalassets       
 Min.   : -6734642   Min.   :2.454e+04  
 1st Qu.:   266741   1st Qu.:1.011e+07  
 Median :  1673254   Median :3.156e+07  
 Mean   :  6282411   Mean   :1.031e+08  
 3rd Qu.:  5079130   3rd Qu.:7.706e+07  
 Max.   :154840535   Max.   :1.580e+09  
 NA's   :25          NA's   :8          
       r           
 Min.   :-0.49758  
 1st Qu.:-0.04220  
 Median : 0.01014  
 Mean   : 0.02954  
 3rd Qu.: 0.08786  
 Max.   : 0.80507  
 NA's   :22        

En el chunk posterior se utilizará el paquete dplyr para seleccionar el último cuarto del data set, se agrupar a las empresas por industrias y se sacar la mediana de las variables principales.

industries<-unique(activedata$naics1)
activedata %>% 
   filter(quarter=='2019-10-01') %>%
  group_by(naics1) %>% 
  summarize(firms = n(),
            median_total_assets = median(totalassets, na.rm = TRUE),
            median_revenue = median(revenue, na.rm = TRUE),
            median_ebit = median(ebit, na.rm = TRUE))

Los datos anteriores muestran el estado del mercado financiero mexicano.

NOTA IMPORTANTE: la media aritmética no es el mejor instrumento para poder representar el estado actual del mercado. Es debido a lo anterior que es mejor utilizar la mediana, pues la mejor medida de tendencia central para medir variables financieras como ingreso total o activos totales es la mediana, pues

LOOKING AT THE 2 TABLES ABOVE, PROVIDE A GOOD DESCRIPTION OF A TYPICAL (AVERAGE) FIRM IN MEXICO, AND A DESCRIPTION OF THE MEXICAN MARKET IN TERMS OF FIRMS BY INDUSTRY AND FIRM SIZE FOR EACH INDUSTRY.

Como se puede observar en la última tabla, la industria con más empresas activas en la Bolsa de Valores Mexicana es la industria de manufactura,la segunda más grande es la de finanzas y seguros.

Las industras más pequeñas son las de las de gestión de empresas y de salud y asistencia social, pues estan cuentan con solamente 1 empresa respectivamente que cotiza en la BVM.

A pesar de que el sector de gestión y empresas es uno de los más pequeños es importante notar que de acuerdo a la mediana, es el sector con el total de activos, mayor revenue y EBIT. Lo que indica que el sector, o más bien dicho la empresa que esta activa en la BMV es muy rentable.

Por su parte es importante resaltar de igual manera que la industria de manufactura es la segunda con mayores activos, la tercera en revenue y la segunda con mayor EBIT. Es lo que indica que esta industria además de ser una industria muy grande, también es muy rentable.

---
title: "Workshop 1, Algotithms and Data Analysis"
autor: Valeria Estefanía Padilla Barovier
output: html_notebook
---

quantmod es un paquete diseñado para ayudar a traders del mundo financiero a desarrollar modelos econométricos que puedan ayudarles a hacer su trading. 

Este paquete contiene diversas funciones para poder recolectar, visualizar y gestionar data.  
getSymbols() es una función que es parte de paquete de quantmod.Esta función crea una xts (extensible time series) con la que es posible descargar data financiera (como cierres de acciones, precios de ETFs, tasas de interés, etc) actual de diversas fuentes (por ejemplo yahoo finance, google finance, FRED y oanda)

En el chonk posterior se descagan a través de getSymbols los datos históricos de Tesla (TSLA) y Microsoft (MSFT) con una periodicidad diaria desde el primedio de enero de 2019 hasta el 28 de febrero de 2023. La fuente de estos datos de yahoo. 

NOTA IMPORTANTE: para que se puedan descargar los datos  de yahoo finance, es necesario utilizar el "ticker" de las compañías en vez de su nombre comercial. (ejemplo en vez de poner tesla es necesario poner TSLA)

En la función de getSymbols se agregaron los siguiente argumentos: 
-from= para indicar la fecha inicial de la serie de tiempo
-to= para indicar la fecha límite de la serie de tiempo 
-src= para indicar la fuente de la cual se desean descargar los datos
-periodicity= indica la periodicidad de los datos de la serie de tiempo (diaria, mensual, trimestral, anual)

```{r}
library(quantmod) #esta función se agregó con la intención de descargar los datos del paquete de quantmod a la computadora 

getSymbols(c("MSFT","TSLA"), from="2019-01-01", to="2023-02-28",src="yahoo",periodicity="daily") 

```

Después de haber descargado los datos a través de getSymbols, es posible poder ver el contenido de estas series de tiempo.

En la base de datos que fue descargada por yahoo se incluyen diferentes columnas que indican el: 
-open 
-high
-low 
-close 
-adjusted (precio ajustado)
-volume data

Debido a que la series de tiempo descragadas son muy largas es posible ver el contenido de las primeras y de las últimas líneas de código a través de diversas funciones.

La función de head() sirve para poder ver las primeras líneas de código. 

```{r}

head(MSFT,5) 
#se inclyó el número 5 para indicar que se desean visualizar la primera línea de los datos de la serie de tiempo. Se pueden poner otros argumentos para ver más líneas de la serie de tiempo (ejemplo si se quiere 10 datos se debería usar el código head(MSFT,10))
```

En el código posterior se utiliza la función tail() para poder ver las últimas líneas de la serie de tiempo 
```{r}
tail(MSFT, n=10)
#se incluye en el código el argumento n=10, para indicar que se desean ver las últimas 10 líneas de la base de datos. Se pueden cambiar el número de líneas que se desean ver.
```

Es importante mencionar que el set de datos descargados de TESLA no inlcuye la columna de adjusted price, sin embargo es posible conocer este dato para dia través de la función que se muestra en el siguiente chunk: 

```{r}
adjTSLA = Ad(TSLA) 

#la función de ad sirve para descargar los datos históricos de los precios ajustados de tesla. 

adjTSLA = TSLA$TSLA.Adjusted
#se usa el $ para fijar la columna al data set 

#se nombró a la función ajdTSLA para poderla llamar más adelante

head(adjTSLA) #se utiliza la función head() para poder conocer los primeros 5 datos de la serie 
```


A continuación se muestra otra forma de seleccionar la columna que contiene el dato del precio ajustado de Tesla

NOTA IMPORTANTE: lo que se incluye en el chunk también puede ser aplicado en caso de que se quieran seleccionar otras columnas

```{r}

adjTSLA = TSLA[, 6] #la columna de los precios ajustados es la 6, por eso se selecciona esta 

#NOTA IMPORTANTE: en todos los sets de datos se tienen dos dimensiones [filas,columnas]

#es importante nota que en este caso solamente se quiere la información de las columna de datos ajustados, pero se quieren mantener todas las filas. Es por lo anterior que se mantiene el espacio de la fila vacio.

dim(TSLA) #a través de la función dim es posible conocer las dimeciones de todos los sets de datos. 

#con la función de dim es posible conocer que el número total de filas de la serie de datos es 1046, mientras que el total de columnas es 6
```

Además de poder seleccionar los dtaos específicos de una columna, también es posible seleccionar filas específicas utilizando el mismo método, es decir el de [fila, columna]. 

En el chunk que se muestra a continuación se muestra como se pueden elegir las primeras 10 filas de la serie de tiempo
```{r}
TSLAfirstdays = TSLA[1:10,] #como solo se desean conocer las filas 1 a la 10 se utiliza la notación 1:10 .Pero con todas las columnas, entonces se deja el espacio de columnas vació 

TSLAfirstdays #se llama a la función 
```

También es posible seleccionar columnas y filas específicas. 

En el chunk que se muestra a continuación se ejemplifica como se puede seleccionar columnas y filas específicas al seleccionar los primeros 10 días de los precios ajustados de tesla
```{r}
TSLA_adjusted_first_prices = TSLA[1:6,6] #se selecciona de las filas 1 a 10, pues contienen los primeros 10 datos. De igual manera se seleccionan la columna 6 que contiene los datos de los precios ajustados. 

head(TSLA_adjusted_first_prices)
```


Si se desea seleccionar más de una columna, entonces se puede utilizar el contenedor c() e indicar que columnas se desean seleccionar. 
A continuación se presenta un ejemplo en el que se desean conocer los datos del open y close (columnas 1 y 4) de los primero 10 días de la base de datos (fila 1 a 10)
```{r}
TSLA_Open_Close = TSLA[1:10,c(1,4)]
head(TSLA_Open_Close)
```

Una nota importante es que también se pueden seleccionar filas utilizando el índice de fechas. Por ejemplo si se desean seleccionar todos los precios de la acción de Tesla del año 2021, entonces se puede hacer los siguiente: 
```{r}
TESLA_2021 = TSLA["2021-01-01/2021-12-31", ] #como no se mencionan argumentos de columnas, entonces se incluyen todas las columnas
head(TESLA_2021)
```
También es posible combinar la selección de columnas y la selección de filas con el índice de fechas
```{r}
TESLA_2021_adjusted = TSLA["2021-01-01/2021-12-31", "TSLA.Adjusted"]
#NOTA IMPORTANTE: es posible seleccionar las columnas al poner el número de columna, o su nombre.

head(TESLA_2021_adjusted) #se llaman los primeros 6 datos de la selección 
```

DATA MERGING

Se puede utilizar la función de merge() para unir a dos o más series de tiempo, para integrarlas a una sola data sheet
```{r}
prices = merge(MSFT,TSLA)
# To get only Adjusted prices:
adjprices = Ad(prices)
```

También se puede utilizar una función dentro de otra función para tener mejor gestión de la data. 

POr ejemplo es posible realizar todo el código del chunk anterior, con solamente una línea de código:
```{r}
adjprices <- Ad(merge(MSFT,TSLA))
```

Ahora que se tiene una sola datasheet con los precios ajustados de ambas acciones, es posible cambiar el nombre de las columnas. Como se muestra a continuación: 
```{r}
names(adjprices)<-c("msft","tesla")
```

Ahora es posible hacer referencias a los precios ajustados utilizando estos nombres
```{r}
head(adjprices$tesla) #se pone adjprices$tesla para indicar que se desea conocer los primeros 6 datos del precio ajustado de tesla 

# si se quisiera conocer los primeros 6 datos del precio ajustado de microsft se utilizaría la siguiente función: head(adjprices$msft)
```

VISUALIZACIÓN DE LOS PRECIOS

Para entender de mejor manera y visualizar como han sido valuadas las acciones de tesla y de microsoft a lo largo del tiempo, es necesario graficar la función de adjprices
```{r}
plot(adjprices)
```

Cuando ambas series tienen diferentes escalas es mejor graficarlas de manera separada
```{r}
plot(adjprices,multi.panel=TRUE)
#con el argumento multi.panel=true, es posible comparar las dos gráficas por separado
```

Es importante considerar que al comparar dos acciones la magnitud del precio ajustado no pueden utilizarse para definir cual de las dos acciones tiene un valor de mercado más alto. Lo anterior se debe a que el valor de mercado se da a través del mercado de capitalización, es decir a través de la multiplicación del precio ajustado por el número de acciones. (valor de mercado=precio ajustado x número de acciones)

Se puede utiliza la función chartSeries, para poder visualizar tanto el precio ajustado de la acción como el trading volume
```{r}
chartSeries(MSFT, theme=("white"))
#theme white se utiliza para que el fondo de la gráfica sea blanco. El único otro color que se puede aplicar la fondo de esta gráfica es negro
```

También es posible graficar periosos específicos, por ejemplo es posible graficar el comportamiento del precio ajustado de Microsoft en 2021 solamente: 
```{r}
chartSeries(MSFT, subset = '2021-01-01/2021-12-31')
#como se había mencionadp anteriormente chartSeries ayuda a graficar tanto el precio ajustado de la acción como el volumen

#se agrega el argumento subset, para así poder incluir el periodo de tiempo (o índice de tiempo) específico que se desea graficar 
```

RETORNOS FINANCIEROS PARA SERIES DE TIEMPO 

Como es bien sabido existen múltiples maneras de obtener el retorno de una acción. Entre los principales métodos se encuentra el dividir el precio ajustado de una acción entre el precio ajustado del periodo anterior, y eso restarlo entre 1. (ejemplo para sacar el retorno de enero de 2022 sería necesario realizar lo siguiente: (precio ajustado enero 2022/precio ajustado diciembre 2021)-1)

El método más recomendable es el de sacar la diferencia del logaritmo del precio más reciente y del precio del periodo anterior. (ejemplo para sacar el retorno de enero de 2022 sería necesario realizar lo siguiente: log(precio ajustado enero 2022/precio ajustado diciembre 2021))

RETORNOS SIMPLES EN SERIES DE TIEMPO:

Para poder calcular el retorno simple deberá ser necesario utilizar el precio ajustado de las acciones. Para calcular el valor pasado del precio de una variable de series de tiempo se puede utilizar la función lag. 
```{r}
R = adjprices / stats::lag(adjprices,n=1) - 1 
head(R)
```

RETORNOS COMPUESTOS CONTINUOS 

Se pueden sacar los retornos compuestos continuos utilizando los valores descontads al utilizar las funciones de diff() y de log(). 

NOTA: la función diff calcula la diferencia entre el valor de tiempo de la serie y su valor pasado
```{r}
r = diff(log(adjprices))
head(r)
```

Es importante recordar que los log prices son retornos compuestos de manera continua en un periodo. 

También se pueden graficar los retornos diarios que Tesla ha tenido a lo largo del timepo. 

A continuación es posible ver que existe una alta volatilidad en los retornos diarios durante los meses que duró la pandemia. Esta volatilidad puede ser calculada a através de la desviación estándar
```{r}
plot(R$tesla)
```

ESTADÍSTICAS DESCRIPTIVAS CON SERIES DE TIEMPO

El paquete PerfomanceAnalytics contiene diversas funciones para realizar estadísticas descriptivas
```{r}
library(PerformanceAnalytics)
table1 <- table.Stats(R) #la función table.Stats sirve para conocer las medidas estadísticas descriptivas básicas de una serie de tiempo

table1 #se llama la función 
```

En caso de que se desee obtener estadísticas descriptivas específicas se pueden utilizar diferentes funciones, como mean() y sd

```{r}
mean_tesla_R = mean(R$tesla, na.rm=TRUE) #la función mean() sirve conocer el promedio 

median_tesla_R = median(R$tesla, na.rm=TRUE)
#la función median() sirve conocer la mediana

sd_tesla_R = sd(R$tesla, na.rm=TRUE)
#la función sd() sirve para conocer la desviación estandar 

#NOTA IMPORTANTE na.rm=TRUE es una opción que ayuda a que se eliminen los valores NA antes de realizar los calculos 

cat("Tesla daily mean return is ",mean_tesla_R, "\n") 

#NOTA IMPORTANTE: la función cat (siglas para concentrate and prime) da salida a los datos en el formato deseado
```
A través de la línea de código 234 es posible conocer que la media del retorno diario de tesla es 0.0031

```{r}
cat("Tesla daily median return is ",median_tesla_R, "\n")
```
A través del código en el chunk anterior es posible conocer que la mediana del retorno diario de tesla es 0.00226


```{r}
cat("Tesla daily volatility is ", sd_tesla_R)
```
A través del código en el chunk anterior es posible conocer que la volatilidad (es decir la desviación estandar) del retorno diario de tesla es 0.04253

NOTA IMPORTANTE: cuando existen valores de NA en las columnas el programa no puede calcular las estadísticas descriptivas, a menos de que se utilicé la opción na.rm=TRUE.

Cuando la media y la mediana son muy diferentes, por lo general se toma como señal de que no hay normalidad en la distribución de la variable. En el ejemplo de tesla se puede ver que la mediana es mucho menor que la medio (media=0.14% y mediana 0.31%). La mediana es mejor métrica para medir los valores centrales de tendencia de retornos financieros. 

NOTA IMPORTANTE: si la Kurtosis de la variable es mayor a 3, entonces la variable tiene valores más extremos que una distribución normal. 

En el ejemplo de Tesla se puede ver que tanto la media como la mediana tienen valores nayores a tres. 

NOTA IMPORTANTE: por lo general los retornos financieros tienen valores más extremos a comparación de variables que tienen distribución normal, por lo que la desviación estandar no es suficiente para entender de mejor manera la dispersión de los retornos. 

NOTA IMPORTANTE: los quartiles dan una mejor percepción de la volatilidad de los retornos financieros. Por lo que se recomienda utilizar el gráfico de caja.
```{r}
chart.Boxplot(R)

#los círculos rojos que se muestran en el gráfico son la media, la límea en medio es la mediana. 
#las cajas incluyen 50% de data del Q1 o Q1 (presentíl 25) al Q3. 
#las líneas verticales limitan los valores no extremos. 
#Los puntos son los valores extremos de la distribución
```
Ahora que se esta utlizando el gráfico de caja es posible entender de menor manera que Microsoft tiene más volatilidad que Tesla (ósea que es más riesgoso que tesla).


VISUALIZING HOLDING RETURNO OVER TIME 

Se puede utilizar la función de charts.PerformanceSummary() para visualizar cuanto se generaría si se invirtiera $1 y se mantuviera por un periodo de tiempo. 
```{r}
charts.PerformanceSummary(R$tesla, 
                          main = "Performance of $1.00 Tesla",
                          wealth.index = TRUE)
```
 También es posible calcular el exact holding period return al obtener el porcentaje de crecimiento de la serie a través del precio ajustado
```{r}
hpr_tesla = as.numeric(adjprices$tesla[nrow(adjprices)]) / as.numeric(adjprices$tesla[1]) - 1
hpr_tesla
```
Al expresar el dato arrojado por el programa en porcentaje se tiene 904.2725% de retorno de holding period. 

Al interpretar lo anterior tenemos que si se invirtiera $1 en Tesla al inicio del periodo, entonces se tendría $10.04273 al final del periodo. 

Este mismo ejercicio puede ser realizado para Microsoft:
```{r}
charts.PerformanceSummary(R$msft, 
                          main = "Performance of $1.00 in Microsoft",
                          wealth.index = TRUE)

hpr_msft = as.numeric(adjprices$msft[nrow(adjprices)]) / as.numeric(adjprices$msft[1]) - 1
hpr_msft

#Al expresar el dato arrojado por el programa en porcentaje se tiene 158.8773% de retorno de holding period. 

#Al interpretar lo anterior tenemos que si se invirtiera $1 en Microsoft al inicio del periodo, entonces se tendría $10.04273 al final del periodo. 
```

DATA STRUCTURES 

Existen 3 estructuras de data set: 
-Series de tiempo (varios periodos de tiempo y se pueden tener varios sujetos que se muestran en columnas)
-Cross sectional (muchos sujetos, pero solamente 1 periodo de tiempo) 
-Panel data structure (varios sujetos y más de un periodo de tiempo para cada sujeto)

DATA MANAGMENT FOR PANEL DATA

Antes de diseñar un modelo econométrico es necesario tener una gestión simple y sofisticada de la data que se va a manejar. 

En el ejemplo se mostrará como combinar dos datasets (una serie de tiempo con la información histórica del IPyC, y un data ser con la información de cuartos de año de diferentes empresas mexicanas)

NOTA IMPORTANTE: solamente se pueden fusionar datasets que tengan la misma granularidad, es decir data sets que compartan la misma periodicidad. Lo que quiere decir que si se tiene dos series de tiempo, una con datos anuales y la otra con datos mensuales, entonces no se podrán fusionar. 

En el chunk posterior se descargará la información del sitio economatica, y contiene la información de cuartos de año de rms mexicanas
```{r}
# primero es importante descargar el paquete readxl que permite descargar documentos de excel de sitios web
library(readxl)
download.file("http://www.apradie.com/datos/datamx2020q4.xlsx",
              "firmspaneldata.xlsx", mode="wb")
# se utiliza la función download file para descargar el archivo, y luego se pone como argumento el sitio de donde se va a descargar el archivo
# el último argumento indica que se va a descargar el excel como documento local 

paneldataset <- read_excel("firmspaneldata.xlsx")
```

Se necesita fusionar el retorno mensual del mercado con el data set anterior por lo que se necesita realizar los siguente 
1. Descargar el mercado mensual de yahoo a través de la función getSymbols()
```{r}
library(quantmod)
getSymbols("^MXX", from="2000-01-01", to= "2019-12-31",
            periodicity="monthly", src="yahoo")
```
2. transformar (collapse) la data para que sea cuatrimestral 
```{r}
QMXX <- to.quarterly(MXX,indexAt='startof')
head(QMXX) #se utilizó head para poder ver el contenido de la data
```
Como se puede ver en la data anterior se muestran las columnas de open, high, low, colse, volumen y adjusted price. Sin embargo solamente se necesitará el precio ajustado para calcular el retorno, por lo que solamente se selecciona la columna de Close
```{r}
QMXX = QMXX$MXX.Adjusted
#se le cambio el nombre a la columna 
colnames(QMXX) <- "MXXindex"
```

Ahora es posible calcular el retorno del mercado
```{r}
QMXX$MXXreturns <- diff(log(QMXX)) #recordando que la función de diff() ayuda a sacar la diferencia en los datos y log() ayuda a sacar los logaritmos. 
```

Casi todo esta listo para poder fusionar esta data cuatrimestral con el panel dataset, sin embargo antes es necesario tener ambos data sets en una misma columna. En este caso la columna en común es la de un cuarto. 

La función llamada QMXX tiene el índice de cuarto, pero no como columna, por lo que a continuación se creará un data frame con la columna de cuarto igual al índice
```{r}
QMXX.df<-data.frame(quarter=index(QMXX),coredata(QMXX)) #se crea un dataframe con una columna de cuarto
#en este chunk se copia la inforación del índice QMXX y después se utiliza coredata() 
#coredata() es una función que copia la información de un objeto perio sin copiar el formato 
```

La columna en común debe de ser del mismo tipo para asegurar que la columna de cuarto del dataset sea Data type: 
```{r}
paneldataset$quarter<-as.Date(paneldataset$quarter)
```

3- fusionar la nueva serie de tiempo con el panel data 
```{r}
paneldataset<-merge(paneldataset,QMXX.df,by="quarter")
#después de utilizar la función de mergue ahora se tiene un dataset para las empresas mexicanas, la información histórica del IPyC y los retornos del IPyC. 
```

SETTING A PANEL DATA STRUCTURE

Es importante que el data set (ósea el paneldataset) tenga la estructura de un cuarto anual (para las empresas mexicanas de la data).

Para lo anterior es necesario definir al dataset como un panel de data. Esto se puede lograr utilizar la función de pdata.frame(). 

NOTA IMPORTANTE: para poder utilizar esta función es necesario instalar el paquete plm


En el chunk posterior se indica que el indice del data panel va a tener el a las empresas como sujeto y la columna con los cuartos como el tiempo
```{r}
library(plm)
paneldataset <- pdata.frame(paneldataset, index= c("firmcode","quarter"))
```

DATA CALCULATIONS WITH PANEL DATA

Para poder realizar selecciones y calculos en panel data sets es necesario utilizar el paquete dplyr.

NOTA IMPORTANTE: dplyr es un paquete que tiene herramientas muy poderosas que pueden facilitar la gestión de panel data sets.
```{r}
library(dplyr)
```

Es importante mencionar que el data set que se ha estado utilizando tiene información histórica quatrimestral de empresas que estan activas y no activas en la Bolsa Mexicana de Valores. Para este ejercicio solamente se van a necesitar las empresas que si están activas en la BMV. 

En el chunk posterior se muestra como mantener solamente las empresas que son necesarias para el ejercicio.

```{r}
activedata<-paneldataset[paneldataset$status=="active",]
activedata<-activedata[activedata$year>=2010,]

#como se puede observar se seleccionan las filas que se desean al incluir argumentos como que en la columna de status tengan el valor "active". 
```

Ahora que se seleccionaron las empresas que estan activas en la BMV, de acuerdo a la base de datos, es importate también seleccionar ciertas columnas de este data set que puedan ser de utilidad para hacer ciertas operaciones financieras.

Para poder realizar lo anterior se utilizará la operación "%>%" (que puede utilizarse después de instalar el paquete dplyr)
```{r}
activedata<-activedata %>%
    select(firm,quarter,year,revenue,cogs,ebit,totalassets,
           adjustedstockprice, naics1)

#se seleccionan las columnas deseadas después de utilizar la operación %>%
```

CALCULATING FINANCIAL RETURNS AND RATIOS WITH PANEL DATA 

Para poder calcular los retornos del panel data set se utiliza el mismo método que se tomo en cuenta para calcular los retornos de tesla y de microsoft (es decir sacar la diferencia de los logaritmos de los datos)

```{r}
activedata$r = diff(log(activedata$adjustedstockprice))

```

Al realizar la acción anterior se agregó una columna al en el panel data. En caso de que existiera un cabio en alguna de las empresas no sería necesario calculcar los rendimientos de nuevo, solamente habría de revisar si los valores de los primeros cuartos de cada empresa tienen el valor de NA.
A continuación se va a calcular el retorno sobre activos (ROA) utilizando el EBIT en vez de la utilidad neta:

```{r}
activedata$ROA = activedata$ebit / activedata$totalassets
```

A contnuación se calcularán el margen de utilidad/profit margin(PM)
 y la rotación de activos (ATO). Para el calculo de del margen de utilidad se utilizará el EBIT en lugar de la utilidad neta:
```{r}
activedata$PM = activedata$ebit / activedata$revenue
activedata$ATO = activedata$revenue / activedata$totalassets
```

USING CONDITIONALS TO CREATE COLUMNS 

A continuación se va a crear una columna con variables binarias que ayuden a identificar de manera más sencilla si el ROA en un cuarto específico es mayor al ROA de cuatro cuartos (un año) previo. 

Para poder lograr lo anterior será necesario utilizar la función ifelse().
```{r}

activedata$ROAsignal = ifelse(activedata$ROA>
                    plm::lag(activedata$ROA, 4),1,0)

#en el primer parámetro de la función se usa un condición logica que puede ser verdadera o falsa. En este caso la condición evalua si el ROA es mayor que el ROA de cuatro periodos anteriores.

#En caso de la condición sea verdadera entonces se le asignará el valor del segundo parametro, si la condición es falsa se le asgnará el tercer parametro.
```


NOTA IMPORTANTE: ifelese() es una de gran utilidad especialmente en la gestión de data financiera, pues puede crear señales que comparen valores financeros. La estructura general de esta función es la siguiente: ifelse(data_condition, value_if_TRUE, value_if_FALSE)

A continuación se muestra un ejemplo de como puede ser utilizada la función 
```{r}
a=5
b=10
ifelse(a>b,1,0)

#debido a que “a” no es mayor a “b”, entonces la función arroja el resultado de 0.
```

DESCRIPTIVE STATISTICS WITH PANEL DATA 

NOTA IMPORTANTE: el proceso para sacar las estadísticas descriptivas de un data panel no es el mismo que se usa para poder obtener las estadísticas descriptivas de una serie de tiempo. Es de suma importante tomar en cuenta el periodo del data panel a la hora de sacar estadísticas, pues el descuido de este aspecto puede resultar en la obtención de datos erróneos. 

Es posible empezar a realizar el proceso de sacar las estadísticas descriptivas al seleccionar el último cuarto de la data:
```{r}
data2019q4 = activedata[activedata$quarter=='2019-10-01',]
summary(data2019q4[,c(4:7,10)])
```

En el chunk posterior se utilizará el paquete dplyr para seleccionar el último cuarto del data set, se agrupar a las empresas por industrias y se sacar la mediana de las variables principales.

```{r}
industries<-unique(activedata$naics1)
activedata %>% 
   filter(quarter=='2019-10-01') %>%
  group_by(naics1) %>% 
  summarize(firms = n(),
            median_total_assets = median(totalassets, na.rm = TRUE),
            median_revenue = median(revenue, na.rm = TRUE),
            median_ebit = median(ebit, na.rm = TRUE))
```

Los datos anteriores muestran el estado del mercado financiero mexicano. 

NOTA IMPORTANTE: la media aritmética no es  el mejor instrumento para poder representar el estado actual del mercado. Es debido a lo anterior que es mejor utilizar la mediana, pues la mejor medida de tendencia central para medir variables financieras como ingreso total o activos totales es la mediana, pues  

LOOKING AT THE 2 TABLES ABOVE, PROVIDE A GOOD DESCRIPTION OF A TYPICAL (AVERAGE) FIRM IN MEXICO, AND A DESCRIPTION OF THE MEXICAN MARKET IN TERMS OF FIRMS BY INDUSTRY AND FIRM SIZE FOR EACH INDUSTRY.

Como se puede observar en la última tabla, la industria con más empresas activas en la Bolsa de Valores Mexicana es la industria de manufactura,la segunda más grande es la de finanzas y seguros. 

Las industras más pequeñas son las de las de gestión de empresas y de salud y asistencia social, pues estan cuentan con solamente 1 empresa respectivamente que cotiza en la BVM.  

A pesar de que el sector de gestión y empresas es uno de los más pequeños es importante notar que de acuerdo a la mediana, es el sector con el total de activos, mayor revenue y EBIT. Lo que indica que el sector, o más bien dicho la empresa que esta activa en la BMV es muy rentable.

Por su parte es importante resaltar de igual manera que la industria de manufactura es la segunda con mayores activos, la tercera en revenue y la segunda con mayor EBIT. Es lo que indica que esta industria además de ser una industria muy grande, también es muy rentable.
