quantmod es un paquete diseñado para ayudar a traders del mundo
financiero a desarrollar modelos econométricos que puedan ayudarles a
hacer su trading.
Este paquete contiene diversas funciones para poder recolectar,
visualizar y gestionar data.
getSymbols() es una función que es parte de paquete de quantmod.Esta
función crea una xts (extensible time series) con la que es posible
descargar data financiera (como cierres de acciones, precios de ETFs,
tasas de interés, etc) actual de diversas fuentes (por ejemplo yahoo
finance, google finance, FRED y oanda)
En el chonk posterior se descagan a través de getSymbols los datos
históricos de Tesla (TSLA) y Microsoft (MSFT) con una periodicidad
diaria desde el primedio de enero de 2019 hasta el 28 de febrero de
2023. La fuente de estos datos de yahoo.
NOTA IMPORTANTE: para que se puedan descargar los datos de yahoo
finance, es necesario utilizar el “ticker” de las compañías en vez de su
nombre comercial. (ejemplo en vez de poner tesla es necesario poner
TSLA)
En la función de getSymbols se agregaron los siguiente argumentos:
-from= para indicar la fecha inicial de la serie de tiempo -to= para
indicar la fecha límite de la serie de tiempo -src= para indicar la
fuente de la cual se desean descargar los datos -periodicity= indica la
periodicidad de los datos de la serie de tiempo (diaria, mensual,
trimestral, anual)
library(quantmod) #esta función se agregó con la intención de descargar los datos del paquete de quantmod a la computadora
getSymbols(c("MSFT","TSLA"), from="2019-01-01", to="2023-02-28",src="yahoo",periodicity="daily")
[1] "MSFT" "TSLA"
Después de haber descargado los datos a través de getSymbols, es
posible poder ver el contenido de estas series de tiempo.
En la base de datos que fue descargada por yahoo se incluyen
diferentes columnas que indican el: -open -high -low -close -adjusted
(precio ajustado) -volume data
Debido a que la series de tiempo descragadas son muy largas es
posible ver el contenido de las primeras y de las últimas líneas de
código a través de diversas funciones.
La función de head() sirve para poder ver las primeras líneas de
código.
head(MSFT,5)
MSFT.Open MSFT.High MSFT.Low
2019-01-02 99.55 101.75 98.94
2019-01-03 100.10 100.19 97.20
2019-01-04 99.72 102.51 98.93
2019-01-07 101.64 103.27 100.98
2019-01-08 103.04 103.97 101.71
MSFT.Close MSFT.Volume
2019-01-02 101.12 35329300
2019-01-03 97.40 42579100
2019-01-04 101.93 44060600
2019-01-07 102.06 35656100
2019-01-08 102.80 31514400
MSFT.Adjusted
2019-01-02 96.63264
2019-01-03 93.07774
2019-01-04 97.40672
2019-01-07 97.53095
2019-01-08 98.23811
#se inclyó el número 5 para indicar que se desean visualizar la primera línea de los datos de la serie de tiempo. Se pueden poner otros argumentos para ver más líneas de la serie de tiempo (ejemplo si se quiere 10 datos se debería usar el código head(MSFT,10))
En el código posterior se utiliza la función tail() para poder ver
las últimas líneas de la serie de tiempo
tail(MSFT, n=10)
MSFT.Open MSFT.High MSFT.Low
2023-02-13 267.64 274.60 267.15
2023-02-14 272.67 274.97 269.28
2023-02-15 268.32 270.73 266.18
2023-02-16 264.02 266.74 261.90
2023-02-17 259.39 260.09 256.00
2023-02-21 254.48 255.49 251.59
2023-02-22 254.09 254.34 250.34
2023-02-23 255.56 256.84 250.48
2023-02-24 249.96 251.00 248.10
2023-02-27 252.46 252.82 249.39
MSFT.Close MSFT.Volume
2023-02-13 271.32 44630900
2023-02-14 272.17 37047900
2023-02-15 269.32 28922400
2023-02-16 262.15 29603600
2023-02-17 258.06 30000100
2023-02-21 252.67 28397400
2023-02-22 251.51 22491100
2023-02-23 254.77 29219100
2023-02-24 249.22 24990900
2023-02-27 250.16 21190000
MSFT.Adjusted
2023-02-13 270.6421
2023-02-14 271.4900
2023-02-15 269.3200
2023-02-16 262.1500
2023-02-17 258.0600
2023-02-21 252.6700
2023-02-22 251.5100
2023-02-23 254.7700
2023-02-24 249.2200
2023-02-27 250.1600
#se incluye en el código el argumento n=10, para indicar que se desean ver las últimas 10 líneas de la base de datos. Se pueden cambiar el número de líneas que se desean ver.
Es importante mencionar que el set de datos descargados de TESLA no
inlcuye la columna de adjusted price, sin embargo es posible conocer
este dato para dia través de la función que se muestra en el siguiente
chunk:
adjTSLA = Ad(TSLA)
#la función de ad sirve para descargar los datos históricos de los precios ajustados de tesla.
adjTSLA = TSLA$TSLA.Adjusted
#se usa el $ para fijar la columna al data set
#se nombró a la función ajdTSLA para poderla llamar más adelante
head(adjTSLA) #se utiliza la función head() para poder conocer los primeros 5 datos de la serie
TSLA.Adjusted
2019-01-02 20.67467
2019-01-03 20.02400
2019-01-04 21.17933
2019-01-07 22.33067
2019-01-08 22.35667
2019-01-09 22.56867
A continuación se muestra otra forma de seleccionar la columna que
contiene el dato del precio ajustado de Tesla
NOTA IMPORTANTE: lo que se incluye en el chunk también puede ser
aplicado en caso de que se quieran seleccionar otras columnas
adjTSLA = TSLA[, 6] #la columna de los precios ajustados es la 6, por eso se selecciona esta
#NOTA IMPORTANTE: en todos los sets de datos se tienen dos dimensiones [filas,columnas]
#es importante nota que en este caso solamente se quiere la información de las columna de datos ajustados, pero se quieren mantener todas las filas. Es por lo anterior que se mantiene el espacio de la fila vacio.
dim(TSLA) #a través de la función dim es posible conocer las dimeciones de todos los sets de datos.
[1] 1046 6
#con la función de dim es posible conocer que el número total de filas de la serie de datos es 1046, mientras que el total de columnas es 6
Además de poder seleccionar los dtaos específicos de una columna,
también es posible seleccionar filas específicas utilizando el mismo
método, es decir el de [fila, columna].
En el chunk que se muestra a continuación se muestra como se pueden
elegir las primeras 10 filas de la serie de tiempo
TSLAfirstdays = TSLA[1:10,] #como solo se desean conocer las filas 1 a la 10 se utiliza la notación 1:10 .Pero con todas las columnas, entonces se deja el espacio de columnas vació
TSLAfirstdays #se llama a la función
TSLA.Open TSLA.High TSLA.Low
2019-01-02 20.40667 21.00867 19.92000
2019-01-03 20.46667 20.62667 19.82533
2019-01-04 20.40000 21.20000 20.18200
2019-01-07 21.44800 22.44933 21.18333
2019-01-08 22.79733 22.93400 21.80133
2019-01-09 22.36667 22.90000 22.09800
2019-01-10 22.29333 23.02600 22.11933
2019-01-11 22.80600 23.22733 22.58467
2019-01-14 22.82533 22.83333 22.26667
2019-01-15 22.33333 23.25333 22.30000
TSLA.Close TSLA.Volume
2019-01-02 20.67467 174879000
2019-01-03 20.02400 104478000
2019-01-04 21.17933 110911500
2019-01-07 22.33067 113268000
2019-01-08 22.35667 105127500
2019-01-09 22.56867 81493500
2019-01-10 22.99800 90846000
2019-01-11 23.15067 75586500
2019-01-14 22.29333 78709500
2019-01-15 22.96200 90849000
TSLA.Adjusted
2019-01-02 20.67467
2019-01-03 20.02400
2019-01-04 21.17933
2019-01-07 22.33067
2019-01-08 22.35667
2019-01-09 22.56867
2019-01-10 22.99800
2019-01-11 23.15067
2019-01-14 22.29333
2019-01-15 22.96200
También es posible seleccionar columnas y filas específicas.
En el chunk que se muestra a continuación se ejemplifica como se
puede seleccionar columnas y filas específicas al seleccionar los
primeros 10 días de los precios ajustados de tesla
TSLA_adjusted_first_prices = TSLA[1:6,6] #se selecciona de las filas 1 a 10, pues contienen los primeros 10 datos. De igual manera se seleccionan la columna 6 que contiene los datos de los precios ajustados.
head(TSLA_adjusted_first_prices)
TSLA.Adjusted
2019-01-02 20.67467
2019-01-03 20.02400
2019-01-04 21.17933
2019-01-07 22.33067
2019-01-08 22.35667
2019-01-09 22.56867
Si se desea seleccionar más de una columna, entonces se puede
utilizar el contenedor c() e indicar que columnas se desean seleccionar.
A continuación se presenta un ejemplo en el que se desean conocer los
datos del open y close (columnas 1 y 4) de los primero 10 días de la
base de datos (fila 1 a 10)
TSLA_Open_Close = TSLA[1:10,c(1,4)]
head(TSLA_Open_Close)
TSLA.Open TSLA.Close
2019-01-02 20.40667 20.67467
2019-01-03 20.46667 20.02400
2019-01-04 20.40000 21.17933
2019-01-07 21.44800 22.33067
2019-01-08 22.79733 22.35667
2019-01-09 22.36667 22.56867
Una nota importante es que también se pueden seleccionar filas
utilizando el índice de fechas. Por ejemplo si se desean seleccionar
todos los precios de la acción de Tesla del año 2021, entonces se puede
hacer los siguiente:
TESLA_2021 = TSLA["2021-01-01/2021-12-31", ] #como no se mencionan argumentos de columnas, entonces se incluyen todas las columnas
head(TESLA_2021)
TSLA.Open TSLA.High TSLA.Low
2021-01-04 239.8200 248.1633 239.0633
2021-01-05 241.2200 246.9467 239.7333
2021-01-06 252.8300 258.0000 249.7000
2021-01-07 259.2100 272.3300 258.4000
2021-01-08 285.3333 294.8300 279.4633
2021-01-11 283.1333 284.8100 267.8733
TSLA.Close TSLA.Volume
2021-01-04 243.2567 145914600
2021-01-05 245.0367 96735600
2021-01-06 251.9933 134100000
2021-01-07 272.0133 154496700
2021-01-08 293.3400 225166500
2021-01-11 270.3967 177904800
TSLA.Adjusted
2021-01-04 243.2567
2021-01-05 245.0367
2021-01-06 251.9933
2021-01-07 272.0133
2021-01-08 293.3400
2021-01-11 270.3967
También es posible combinar la selección de columnas y la selección
de filas con el índice de fechas
TESLA_2021_adjusted = TSLA["2021-01-01/2021-12-31", "TSLA.Adjusted"]
#NOTA IMPORTANTE: es posible seleccionar las columnas al poner el número de columna, o su nombre.
head(TESLA_2021_adjusted) #se llaman los primeros 6 datos de la selección
TSLA.Adjusted
2021-01-04 243.2567
2021-01-05 245.0367
2021-01-06 251.9933
2021-01-07 272.0133
2021-01-08 293.3400
2021-01-11 270.3967
DATA MERGING
Se puede utilizar la función de merge() para unir a dos o más series
de tiempo, para integrarlas a una sola data sheet
prices = merge(MSFT,TSLA)
# To get only Adjusted prices:
adjprices = Ad(prices)
También se puede utilizar una función dentro de otra función para
tener mejor gestión de la data.
POr ejemplo es posible realizar todo el código del chunk anterior,
con solamente una línea de código:
adjprices <- Ad(merge(MSFT,TSLA))
Ahora que se tiene una sola datasheet con los precios ajustados de
ambas acciones, es posible cambiar el nombre de las columnas. Como se
muestra a continuación:
names(adjprices)<-c("msft","tesla")
Ahora es posible hacer referencias a los precios ajustados utilizando
estos nombres
head(adjprices$tesla) #se pone adjprices$tesla para indicar que se desea conocer los primeros 6 datos del precio ajustado de tesla
tesla
2019-01-02 20.67467
2019-01-03 20.02400
2019-01-04 21.17933
2019-01-07 22.33067
2019-01-08 22.35667
2019-01-09 22.56867
# si se quisiera conocer los primeros 6 datos del precio ajustado de microsft se utilizaría la siguiente función: head(adjprices$msft)
VISUALIZACIÓN DE LOS PRECIOS
Para entender de mejor manera y visualizar como han sido valuadas las
acciones de tesla y de microsoft a lo largo del tiempo, es necesario
graficar la función de adjprices
plot(adjprices)

Cuando ambas series tienen diferentes escalas es mejor graficarlas de
manera separada
plot(adjprices,multi.panel=TRUE)

#con el argumento multi.panel=true, es posible comparar las dos gráficas por separado
Es importante considerar que al comparar dos acciones la magnitud del
precio ajustado no pueden utilizarse para definir cual de las dos
acciones tiene un valor de mercado más alto. Lo anterior se debe a que
el valor de mercado se da a través del mercado de capitalización, es
decir a través de la multiplicación del precio ajustado por el número de
acciones. (valor de mercado=precio ajustado x número de acciones)
Se puede utiliza la función chartSeries, para poder visualizar tanto
el precio ajustado de la acción como el trading volume
chartSeries(MSFT, theme=("white"))

#theme white se utiliza para que el fondo de la gráfica sea blanco. El único otro color que se puede aplicar la fondo de esta gráfica es negro
También es posible graficar periosos específicos, por ejemplo es
posible graficar el comportamiento del precio ajustado de Microsoft en
2021 solamente:
chartSeries(MSFT, subset = '2021-01-01/2021-12-31')

#como se había mencionadp anteriormente chartSeries ayuda a graficar tanto el precio ajustado de la acción como el volumen
#se agrega el argumento subset, para así poder incluir el periodo de tiempo (o índice de tiempo) específico que se desea graficar
RETORNOS FINANCIEROS PARA SERIES DE TIEMPO
Como es bien sabido existen múltiples maneras de obtener el retorno
de una acción. Entre los principales métodos se encuentra el dividir el
precio ajustado de una acción entre el precio ajustado del periodo
anterior, y eso restarlo entre 1. (ejemplo para sacar el retorno de
enero de 2022 sería necesario realizar lo siguiente: (precio ajustado
enero 2022/precio ajustado diciembre 2021)-1)
El método más recomendable es el de sacar la diferencia del logaritmo
del precio más reciente y del precio del periodo anterior. (ejemplo para
sacar el retorno de enero de 2022 sería necesario realizar lo siguiente:
log(precio ajustado enero 2022/precio ajustado diciembre 2021))
RETORNOS SIMPLES EN SERIES DE TIEMPO:
Para poder calcular el retorno simple deberá ser necesario utilizar
el precio ajustado de las acciones. Para calcular el valor pasado del
precio de una variable de series de tiempo se puede utilizar la función
lag.
R = adjprices / stats::lag(adjprices,n=1) - 1
head(R)
msft tesla
2019-01-02 NA NA
2019-01-03 -0.036787785 -0.031471704
2019-01-04 0.046509282 0.057697413
2019-01-07 0.001275364 0.054361202
2019-01-08 0.007250632 0.001164318
2019-01-09 0.014299491 0.009482585
RETORNOS COMPUESTOS CONTINUOS
Se pueden sacar los retornos compuestos continuos utilizando los
valores descontads al utilizar las funciones de diff() y de log().
NOTA: la función diff calcula la diferencia entre el valor de tiempo
de la serie y su valor pasado
r = diff(log(adjprices))
head(r)
msft tesla
2019-01-02 NA NA
2019-01-03 -0.037481523 -0.031977580
2019-01-04 0.045460132 0.056094294
2019-01-07 0.001274551 0.052935088
2019-01-08 0.007224472 0.001163641
2019-01-09 0.014198217 0.009437908
Es importante recordar que los log prices son retornos compuestos de
manera continua en un periodo.
También se pueden graficar los retornos diarios que Tesla ha tenido a
lo largo del timepo.
A continuación es posible ver que existe una alta volatilidad en los
retornos diarios durante los meses que duró la pandemia. Esta
volatilidad puede ser calculada a através de la desviación estándar
plot(R$tesla)

ESTADÍSTICAS DESCRIPTIVAS CON SERIES DE TIEMPO
El paquete PerfomanceAnalytics contiene diversas funciones para
realizar estadísticas descriptivas
library(PerformanceAnalytics)
table1 <- table.Stats(R) #la función table.Stats sirve para conocer las medidas estadísticas descriptivas básicas de una serie de tiempo
table1 #se llama la función
En caso de que se desee obtener estadísticas descriptivas específicas
se pueden utilizar diferentes funciones, como mean() y sd
mean_tesla_R = mean(R$tesla, na.rm=TRUE) #la función mean() sirve conocer el promedio
median_tesla_R = median(R$tesla, na.rm=TRUE)
#la función median() sirve conocer la mediana
sd_tesla_R = sd(R$tesla, na.rm=TRUE)
#la función sd() sirve para conocer la desviación estandar
#NOTA IMPORTANTE na.rm=TRUE es una opción que ayuda a que se eliminen los valores NA antes de realizar los calculos
cat("Tesla daily mean return is ",mean_tesla_R, "\n")
Tesla daily mean return is 0.003113736
#NOTA IMPORTANTE: la función cat (siglas para concentrate and prime) da salida a los datos en el formato deseado
A través de la línea de código 234 es posible conocer que la media
del retorno diario de tesla es 0.0031
cat("Tesla daily median return is ",median_tesla_R, "\n")
Tesla daily median return is 0.002260816
A través del código en el chunk anterior es posible conocer que la
mediana del retorno diario de tesla es 0.00226
cat("Tesla daily volatility is ", sd_tesla_R)
Tesla daily volatility is 0.04253301
A través del código en el chunk anterior es posible conocer que la
volatilidad (es decir la desviación estandar) del retorno diario de
tesla es 0.04253
NOTA IMPORTANTE: cuando existen valores de NA en las columnas el
programa no puede calcular las estadísticas descriptivas, a menos de que
se utilicé la opción na.rm=TRUE.
Cuando la media y la mediana son muy diferentes, por lo general se
toma como señal de que no hay normalidad en la distribución de la
variable. En el ejemplo de tesla se puede ver que la mediana es mucho
menor que la medio (media=0.14% y mediana 0.31%). La mediana es mejor
métrica para medir los valores centrales de tendencia de retornos
financieros.
NOTA IMPORTANTE: si la Kurtosis de la variable es mayor a 3, entonces
la variable tiene valores más extremos que una distribución normal.
En el ejemplo de Tesla se puede ver que tanto la media como la
mediana tienen valores nayores a tres.
NOTA IMPORTANTE: por lo general los retornos financieros tienen
valores más extremos a comparación de variables que tienen distribución
normal, por lo que la desviación estandar no es suficiente para entender
de mejor manera la dispersión de los retornos.
NOTA IMPORTANTE: los quartiles dan una mejor percepción de la
volatilidad de los retornos financieros. Por lo que se recomienda
utilizar el gráfico de caja.
chart.Boxplot(R)

#los círculos rojos que se muestran en el gráfico son la media, la límea en medio es la mediana.
#las cajas incluyen 50% de data del Q1 o Q1 (presentíl 25) al Q3.
#las líneas verticales limitan los valores no extremos.
#Los puntos son los valores extremos de la distribución
Ahora que se esta utlizando el gráfico de caja es posible entender de
menor manera que Microsoft tiene más volatilidad que Tesla (ósea que es
más riesgoso que tesla).
VISUALIZING HOLDING RETURNO OVER TIME
Se puede utilizar la función de charts.PerformanceSummary() para
visualizar cuanto se generaría si se invirtiera $1 y se mantuviera por
un periodo de tiempo.
charts.PerformanceSummary(R$tesla,
main = "Performance of $1.00 Tesla",
wealth.index = TRUE)

También es posible calcular el exact holding period return al obtener
el porcentaje de crecimiento de la serie a través del precio
ajustado
hpr_tesla = as.numeric(adjprices$tesla[nrow(adjprices)]) / as.numeric(adjprices$tesla[1]) - 1
hpr_tesla
[1] 9.042725
Al expresar el dato arrojado por el programa en porcentaje se tiene
904.2725% de retorno de holding period.
Al interpretar lo anterior tenemos que si se invirtiera $1 en Tesla
al inicio del periodo, entonces se tendría $10.04273 al final del
periodo.
Este mismo ejercicio puede ser realizado para Microsoft:
charts.PerformanceSummary(R$msft,
main = "Performance of $1.00 in Microsoft",
wealth.index = TRUE)

hpr_msft = as.numeric(adjprices$msft[nrow(adjprices)]) / as.numeric(adjprices$msft[1]) - 1
hpr_msft
[1] 1.588773
#Al expresar el dato arrojado por el programa en porcentaje se tiene 158.8773% de retorno de holding period.
#Al interpretar lo anterior tenemos que si se invirtiera $1 en Microsoft al inicio del periodo, entonces se tendría $10.04273 al final del periodo.
DATA STRUCTURES
Existen 3 estructuras de data set: -Series de tiempo (varios periodos
de tiempo y se pueden tener varios sujetos que se muestran en columnas)
-Cross sectional (muchos sujetos, pero solamente 1 periodo de tiempo)
-Panel data structure (varios sujetos y más de un periodo de tiempo para
cada sujeto)
DATA MANAGMENT FOR PANEL DATA
Antes de diseñar un modelo econométrico es necesario tener una
gestión simple y sofisticada de la data que se va a manejar.
En el ejemplo se mostrará como combinar dos datasets (una serie de
tiempo con la información histórica del IPyC, y un data ser con la
información de cuartos de año de diferentes empresas mexicanas)
NOTA IMPORTANTE: solamente se pueden fusionar datasets que tengan la
misma granularidad, es decir data sets que compartan la misma
periodicidad. Lo que quiere decir que si se tiene dos series de tiempo,
una con datos anuales y la otra con datos mensuales, entonces no se
podrán fusionar.
En el chunk posterior se descargará la información del sitio
economatica, y contiene la información de cuartos de año de rms
mexicanas
# primero es importante descargar el paquete readxl que permite descargar documentos de excel de sitios web
library(readxl)
download.file("http://www.apradie.com/datos/datamx2020q4.xlsx",
"firmspaneldata.xlsx", mode="wb")
trying URL 'http://www.apradie.com/datos/datamx2020q4.xlsx'
Content type 'application/vnd.openxmlformats-officedocument.spreadsheetml.sheet' length 5163617 bytes (4.9 MB)
==================================================
downloaded 4.9 MB
# se utiliza la función download file para descargar el archivo, y luego se pone como argumento el sitio de donde se va a descargar el archivo
# el último argumento indica que se va a descargar el excel como documento local
paneldataset <- read_excel("firmspaneldata.xlsx")
Se necesita fusionar el retorno mensual del mercado con el data set
anterior por lo que se necesita realizar los siguente 1. Descargar el
mercado mensual de yahoo a través de la función getSymbols()
library(quantmod)
getSymbols("^MXX", from="2000-01-01", to= "2019-12-31",
periodicity="monthly", src="yahoo")
[1] "^MXX"
- transformar (collapse) la data para que sea cuatrimestral
QMXX <- to.quarterly(MXX,indexAt='startof')
head(QMXX) #se utilizó head para poder ver el contenido de la data
MXX.Open MXX.High MXX.Low MXX.Close
2000-01-01 7185.71 8417.33 6510.84 7473.25
2000-04-01 7459.75 7639.38 5516.77 6948.33
2000-07-01 6953.73 7548.57 6171.95 6334.56
2000-10-01 6334.64 6502.60 5148.02 5652.19
2001-01-01 5651.35 6615.83 5512.77 5727.89
2001-04-01 5733.67 6895.70 5541.68 6666.17
MXX.Volume MXX.Adjusted
2000-01-01 0 7473.25
2000-04-01 0 6948.33
2000-07-01 0 6334.56
2000-10-01 0 5652.19
2001-01-01 0 5727.89
2001-04-01 4888424600 6666.17
Como se puede ver en la data anterior se muestran las columnas de
open, high, low, colse, volumen y adjusted price. Sin embargo solamente
se necesitará el precio ajustado para calcular el retorno, por lo que
solamente se selecciona la columna de Close
QMXX = QMXX$MXX.Adjusted
#se le cambio el nombre a la columna
colnames(QMXX) <- "MXXindex"
Ahora es posible calcular el retorno del mercado
QMXX$MXXreturns <- diff(log(QMXX)) #recordando que la función de diff() ayuda a sacar la diferencia en los datos y log() ayuda a sacar los logaritmos.
Casi todo esta listo para poder fusionar esta data cuatrimestral con
el panel dataset, sin embargo antes es necesario tener ambos data sets
en una misma columna. En este caso la columna en común es la de un
cuarto.
La función llamada QMXX tiene el índice de cuarto, pero no como
columna, por lo que a continuación se creará un data frame con la
columna de cuarto igual al índice
QMXX.df<-data.frame(quarter=index(QMXX),coredata(QMXX)) #se crea un dataframe con una columna de cuarto
#en este chunk se copia la inforación del índice QMXX y después se utiliza coredata()
#coredata() es una función que copia la información de un objeto perio sin copiar el formato
La columna en común debe de ser del mismo tipo para asegurar que la
columna de cuarto del dataset sea Data type:
paneldataset$quarter<-as.Date(paneldataset$quarter)
3- fusionar la nueva serie de tiempo con el panel data
paneldataset<-merge(paneldataset,QMXX.df,by="quarter")
#después de utilizar la función de mergue ahora se tiene un dataset para las empresas mexicanas, la información histórica del IPyC y los retornos del IPyC.
SETTING A PANEL DATA STRUCTURE
Es importante que el data set (ósea el paneldataset) tenga la
estructura de un cuarto anual (para las empresas mexicanas de la
data).
Para lo anterior es necesario definir al dataset como un panel de
data. Esto se puede lograr utilizar la función de pdata.frame().
NOTA IMPORTANTE: para poder utilizar esta función es necesario
instalar el paquete plm
En el chunk posterior se indica que el indice del data panel va a
tener el a las empresas como sujeto y la columna con los cuartos como el
tiempo
library(plm)
paneldataset <- pdata.frame(paneldataset, index= c("firmcode","quarter"))
DATA CALCULATIONS WITH PANEL DATA
Para poder realizar selecciones y calculos en panel data sets es
necesario utilizar el paquete dplyr.
NOTA IMPORTANTE: dplyr es un paquete que tiene herramientas muy
poderosas que pueden facilitar la gestión de panel data sets.
library(dplyr)
Es importante mencionar que el data set que se ha estado utilizando
tiene información histórica quatrimestral de empresas que estan activas
y no activas en la Bolsa Mexicana de Valores. Para este ejercicio
solamente se van a necesitar las empresas que si están activas en la
BMV.
En el chunk posterior se muestra como mantener solamente las empresas
que son necesarias para el ejercicio.
activedata<-paneldataset[paneldataset$status=="active",]
activedata<-activedata[activedata$year>=2010,]
#como se puede observar se seleccionan las filas que se desean al incluir argumentos como que en la columna de status tengan el valor "active".
Ahora que se seleccionaron las empresas que estan activas en la BMV,
de acuerdo a la base de datos, es importate también seleccionar ciertas
columnas de este data set que puedan ser de utilidad para hacer ciertas
operaciones financieras.
Para poder realizar lo anterior se utilizará la operación “%>%”
(que puede utilizarse después de instalar el paquete dplyr)
activedata<-activedata %>%
select(firm,quarter,year,revenue,cogs,ebit,totalassets,
adjustedstockprice, naics1)
#se seleccionan las columnas deseadas después de utilizar la operación %>%
CALCULATING FINANCIAL RETURNS AND RATIOS WITH PANEL DATA
Para poder calcular los retornos del panel data set se utiliza el
mismo método que se tomo en cuenta para calcular los retornos de tesla y
de microsoft (es decir sacar la diferencia de los logaritmos de los
datos)
activedata$r = diff(log(activedata$adjustedstockprice))
Al realizar la acción anterior se agregó una columna al en el panel
data. En caso de que existiera un cabio en alguna de las empresas no
sería necesario calculcar los rendimientos de nuevo, solamente habría de
revisar si los valores de los primeros cuartos de cada empresa tienen el
valor de NA. A continuación se va a calcular el retorno sobre activos
(ROA) utilizando el EBIT en vez de la utilidad neta:
activedata$ROA = activedata$ebit / activedata$totalassets
A contnuación se calcularán el margen de utilidad/profit margin(PM) y
la rotación de activos (ATO). Para el calculo de del margen de utilidad
se utilizará el EBIT en lugar de la utilidad neta:
activedata$PM = activedata$ebit / activedata$revenue
activedata$ATO = activedata$revenue / activedata$totalassets
USING CONDITIONALS TO CREATE COLUMNS
A continuación se va a crear una columna con variables binarias que
ayuden a identificar de manera más sencilla si el ROA en un cuarto
específico es mayor al ROA de cuatro cuartos (un año) previo.
Para poder lograr lo anterior será necesario utilizar la función
ifelse().
activedata$ROAsignal = ifelse(activedata$ROA>
plm::lag(activedata$ROA, 4),1,0)
#en el primer parámetro de la función se usa un condición logica que puede ser verdadera o falsa. En este caso la condición evalua si el ROA es mayor que el ROA de cuatro periodos anteriores.
#En caso de la condición sea verdadera entonces se le asignará el valor del segundo parametro, si la condición es falsa se le asgnará el tercer parametro.
NOTA IMPORTANTE: ifelese() es una de gran utilidad especialmente en
la gestión de data financiera, pues puede crear señales que comparen
valores financeros. La estructura general de esta función es la
siguiente: ifelse(data_condition, value_if_TRUE, value_if_FALSE)
A continuación se muestra un ejemplo de como puede ser utilizada la
función
a=5
b=10
ifelse(a>b,1,0)
[1] 0
#debido a que “a” no es mayor a “b”, entonces la función arroja el resultado de 0.
DESCRIPTIVE STATISTICS WITH PANEL DATA
NOTA IMPORTANTE: el proceso para sacar las estadísticas descriptivas
de un data panel no es el mismo que se usa para poder obtener las
estadísticas descriptivas de una serie de tiempo. Es de suma importante
tomar en cuenta el periodo del data panel a la hora de sacar
estadísticas, pues el descuido de este aspecto puede resultar en la
obtención de datos erróneos.
Es posible empezar a realizar el proceso de sacar las estadísticas
descriptivas al seleccionar el último cuarto de la data:
data2019q4 = activedata[activedata$quarter=='2019-10-01',]
summary(data2019q4[,c(4:7,10)])
revenue cogs
Min. :0.000e+00 Min. : 0
1st Qu.:3.257e+06 1st Qu.: 672312
Median :1.063e+07 Median : 5771803
Mean :5.096e+07 Mean : 33001268
3rd Qu.:3.540e+07 3rd Qu.: 22720676
Max. :1.007e+09 Max. :630651367
NA's :30 NA's :30
ebit totalassets
Min. : -6734642 Min. :2.454e+04
1st Qu.: 266741 1st Qu.:1.011e+07
Median : 1673254 Median :3.156e+07
Mean : 6282411 Mean :1.031e+08
3rd Qu.: 5079130 3rd Qu.:7.706e+07
Max. :154840535 Max. :1.580e+09
NA's :25 NA's :8
r
Min. :-0.49758
1st Qu.:-0.04220
Median : 0.01014
Mean : 0.02954
3rd Qu.: 0.08786
Max. : 0.80507
NA's :22
En el chunk posterior se utilizará el paquete dplyr para seleccionar
el último cuarto del data set, se agrupar a las empresas por industrias
y se sacar la mediana de las variables principales.
industries<-unique(activedata$naics1)
activedata %>%
filter(quarter=='2019-10-01') %>%
group_by(naics1) %>%
summarize(firms = n(),
median_total_assets = median(totalassets, na.rm = TRUE),
median_revenue = median(revenue, na.rm = TRUE),
median_ebit = median(ebit, na.rm = TRUE))
Los datos anteriores muestran el estado del mercado financiero
mexicano.
NOTA IMPORTANTE: la media aritmética no es el mejor instrumento para
poder representar el estado actual del mercado. Es debido a lo anterior
que es mejor utilizar la mediana, pues la mejor medida de tendencia
central para medir variables financieras como ingreso total o activos
totales es la mediana, pues
LOOKING AT THE 2 TABLES ABOVE, PROVIDE A GOOD DESCRIPTION OF A
TYPICAL (AVERAGE) FIRM IN MEXICO, AND A DESCRIPTION OF THE MEXICAN
MARKET IN TERMS OF FIRMS BY INDUSTRY AND FIRM SIZE FOR EACH
INDUSTRY.
Como se puede observar en la última tabla, la industria con más
empresas activas en la Bolsa de Valores Mexicana es la industria de
manufactura,la segunda más grande es la de finanzas y seguros.
Las industras más pequeñas son las de las de gestión de empresas y de
salud y asistencia social, pues estan cuentan con solamente 1 empresa
respectivamente que cotiza en la BVM.
A pesar de que el sector de gestión y empresas es uno de los más
pequeños es importante notar que de acuerdo a la mediana, es el sector
con el total de activos, mayor revenue y EBIT. Lo que indica que el
sector, o más bien dicho la empresa que esta activa en la BMV es muy
rentable.
Por su parte es importante resaltar de igual manera que la industria
de manufactura es la segunda con mayores activos, la tercera en revenue
y la segunda con mayor EBIT. Es lo que indica que esta industria además
de ser una industria muy grande, también es muy rentable.
---
title: "Workshop 1, Algotithms and Data Analysis"
autor: Valeria Estefanía Padilla Barovier
output: html_notebook
---

quantmod es un paquete diseñado para ayudar a traders del mundo financiero a desarrollar modelos econométricos que puedan ayudarles a hacer su trading. 

Este paquete contiene diversas funciones para poder recolectar, visualizar y gestionar data.  
getSymbols() es una función que es parte de paquete de quantmod.Esta función crea una xts (extensible time series) con la que es posible descargar data financiera (como cierres de acciones, precios de ETFs, tasas de interés, etc) actual de diversas fuentes (por ejemplo yahoo finance, google finance, FRED y oanda)

En el chonk posterior se descagan a través de getSymbols los datos históricos de Tesla (TSLA) y Microsoft (MSFT) con una periodicidad diaria desde el primedio de enero de 2019 hasta el 28 de febrero de 2023. La fuente de estos datos de yahoo. 

NOTA IMPORTANTE: para que se puedan descargar los datos  de yahoo finance, es necesario utilizar el "ticker" de las compañías en vez de su nombre comercial. (ejemplo en vez de poner tesla es necesario poner TSLA)

En la función de getSymbols se agregaron los siguiente argumentos: 
-from= para indicar la fecha inicial de la serie de tiempo
-to= para indicar la fecha límite de la serie de tiempo 
-src= para indicar la fuente de la cual se desean descargar los datos
-periodicity= indica la periodicidad de los datos de la serie de tiempo (diaria, mensual, trimestral, anual)

```{r}
library(quantmod) #esta función se agregó con la intención de descargar los datos del paquete de quantmod a la computadora 

getSymbols(c("MSFT","TSLA"), from="2019-01-01", to="2023-02-28",src="yahoo",periodicity="daily") 

```

Después de haber descargado los datos a través de getSymbols, es posible poder ver el contenido de estas series de tiempo.

En la base de datos que fue descargada por yahoo se incluyen diferentes columnas que indican el: 
-open 
-high
-low 
-close 
-adjusted (precio ajustado)
-volume data

Debido a que la series de tiempo descragadas son muy largas es posible ver el contenido de las primeras y de las últimas líneas de código a través de diversas funciones.

La función de head() sirve para poder ver las primeras líneas de código. 

```{r}

head(MSFT,5) 
#se inclyó el número 5 para indicar que se desean visualizar la primera línea de los datos de la serie de tiempo. Se pueden poner otros argumentos para ver más líneas de la serie de tiempo (ejemplo si se quiere 10 datos se debería usar el código head(MSFT,10))
```

En el código posterior se utiliza la función tail() para poder ver las últimas líneas de la serie de tiempo 
```{r}
tail(MSFT, n=10)
#se incluye en el código el argumento n=10, para indicar que se desean ver las últimas 10 líneas de la base de datos. Se pueden cambiar el número de líneas que se desean ver.
```

Es importante mencionar que el set de datos descargados de TESLA no inlcuye la columna de adjusted price, sin embargo es posible conocer este dato para dia través de la función que se muestra en el siguiente chunk: 

```{r}
adjTSLA = Ad(TSLA) 

#la función de ad sirve para descargar los datos históricos de los precios ajustados de tesla. 

adjTSLA = TSLA$TSLA.Adjusted
#se usa el $ para fijar la columna al data set 

#se nombró a la función ajdTSLA para poderla llamar más adelante

head(adjTSLA) #se utiliza la función head() para poder conocer los primeros 5 datos de la serie 
```


A continuación se muestra otra forma de seleccionar la columna que contiene el dato del precio ajustado de Tesla

NOTA IMPORTANTE: lo que se incluye en el chunk también puede ser aplicado en caso de que se quieran seleccionar otras columnas

```{r}

adjTSLA = TSLA[, 6] #la columna de los precios ajustados es la 6, por eso se selecciona esta 

#NOTA IMPORTANTE: en todos los sets de datos se tienen dos dimensiones [filas,columnas]

#es importante nota que en este caso solamente se quiere la información de las columna de datos ajustados, pero se quieren mantener todas las filas. Es por lo anterior que se mantiene el espacio de la fila vacio.

dim(TSLA) #a través de la función dim es posible conocer las dimeciones de todos los sets de datos. 

#con la función de dim es posible conocer que el número total de filas de la serie de datos es 1046, mientras que el total de columnas es 6
```

Además de poder seleccionar los dtaos específicos de una columna, también es posible seleccionar filas específicas utilizando el mismo método, es decir el de [fila, columna]. 

En el chunk que se muestra a continuación se muestra como se pueden elegir las primeras 10 filas de la serie de tiempo
```{r}
TSLAfirstdays = TSLA[1:10,] #como solo se desean conocer las filas 1 a la 10 se utiliza la notación 1:10 .Pero con todas las columnas, entonces se deja el espacio de columnas vació 

TSLAfirstdays #se llama a la función 
```

También es posible seleccionar columnas y filas específicas. 

En el chunk que se muestra a continuación se ejemplifica como se puede seleccionar columnas y filas específicas al seleccionar los primeros 10 días de los precios ajustados de tesla
```{r}
TSLA_adjusted_first_prices = TSLA[1:6,6] #se selecciona de las filas 1 a 10, pues contienen los primeros 10 datos. De igual manera se seleccionan la columna 6 que contiene los datos de los precios ajustados. 

head(TSLA_adjusted_first_prices)
```


Si se desea seleccionar más de una columna, entonces se puede utilizar el contenedor c() e indicar que columnas se desean seleccionar. 
A continuación se presenta un ejemplo en el que se desean conocer los datos del open y close (columnas 1 y 4) de los primero 10 días de la base de datos (fila 1 a 10)
```{r}
TSLA_Open_Close = TSLA[1:10,c(1,4)]
head(TSLA_Open_Close)
```

Una nota importante es que también se pueden seleccionar filas utilizando el índice de fechas. Por ejemplo si se desean seleccionar todos los precios de la acción de Tesla del año 2021, entonces se puede hacer los siguiente: 
```{r}
TESLA_2021 = TSLA["2021-01-01/2021-12-31", ] #como no se mencionan argumentos de columnas, entonces se incluyen todas las columnas
head(TESLA_2021)
```
También es posible combinar la selección de columnas y la selección de filas con el índice de fechas
```{r}
TESLA_2021_adjusted = TSLA["2021-01-01/2021-12-31", "TSLA.Adjusted"]
#NOTA IMPORTANTE: es posible seleccionar las columnas al poner el número de columna, o su nombre.

head(TESLA_2021_adjusted) #se llaman los primeros 6 datos de la selección 
```

DATA MERGING

Se puede utilizar la función de merge() para unir a dos o más series de tiempo, para integrarlas a una sola data sheet
```{r}
prices = merge(MSFT,TSLA)
# To get only Adjusted prices:
adjprices = Ad(prices)
```

También se puede utilizar una función dentro de otra función para tener mejor gestión de la data. 

POr ejemplo es posible realizar todo el código del chunk anterior, con solamente una línea de código:
```{r}
adjprices <- Ad(merge(MSFT,TSLA))
```

Ahora que se tiene una sola datasheet con los precios ajustados de ambas acciones, es posible cambiar el nombre de las columnas. Como se muestra a continuación: 
```{r}
names(adjprices)<-c("msft","tesla")
```

Ahora es posible hacer referencias a los precios ajustados utilizando estos nombres
```{r}
head(adjprices$tesla) #se pone adjprices$tesla para indicar que se desea conocer los primeros 6 datos del precio ajustado de tesla 

# si se quisiera conocer los primeros 6 datos del precio ajustado de microsft se utilizaría la siguiente función: head(adjprices$msft)
```

VISUALIZACIÓN DE LOS PRECIOS

Para entender de mejor manera y visualizar como han sido valuadas las acciones de tesla y de microsoft a lo largo del tiempo, es necesario graficar la función de adjprices
```{r}
plot(adjprices)
```

Cuando ambas series tienen diferentes escalas es mejor graficarlas de manera separada
```{r}
plot(adjprices,multi.panel=TRUE)
#con el argumento multi.panel=true, es posible comparar las dos gráficas por separado
```

Es importante considerar que al comparar dos acciones la magnitud del precio ajustado no pueden utilizarse para definir cual de las dos acciones tiene un valor de mercado más alto. Lo anterior se debe a que el valor de mercado se da a través del mercado de capitalización, es decir a través de la multiplicación del precio ajustado por el número de acciones. (valor de mercado=precio ajustado x número de acciones)

Se puede utiliza la función chartSeries, para poder visualizar tanto el precio ajustado de la acción como el trading volume
```{r}
chartSeries(MSFT, theme=("white"))
#theme white se utiliza para que el fondo de la gráfica sea blanco. El único otro color que se puede aplicar la fondo de esta gráfica es negro
```

También es posible graficar periosos específicos, por ejemplo es posible graficar el comportamiento del precio ajustado de Microsoft en 2021 solamente: 
```{r}
chartSeries(MSFT, subset = '2021-01-01/2021-12-31')
#como se había mencionadp anteriormente chartSeries ayuda a graficar tanto el precio ajustado de la acción como el volumen

#se agrega el argumento subset, para así poder incluir el periodo de tiempo (o índice de tiempo) específico que se desea graficar 
```

RETORNOS FINANCIEROS PARA SERIES DE TIEMPO 

Como es bien sabido existen múltiples maneras de obtener el retorno de una acción. Entre los principales métodos se encuentra el dividir el precio ajustado de una acción entre el precio ajustado del periodo anterior, y eso restarlo entre 1. (ejemplo para sacar el retorno de enero de 2022 sería necesario realizar lo siguiente: (precio ajustado enero 2022/precio ajustado diciembre 2021)-1)

El método más recomendable es el de sacar la diferencia del logaritmo del precio más reciente y del precio del periodo anterior. (ejemplo para sacar el retorno de enero de 2022 sería necesario realizar lo siguiente: log(precio ajustado enero 2022/precio ajustado diciembre 2021))

RETORNOS SIMPLES EN SERIES DE TIEMPO:

Para poder calcular el retorno simple deberá ser necesario utilizar el precio ajustado de las acciones. Para calcular el valor pasado del precio de una variable de series de tiempo se puede utilizar la función lag. 
```{r}
R = adjprices / stats::lag(adjprices,n=1) - 1 
head(R)
```

RETORNOS COMPUESTOS CONTINUOS 

Se pueden sacar los retornos compuestos continuos utilizando los valores descontads al utilizar las funciones de diff() y de log(). 

NOTA: la función diff calcula la diferencia entre el valor de tiempo de la serie y su valor pasado
```{r}
r = diff(log(adjprices))
head(r)
```

Es importante recordar que los log prices son retornos compuestos de manera continua en un periodo. 

También se pueden graficar los retornos diarios que Tesla ha tenido a lo largo del timepo. 

A continuación es posible ver que existe una alta volatilidad en los retornos diarios durante los meses que duró la pandemia. Esta volatilidad puede ser calculada a através de la desviación estándar
```{r}
plot(R$tesla)
```

ESTADÍSTICAS DESCRIPTIVAS CON SERIES DE TIEMPO

El paquete PerfomanceAnalytics contiene diversas funciones para realizar estadísticas descriptivas
```{r}
library(PerformanceAnalytics)
table1 <- table.Stats(R) #la función table.Stats sirve para conocer las medidas estadísticas descriptivas básicas de una serie de tiempo

table1 #se llama la función 
```

En caso de que se desee obtener estadísticas descriptivas específicas se pueden utilizar diferentes funciones, como mean() y sd

```{r}
mean_tesla_R = mean(R$tesla, na.rm=TRUE) #la función mean() sirve conocer el promedio 

median_tesla_R = median(R$tesla, na.rm=TRUE)
#la función median() sirve conocer la mediana

sd_tesla_R = sd(R$tesla, na.rm=TRUE)
#la función sd() sirve para conocer la desviación estandar 

#NOTA IMPORTANTE na.rm=TRUE es una opción que ayuda a que se eliminen los valores NA antes de realizar los calculos 

cat("Tesla daily mean return is ",mean_tesla_R, "\n") 

#NOTA IMPORTANTE: la función cat (siglas para concentrate and prime) da salida a los datos en el formato deseado
```
A través de la línea de código 234 es posible conocer que la media del retorno diario de tesla es 0.0031

```{r}
cat("Tesla daily median return is ",median_tesla_R, "\n")
```
A través del código en el chunk anterior es posible conocer que la mediana del retorno diario de tesla es 0.00226


```{r}
cat("Tesla daily volatility is ", sd_tesla_R)
```
A través del código en el chunk anterior es posible conocer que la volatilidad (es decir la desviación estandar) del retorno diario de tesla es 0.04253

NOTA IMPORTANTE: cuando existen valores de NA en las columnas el programa no puede calcular las estadísticas descriptivas, a menos de que se utilicé la opción na.rm=TRUE.

Cuando la media y la mediana son muy diferentes, por lo general se toma como señal de que no hay normalidad en la distribución de la variable. En el ejemplo de tesla se puede ver que la mediana es mucho menor que la medio (media=0.14% y mediana 0.31%). La mediana es mejor métrica para medir los valores centrales de tendencia de retornos financieros. 

NOTA IMPORTANTE: si la Kurtosis de la variable es mayor a 3, entonces la variable tiene valores más extremos que una distribución normal. 

En el ejemplo de Tesla se puede ver que tanto la media como la mediana tienen valores nayores a tres. 

NOTA IMPORTANTE: por lo general los retornos financieros tienen valores más extremos a comparación de variables que tienen distribución normal, por lo que la desviación estandar no es suficiente para entender de mejor manera la dispersión de los retornos. 

NOTA IMPORTANTE: los quartiles dan una mejor percepción de la volatilidad de los retornos financieros. Por lo que se recomienda utilizar el gráfico de caja.
```{r}
chart.Boxplot(R)

#los círculos rojos que se muestran en el gráfico son la media, la límea en medio es la mediana. 
#las cajas incluyen 50% de data del Q1 o Q1 (presentíl 25) al Q3. 
#las líneas verticales limitan los valores no extremos. 
#Los puntos son los valores extremos de la distribución
```
Ahora que se esta utlizando el gráfico de caja es posible entender de menor manera que Microsoft tiene más volatilidad que Tesla (ósea que es más riesgoso que tesla).


VISUALIZING HOLDING RETURNO OVER TIME 

Se puede utilizar la función de charts.PerformanceSummary() para visualizar cuanto se generaría si se invirtiera $1 y se mantuviera por un periodo de tiempo. 
```{r}
charts.PerformanceSummary(R$tesla, 
                          main = "Performance of $1.00 Tesla",
                          wealth.index = TRUE)
```
 También es posible calcular el exact holding period return al obtener el porcentaje de crecimiento de la serie a través del precio ajustado
```{r}
hpr_tesla = as.numeric(adjprices$tesla[nrow(adjprices)]) / as.numeric(adjprices$tesla[1]) - 1
hpr_tesla
```
Al expresar el dato arrojado por el programa en porcentaje se tiene 904.2725% de retorno de holding period. 

Al interpretar lo anterior tenemos que si se invirtiera $1 en Tesla al inicio del periodo, entonces se tendría $10.04273 al final del periodo. 

Este mismo ejercicio puede ser realizado para Microsoft:
```{r}
charts.PerformanceSummary(R$msft, 
                          main = "Performance of $1.00 in Microsoft",
                          wealth.index = TRUE)

hpr_msft = as.numeric(adjprices$msft[nrow(adjprices)]) / as.numeric(adjprices$msft[1]) - 1
hpr_msft

#Al expresar el dato arrojado por el programa en porcentaje se tiene 158.8773% de retorno de holding period. 

#Al interpretar lo anterior tenemos que si se invirtiera $1 en Microsoft al inicio del periodo, entonces se tendría $10.04273 al final del periodo. 
```

DATA STRUCTURES 

Existen 3 estructuras de data set: 
-Series de tiempo (varios periodos de tiempo y se pueden tener varios sujetos que se muestran en columnas)
-Cross sectional (muchos sujetos, pero solamente 1 periodo de tiempo) 
-Panel data structure (varios sujetos y más de un periodo de tiempo para cada sujeto)

DATA MANAGMENT FOR PANEL DATA

Antes de diseñar un modelo econométrico es necesario tener una gestión simple y sofisticada de la data que se va a manejar. 

En el ejemplo se mostrará como combinar dos datasets (una serie de tiempo con la información histórica del IPyC, y un data ser con la información de cuartos de año de diferentes empresas mexicanas)

NOTA IMPORTANTE: solamente se pueden fusionar datasets que tengan la misma granularidad, es decir data sets que compartan la misma periodicidad. Lo que quiere decir que si se tiene dos series de tiempo, una con datos anuales y la otra con datos mensuales, entonces no se podrán fusionar. 

En el chunk posterior se descargará la información del sitio economatica, y contiene la información de cuartos de año de rms mexicanas
```{r}
# primero es importante descargar el paquete readxl que permite descargar documentos de excel de sitios web
library(readxl)
download.file("http://www.apradie.com/datos/datamx2020q4.xlsx",
              "firmspaneldata.xlsx", mode="wb")
# se utiliza la función download file para descargar el archivo, y luego se pone como argumento el sitio de donde se va a descargar el archivo
# el último argumento indica que se va a descargar el excel como documento local 

paneldataset <- read_excel("firmspaneldata.xlsx")
```

Se necesita fusionar el retorno mensual del mercado con el data set anterior por lo que se necesita realizar los siguente 
1. Descargar el mercado mensual de yahoo a través de la función getSymbols()
```{r}
library(quantmod)
getSymbols("^MXX", from="2000-01-01", to= "2019-12-31",
            periodicity="monthly", src="yahoo")
```
2. transformar (collapse) la data para que sea cuatrimestral 
```{r}
QMXX <- to.quarterly(MXX,indexAt='startof')
head(QMXX) #se utilizó head para poder ver el contenido de la data
```
Como se puede ver en la data anterior se muestran las columnas de open, high, low, colse, volumen y adjusted price. Sin embargo solamente se necesitará el precio ajustado para calcular el retorno, por lo que solamente se selecciona la columna de Close
```{r}
QMXX = QMXX$MXX.Adjusted
#se le cambio el nombre a la columna 
colnames(QMXX) <- "MXXindex"
```

Ahora es posible calcular el retorno del mercado
```{r}
QMXX$MXXreturns <- diff(log(QMXX)) #recordando que la función de diff() ayuda a sacar la diferencia en los datos y log() ayuda a sacar los logaritmos. 
```

Casi todo esta listo para poder fusionar esta data cuatrimestral con el panel dataset, sin embargo antes es necesario tener ambos data sets en una misma columna. En este caso la columna en común es la de un cuarto. 

La función llamada QMXX tiene el índice de cuarto, pero no como columna, por lo que a continuación se creará un data frame con la columna de cuarto igual al índice
```{r}
QMXX.df<-data.frame(quarter=index(QMXX),coredata(QMXX)) #se crea un dataframe con una columna de cuarto
#en este chunk se copia la inforación del índice QMXX y después se utiliza coredata() 
#coredata() es una función que copia la información de un objeto perio sin copiar el formato 
```

La columna en común debe de ser del mismo tipo para asegurar que la columna de cuarto del dataset sea Data type: 
```{r}
paneldataset$quarter<-as.Date(paneldataset$quarter)
```

3- fusionar la nueva serie de tiempo con el panel data 
```{r}
paneldataset<-merge(paneldataset,QMXX.df,by="quarter")
#después de utilizar la función de mergue ahora se tiene un dataset para las empresas mexicanas, la información histórica del IPyC y los retornos del IPyC. 
```

SETTING A PANEL DATA STRUCTURE

Es importante que el data set (ósea el paneldataset) tenga la estructura de un cuarto anual (para las empresas mexicanas de la data).

Para lo anterior es necesario definir al dataset como un panel de data. Esto se puede lograr utilizar la función de pdata.frame(). 

NOTA IMPORTANTE: para poder utilizar esta función es necesario instalar el paquete plm


En el chunk posterior se indica que el indice del data panel va a tener el a las empresas como sujeto y la columna con los cuartos como el tiempo
```{r}
library(plm)
paneldataset <- pdata.frame(paneldataset, index= c("firmcode","quarter"))
```

DATA CALCULATIONS WITH PANEL DATA

Para poder realizar selecciones y calculos en panel data sets es necesario utilizar el paquete dplyr.

NOTA IMPORTANTE: dplyr es un paquete que tiene herramientas muy poderosas que pueden facilitar la gestión de panel data sets.
```{r}
library(dplyr)
```

Es importante mencionar que el data set que se ha estado utilizando tiene información histórica quatrimestral de empresas que estan activas y no activas en la Bolsa Mexicana de Valores. Para este ejercicio solamente se van a necesitar las empresas que si están activas en la BMV. 

En el chunk posterior se muestra como mantener solamente las empresas que son necesarias para el ejercicio.

```{r}
activedata<-paneldataset[paneldataset$status=="active",]
activedata<-activedata[activedata$year>=2010,]

#como se puede observar se seleccionan las filas que se desean al incluir argumentos como que en la columna de status tengan el valor "active". 
```

Ahora que se seleccionaron las empresas que estan activas en la BMV, de acuerdo a la base de datos, es importate también seleccionar ciertas columnas de este data set que puedan ser de utilidad para hacer ciertas operaciones financieras.

Para poder realizar lo anterior se utilizará la operación "%>%" (que puede utilizarse después de instalar el paquete dplyr)
```{r}
activedata<-activedata %>%
    select(firm,quarter,year,revenue,cogs,ebit,totalassets,
           adjustedstockprice, naics1)

#se seleccionan las columnas deseadas después de utilizar la operación %>%
```

CALCULATING FINANCIAL RETURNS AND RATIOS WITH PANEL DATA 

Para poder calcular los retornos del panel data set se utiliza el mismo método que se tomo en cuenta para calcular los retornos de tesla y de microsoft (es decir sacar la diferencia de los logaritmos de los datos)

```{r}
activedata$r = diff(log(activedata$adjustedstockprice))

```

Al realizar la acción anterior se agregó una columna al en el panel data. En caso de que existiera un cabio en alguna de las empresas no sería necesario calculcar los rendimientos de nuevo, solamente habría de revisar si los valores de los primeros cuartos de cada empresa tienen el valor de NA.
A continuación se va a calcular el retorno sobre activos (ROA) utilizando el EBIT en vez de la utilidad neta:

```{r}
activedata$ROA = activedata$ebit / activedata$totalassets
```

A contnuación se calcularán el margen de utilidad/profit margin(PM)
 y la rotación de activos (ATO). Para el calculo de del margen de utilidad se utilizará el EBIT en lugar de la utilidad neta:
```{r}
activedata$PM = activedata$ebit / activedata$revenue
activedata$ATO = activedata$revenue / activedata$totalassets
```

USING CONDITIONALS TO CREATE COLUMNS 

A continuación se va a crear una columna con variables binarias que ayuden a identificar de manera más sencilla si el ROA en un cuarto específico es mayor al ROA de cuatro cuartos (un año) previo. 

Para poder lograr lo anterior será necesario utilizar la función ifelse().
```{r}

activedata$ROAsignal = ifelse(activedata$ROA>
                    plm::lag(activedata$ROA, 4),1,0)

#en el primer parámetro de la función se usa un condición logica que puede ser verdadera o falsa. En este caso la condición evalua si el ROA es mayor que el ROA de cuatro periodos anteriores.

#En caso de la condición sea verdadera entonces se le asignará el valor del segundo parametro, si la condición es falsa se le asgnará el tercer parametro.
```


NOTA IMPORTANTE: ifelese() es una de gran utilidad especialmente en la gestión de data financiera, pues puede crear señales que comparen valores financeros. La estructura general de esta función es la siguiente: ifelse(data_condition, value_if_TRUE, value_if_FALSE)

A continuación se muestra un ejemplo de como puede ser utilizada la función 
```{r}
a=5
b=10
ifelse(a>b,1,0)

#debido a que “a” no es mayor a “b”, entonces la función arroja el resultado de 0.
```

DESCRIPTIVE STATISTICS WITH PANEL DATA 

NOTA IMPORTANTE: el proceso para sacar las estadísticas descriptivas de un data panel no es el mismo que se usa para poder obtener las estadísticas descriptivas de una serie de tiempo. Es de suma importante tomar en cuenta el periodo del data panel a la hora de sacar estadísticas, pues el descuido de este aspecto puede resultar en la obtención de datos erróneos. 

Es posible empezar a realizar el proceso de sacar las estadísticas descriptivas al seleccionar el último cuarto de la data:
```{r}
data2019q4 = activedata[activedata$quarter=='2019-10-01',]
summary(data2019q4[,c(4:7,10)])
```

En el chunk posterior se utilizará el paquete dplyr para seleccionar el último cuarto del data set, se agrupar a las empresas por industrias y se sacar la mediana de las variables principales.

```{r}
industries<-unique(activedata$naics1)
activedata %>% 
   filter(quarter=='2019-10-01') %>%
  group_by(naics1) %>% 
  summarize(firms = n(),
            median_total_assets = median(totalassets, na.rm = TRUE),
            median_revenue = median(revenue, na.rm = TRUE),
            median_ebit = median(ebit, na.rm = TRUE))
```

Los datos anteriores muestran el estado del mercado financiero mexicano. 

NOTA IMPORTANTE: la media aritmética no es  el mejor instrumento para poder representar el estado actual del mercado. Es debido a lo anterior que es mejor utilizar la mediana, pues la mejor medida de tendencia central para medir variables financieras como ingreso total o activos totales es la mediana, pues  

LOOKING AT THE 2 TABLES ABOVE, PROVIDE A GOOD DESCRIPTION OF A TYPICAL (AVERAGE) FIRM IN MEXICO, AND A DESCRIPTION OF THE MEXICAN MARKET IN TERMS OF FIRMS BY INDUSTRY AND FIRM SIZE FOR EACH INDUSTRY.

Como se puede observar en la última tabla, la industria con más empresas activas en la Bolsa de Valores Mexicana es la industria de manufactura,la segunda más grande es la de finanzas y seguros. 

Las industras más pequeñas son las de las de gestión de empresas y de salud y asistencia social, pues estan cuentan con solamente 1 empresa respectivamente que cotiza en la BVM.  

A pesar de que el sector de gestión y empresas es uno de los más pequeños es importante notar que de acuerdo a la mediana, es el sector con el total de activos, mayor revenue y EBIT. Lo que indica que el sector, o más bien dicho la empresa que esta activa en la BMV es muy rentable.

Por su parte es importante resaltar de igual manera que la industria de manufactura es la segunda con mayores activos, la tercera en revenue y la segunda con mayor EBIT. Es lo que indica que esta industria además de ser una industria muy grande, también es muy rentable.
