Para iniciar nuestros estudios en econometría, lo primero que aprenderemos es el uso de la carga de una serie de datos cualquiera, si bien existen herramientas en R que nos ayudan a hacerlo más rápido, siempre una solución más eficiente es sobre la programación, por ello usaremos el siguiente código:
data = read.table(file.choose(), header = T)
En el código anterior, se entenderá que data es el nombre que tomará de ahora en adelante la base de datos, y obviamente podemos cambiar el nombre data por otro que el usuario guste, siempre y cuando tenga presente el cambio que está ejerciendo.
Este código, nos ayudará a cargar la base de datos desde cualquier parte del sistema, lo más recomendable siempre es trabajar con datos en formatos .txt o .csv, por su facilidad de manejo y bajo peso, lo que permite una carga rápida.
RECUERDE: USE SIEMPRE NOMBRES EN MINUSCULA, R DISCRIMINA SIEMPRE LAS MAYUSCULAS CONFUNDIENDO EL USO DE LAS VARIABLES
Al momento de cargar los datos, siempre es importante tener en cuenta que estos datos se verán como una hoja plana de información, es decir, el programa leerá los datos, pero asumirá que es una impresión, se pueden ver, pero no se pueden manipular; para contrarrestar este inconveniente el código:
attach(data)
Otro problema identificable en R es el hecho que por defecto los resultados del programa siempre serán vistos en formato de notación científica, entonces, para modificar los resultados, a fin de obtener el resultado con los decimales completos usaremos la función:
options(scipen = 999)
Para R, este procedimiento se efectuará de la siguiente manera:
rel = y ~ x
model = lm(rel)
summary(model)
Para identificar las pruebas de hipótesis individual, recuerde que estas operan sobre la siguiente condición dicotómica:
\[ \left\{ \begin{array}{ll} H_o \rightarrow \hat\beta_k = 0 \\ vs \\ H_a \rightarrow \hat\beta_k \neq 0 \\ \end{array} \right. \]
Donde: \(\hat\beta_k\) son todos los parámetros en un modelo lineal en evaluación.
Sobre estas debemos identificar si la relación de las variables \(X\) y \(Y\) son pertinentes, y para ello el valor de los parámetros \(\hat\beta\) nos mostrarán si existe o no relación o como se dice en los textos de econometría existe una evidencia estadística en donde las variables \(X\) evaluadas influyen en \(Y\).
Antes de realizar cualquier operación es indispensable conocer el valor de los grados de libertad:
\[\begin{aligned} gl = n-k \end{aligned}\]
Que en R se verá tal que así:
n = NROW(y)
k = NROW(coef(model))
gl = (n-k)
Para ello requerimos el valor \(t_{calculado}\) de los parámetros \(\hat\beta_k\); del cual requerimos la siguiente formula:
\[\begin{aligned} t_c = \frac{\hat\beta_k}{se(\hat\beta_k)} \end{aligned}\]
Recuerde entonces que para poder identificar el valor de los errores estándar requiere de la matriz de varianzas y covarianzas:
\[\begin{aligned} Var(\hat\beta_k)= \frac{SSE}{n-k}*(X^TX)^{-1} \end{aligned}\]
use la función vcov(model) para hallar la matriz de varianzas y covarianzas
varcov = vcov(model)
Y de ellos el valor de la raíz cuadrada de la diagonal de la matriz anterior para obtener los errores estándar:
\[\begin{aligned} se(\hat\beta_k)= \sqrt{a_{kk}} \end{aligned}\]
En R, su obtención es:
se1 = sqrt(varcov[1,1])
se2 = sqrt(varcov[2,2])
Recuerde que es necesario obtener más valores de error estándar simplemente copie la línea de programación y cambie los valores al valor deseado,
si desea obtener el error estándar de un valor de \(\hat\beta_3\) entonces:
se3 = sqrt(varcov[3,3])
Este procedimiento recuérdese se usa para evaluar la eficiencia de las variables en el modelo usando el método gráfico donde se contrasta el valor de \(T_c\) y \(T_t\) en la hipótesis de los parametros.Recurriendo nuevamente a la fórmula:
\[\begin{aligned} t_c = \frac{\hat\beta_k}{se(\hat\beta_k)} \end{aligned}\]
Esta debe ser evaluada con un valor teórico que se asume:
\[\begin{aligned} t_c = \frac{\hat\beta_k}{se(\hat\beta_k)} \sim t_t\:(n-k,1-\frac{\alpha}{2}) \end{aligned}\]
El cual obtendremos en R de la siguiente manera:
Extraemos los valores de los parámetros hallados en el modelo con:
parameters = as.data.frame(coef(model))
Después lo dividimos con el valor de su respectivo error estándar:
tc1 = parameters[1,1]/se1
tc2 = parameters[2,1]/se2
Asumimos el valor del nivel de significancia de acuerdo a la exigencia que se le desee dar a la prueba, en este caso, se usa el \(5\%\) de significancia, y obtenemos su valor en R tal que así:
alpha = 0.05
alpham = alpha/2
tt = qt(alpham,gl,lower.tail = F)
Para este proceso de forma alternativa al modo gráfico evaluaremos el valor de los \(t_{calculados}\), con la probabilidad de la distribución t-student teniendo el siguiente esquema de resultado:
\[ \left\{ \begin{array}{ll} p-value > \alpha\rightarrow H_o \\ p-value < \alpha\rightarrow H_a \\ \end{array} \right. \]
Para ello, hallaremos en cada parámetro dicho valor, en R se evaluará:
pv1 = 2*pt((abs(tc1)), gl, lower.tail = F)
pv2 = 2*pt((abs(tc2)), gl, lower.tail = F)
Similar al proceso de análisis individual, el análisis global responderá la hipótesis sobre si las variables en conjunto tienen verdadera influencia en la variable dependiente o no, en este caso la hipótesis será:
\[ \left\{ \begin{array}{ll} H_o \rightarrow \hat\beta_2 = \hat\beta_3 = ... = \hat\beta_k = 0 \\ vs \\ H_a \rightarrow \hat\beta_2 \neq \hat\beta_3 \neq ... \neq \hat\beta_k \neq 0 \\ \end{array} \right. \]
Y del cual también obtendremos valores calculados y teóricos para realizar la evaluación por método gráfico de la siguiente manera:
\[\begin{aligned} F_c = \frac{R^2}{1-R^2}*\frac{n-k}{k-1} \sim F_t(k-1;n-k) \end{aligned}\]
Con lo anterior, el valor de \(F_{calculado}\) en R será:
r2 = summary(model)$r.squared
fc = (r2/(1-r2))*(gl/(k-1))
alphaf = 0.05
ft = qf(alphaf,k-1,gl, lower.tail=F)
Para este proceso de forma alternativa al modo gráfico evaluaremos el valor de los \(F_{calculados}\), con la probabilidad de la distribución t-student teniendo el siguiente esquema de resultado:
pvf = pf(fc,k-1,gl,lower.tail=FALSE)