Como cargar la serie de datos

Para iniciar nuestros estudios en econometría, lo primero que aprenderemos es el uso de la carga de una serie de datos cualquiera, si bien existen herramientas en R que nos ayudan a hacerlo más rápido, siempre una solución más eficiente es sobre la programación, por ello usaremos el siguiente código:

data = read.table(file.choose(), header = T)

En el código anterior, se entenderá que data es el nombre que tomará de ahora en adelante la base de datos, y obviamente podemos cambiar el nombre data por otro que el usuario guste, siempre y cuando tenga presente el cambio que está ejerciendo.

Este código, nos ayudará a cargar la base de datos desde cualquier parte del sistema, lo más recomendable siempre es trabajar con datos en formatos .txt o .csv, por su facilidad de manejo y bajo peso, lo que permite una carga rápida.

NOTA

RECUERDE: USE SIEMPRE NOMBRES EN MINUSCULA, R DISCRIMINA SIEMPRE LAS MAYUSCULAS CONFUNDIENDO EL USO DE LAS VARIABLES

Procedimiento adicional: Attach y Scipen

Al momento de cargar los datos, siempre es importante tener en cuenta que estos datos se verán como una hoja plana de información, es decir, el programa leerá los datos, pero asumirá que es una impresión, se pueden ver, pero no se pueden manipular; para contrarrestar este inconveniente el código:

attach(data)

Otro problema identificable en R es el hecho que por defecto los resultados del programa siempre serán vistos en formato de notación científica, entonces, para modificar los resultados, a fin de obtener el resultado con los decimales completos usaremos la función:

options(scipen = 999)

Creación del Modelo Lineal

Para R, este procedimiento se efectuará de la siguiente manera:

rel = y ~ x
model = lm(rel)
summary(model)

Identificación de los valores para pruebas de hipótesis individuales

Para identificar las pruebas de hipótesis individual, recuerde que estas operan sobre la siguiente condición dicotómica:

\[ \left\{ \begin{array}{ll} H_o \rightarrow \hat\beta_k = 0 \\ vs \\ H_a \rightarrow \hat\beta_k \neq 0 \\ \end{array} \right. \]

Donde: \(\hat\beta_k\) son todos los parámetros en un modelo lineal en evaluación.

Sobre estas debemos identificar si la relación de las variables \(X\) y \(Y\) son pertinentes, y para ello el valor de los parámetros \(\hat\beta\) nos mostrarán si existe o no relación o como se dice en los textos de econometría existe una evidencia estadística en donde las variables \(X\) evaluadas influyen en \(Y\).


Identificación de los grados de libertad

Antes de realizar cualquier operación es indispensable conocer el valor de los grados de libertad:

\[\begin{aligned} gl = n-k \end{aligned}\]

Que en R se verá tal que así:

n = NROW(y)
k = NROW(coef(model))
gl = (n-k)

Identificación de matriz de varianzas y covarianzas

Para ello requerimos el valor \(t_{calculado}\) de los parámetros \(\hat\beta_k\); del cual requerimos la siguiente formula:

\[\begin{aligned} t_c = \frac{\hat\beta_k}{se(\hat\beta_k)} \end{aligned}\]

Recuerde entonces que para poder identificar el valor de los errores estándar requiere de la matriz de varianzas y covarianzas:

\[\begin{aligned} Var(\hat\beta_k)= \frac{SSE}{n-k}*(X^TX)^{-1} \end{aligned}\]

use la función vcov(model) para hallar la matriz de varianzas y covarianzas

varcov = vcov(model)

Identificación del error estándar de los parámetros

Y de ellos el valor de la raíz cuadrada de la diagonal de la matriz anterior para obtener los errores estándar:

\[\begin{aligned} se(\hat\beta_k)= \sqrt{a_{kk}} \end{aligned}\]

En R, su obtención es:

se1 = sqrt(varcov[1,1])
se2 = sqrt(varcov[2,2])

Recuerde que es necesario obtener más valores de error estándar simplemente copie la línea de programación y cambie los valores al valor deseado,

si desea obtener el error estándar de un valor de \(\hat\beta_3\) entonces:

se3 = sqrt(varcov[3,3])

Obtención de los valores T Calculado y T Teórico

Este procedimiento recuérdese se usa para evaluar la eficiencia de las variables en el modelo usando el método gráfico donde se contrasta el valor de \(T_c\) y \(T_t\) en la hipótesis de los parametros.Recurriendo nuevamente a la fórmula:

\[\begin{aligned} t_c = \frac{\hat\beta_k}{se(\hat\beta_k)} \end{aligned}\]

Esta debe ser evaluada con un valor teórico que se asume:

\[\begin{aligned} t_c = \frac{\hat\beta_k}{se(\hat\beta_k)} \sim t_t\:(n-k,1-\frac{\alpha}{2}) \end{aligned}\]

El cual obtendremos en R de la siguiente manera:


obtención de T Calculado

Extraemos los valores de los parámetros hallados en el modelo con:

parameters = as.data.frame(coef(model))

Después lo dividimos con el valor de su respectivo error estándar:

tc1 = parameters[1,1]/se1
tc2 = parameters[2,1]/se2

Identificación de T Teórico

Asumimos el valor del nivel de significancia de acuerdo a la exigencia que se le desee dar a la prueba, en este caso, se usa el \(5\%\) de significancia, y obtenemos su valor en R tal que así:

alpha = 0.05
alpham = alpha/2
tt = qt(alpham,gl,lower.tail = F)

Evaluación por P-valor

Para este proceso de forma alternativa al modo gráfico evaluaremos el valor de los \(t_{calculados}\), con la probabilidad de la distribución t-student teniendo el siguiente esquema de resultado:

\[ \left\{ \begin{array}{ll} p-value > \alpha\rightarrow H_o \\ p-value < \alpha\rightarrow H_a \\ \end{array} \right. \]

Para ello, hallaremos en cada parámetro dicho valor, en R se evaluará:

pv1 = 2*pt((abs(tc1)), gl, lower.tail = F)
pv2 = 2*pt((abs(tc2)), gl, lower.tail = F)

Identificación de los valores para pruebas de hipótesis global

Similar al proceso de análisis individual, el análisis global responderá la hipótesis sobre si las variables en conjunto tienen verdadera influencia en la variable dependiente o no, en este caso la hipótesis será:

\[ \left\{ \begin{array}{ll} H_o \rightarrow \hat\beta_2 = \hat\beta_3 = ... = \hat\beta_k = 0 \\ vs \\ H_a \rightarrow \hat\beta_2 \neq \hat\beta_3 \neq ... \neq \hat\beta_k \neq 0 \\ \end{array} \right. \]

Y del cual también obtendremos valores calculados y teóricos para realizar la evaluación por método gráfico de la siguiente manera:

\[\begin{aligned} F_c = \frac{R^2}{1-R^2}*\frac{n-k}{k-1} \sim F_t(k-1;n-k) \end{aligned}\]


Valor F-Snedecor calculado

Con lo anterior, el valor de \(F_{calculado}\) en R será:

r2 = summary(model)$r.squared
fc = (r2/(1-r2))*(gl/(k-1))

Valor F-Snedecor teórico

alphaf = 0.05
ft = qf(alphaf,k-1,gl, lower.tail=F)

valor de P-valor de F

Para este proceso de forma alternativa al modo gráfico evaluaremos el valor de los \(F_{calculados}\), con la probabilidad de la distribución t-student teniendo el siguiente esquema de resultado:

pvf = pf(fc,k-1,gl,lower.tail=FALSE)