Procederemos con el analisis para determinacion y prediccion del precio de autos, para lo cual hemos recabado informacion de variables exogenas, que nos ayudaran a determinarla. El proceso consistira primero el eliminar las NA,para despues con esta ueva data, procederemos a evaluar la significancia de cada variable en el modelo, para lo cual primero haremos pruebas ANOVA Y ANCOVA y depues la prediccion. IMPORTACION DE LA DATA Primero procederemos a importar la base de datos “AUTO” con import Dataset.

library(haven)
auto <- read_dta("C:/Users/MICHAEL/Desktop/CURSOS/educate peru/modelo econometrico aplicado a R 0820/clase 1/TAREA1/auto.dta")
View(auto)

REVISANDO LA DATA

dim(auto)
## [1] 74 12

La base de datos, conta de 74 observaciones o filas, y de 12 columnas o variables. Ahora observamos las variables que componen la data “auto”.

names (auto)
##  [1] "make"         "price"        "mpg"          "rep78"        "headroom"    
##  [6] "trunk"        "weight"       "length"       "turn"         "displacement"
## [11] "gear_ratio"   "foreign"

EJERCICIO 1 : RENOMBRAR LAS VARIABLES DE MI DATA

Renombramos a la variable “foreign”,que esta en la columna 12 dela matriz, por el nombre “Proc”.

names(auto)[12]="Proc"
names(auto)
##  [1] "make"         "price"        "mpg"          "rep78"        "headroom"    
##  [6] "trunk"        "weight"       "length"       "turn"         "displacement"
## [11] "gear_ratio"   "Proc"

Renombramos a la variable “trunk”,que esta en la columna 9 dela matriz, por el nombre “Lmaletera”.

names(auto)[9]="Lmaletera"
names(auto)
##  [1] "make"         "price"        "mpg"          "rep78"        "headroom"    
##  [6] "trunk"        "weight"       "length"       "Lmaletera"    "displacement"
## [11] "gear_ratio"   "Proc"

Renombramos a la variable “price”,que esta en la columna 2 de la matriz, por el nombre “precio”.

names(auto)[2]="precio"
names(auto)
##  [1] "make"         "precio"       "mpg"          "rep78"        "headroom"    
##  [6] "trunk"        "weight"       "length"       "Lmaletera"    "displacement"
## [11] "gear_ratio"   "Proc"

ELIMINACION DE LOS NA DE NUESTRA DATA

Observamos que hay “NA” en nuestra data , asi que eliminaremos los “NA” de mi base de datos “autos”.y crearemos una base de datos donde no exista “NA” ,y a esa nueba base de datos le llamaremos “auto1”.

auto1 <- na.omit(auto)

Observamos nuestra nueva base de datos “autos2”, donde nos quedaremos con 69 observaciones o filas y 12 variables o columnas.

dim(auto1)
## [1] 69 12

CONVERSION A TIPO FACTOR DE VARIABLES CUALITATIVAS O VARIABLES CATEGORICAS

VARIABLE :PROC (variable cualitativa)

is.factor(auto1$Proc)
## [1] FALSE

Corremos y sale FALSE, indicando que no es del tipo factor,asi que lo transformaremos a tipo factor. Trasnsformamaos la variable “Proc” en factor.

auto1$Proc <- as.factor(auto1$Proc)

Ahora comprobamos si la variable “Proc” es un factor.

is.factor(auto1$Proc)
## [1] TRUE

Variable auto$Proc ya esta transformada a tipo factor.

EJERCICIO 2 :ETIQUETAR LAS VARIABLES DE MI DATA

Vamos a equitar a las variables. Adiconal quiero ver como se veran despues de la etiqueta para lo cual instalare el paquete expss y su libreria.

library(expss)
## 
## Attaching package: 'expss'
## The following objects are masked from 'package:haven':
## 
##     is.labelled, read_spss

VARIABLE PROC etiqueta “Procedencia del auto” VARIABLE :LMALETERA etiqueta “Longitud del maletero” VARIABLE : PRECIO etiqueta “Preco del automovil”

A esta nueva base de datos , con etiquetas , le llamaremos “auto2”.

auto2 = apply_labels(auto1,
                  Proc="Procedencia de auto",
                  Lmaletera="Longitud del maletero",
                  precio="Precio del automovil")

Revisaremos la etiqueta dada a la variable Proc

drop_val_labs(auto2$Proc)
## LABEL: Procedencia de auto 
## VALUES:
## 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1... 50 items printed out of 69

Revisaremos la etiqueta dada a la variable Lmaletera

drop_val_labs(auto2$Lmaletera)
## LABEL: Longitud del maletero 
## VALUES:
## 40, 40, 40, 43, 43, 42, 43, 42, 44, 43, 45, 34, 43, 31, 41, 40, 43, 35, 46, 46, 46, 33, 43, 51, 48, 41, 39, 48, 44, 41, 45, 43, 43, 42, 42, 42, 43, 40, 43, 37, 37, 36, 44, 42, 42, 45, 40, 41, 37, 36... 50 items printed out of 69

Revisaremos la etiqueta dada a la variable precio

drop_val_labs(auto2$precio)
## LABEL: Precio del automovil 
## VALUES:
## 4099, 4749, 4816, 7827, 5788, 5189, 10372, 4082, 11385, 14500, 15906, 3299, 5705, 4504, 5104, 3667, 3955, 3984, 4010, 5886, 6342, 4389, 4187, 11497, 13594, 13466, 3829, 5379, 6165, 4516, 6303, 3291, 8814, 5172, 4733, 4890, 4181, 4195, 10371, 4647, 4425, 4482, 4060, 5798, 4934, 5222, 4723, 4172, 9690, 6295... 50 items printed out of 69

OBSERVACION : la base de datos inicial es “auto”, a la cual eliminamos los valores que tenian “NA”, y a esta nueva base de datos la llamamos “auto1”, y de alli hemos etiquetado a las variables,asi que esta nueva base de datos etiquetada le llamamos “auto2”, con la cual trabajaremos de aqui en adelante.

EJERCICIO 3 : ETIQUETAR VALORES A LAS VARIABLES DE MI DATA

VARIABLE : PROC

De mi base de datos“auto2”, llamaremos a la variable “Proc”,que es tipo factor, y a los valores “0” y “1”, le pondremos los valores “local” y “extranjero”.

auto2$Proc <- factor(auto2$Proc,levels = c("0","1"),labels = c("local","extranjero"))

Visualizacion grafica de “Proc” , para visualizar las etiquetas de nuestras variables.

plot(auto2$Proc)

EJERCICIO 4 : ESTIMAR MODELO DE LA AIGUIENTE FORMA:

 **Precio=beta0 + beta1 Proc + beta2 Lmaletera**

Primero armaremos un modelo con una sola variable exoena, para su validacion del uso de dummy, y despues haremos un modelo con dos variables exogenas y su evaluacion de uso de la dummy.

MODELO 1 : COMPROBAR LA INTRODUCCION DE VARIABLES DUMMY EN VARIABLE PROC Y VARIABLE ENDOGENA PRECIO

Este analisis se realizara solaente para las variables cualitativas, las cuales deben de estar transformadas a tipo factor. consultaremos si la variable EDUC es del tipo factor.

is.factor(auto2$Proc)
## [1] TRUE

Como ya es de tipo factor, esto nos permite crear variables dummy para variable “prod”. Para saber cuantos niveles tiene mi variable “prod” (la transfomada de la variable ).

levels(auto2$Proc)
## [1] "local"      "extranjero"

Percatamos que la variable “Proc” tiene 2 niveles: “local” y “extranjero”. Para saber la abundancia en cada nivel.

table(auto2$Proc)
## 
##      local extranjero 
##         48         21

La tabla nos indica que la distribucion esta desbalanceada, para lo cual debemos de adoptar alguna tecnica para trabajarla, como el de hacerla balanceada, ante ello primero haremos ANOVA tanto en lm como en aov, para comprobar la significancia y observaremos su grafico para un analisis complementario a lo adicional, todo ello para validad si deberia ir con dummy la variable “Proc”.

PRUEBA ANOVA

Realizando prueba ANOVA un solo factor(one way- el cual utilizara un factor para su analisis-data balanceada)

one way utiliza un factor para su analisis. cuando realizo ANOVA las variables exogenas deben ser de tipo factor las cualitativas. Para lo cual instalaremos el paquete “car”, y llamaremos a libreria “car”.

library(car)
## Loading required package: carData
## 
## Attaching package: 'car'
## The following object is masked from 'package:expss':
## 
##     recode

PRIMERA PRUEBA : TEST ANOVA F PARA ANALISIS DE PRECIO Y PROC - PRUEBA DE LE LEVENCE

Para lo cual utilizaremos "levensTest.

levenwTest :Es una prueba estadistica inferencial que se utiliza para evaluar la igualdad de las varianzas para uno,dos o mas grupos.
Para saber si existe distincion entre las caracteristicas de niveles de las variables cualitativas. Tanto para muestras balanceadas o desbalanceadas, toma la parte central y compara. Compara respecto a la mediana, percentil 50.Tomaremos el 90% delos datos, la parte central. Permite trabajar datos aglomerados en percentiles.

DEFINICION DE VARIABLES VARIABLE ENDOGENA: Precio (variable en el eje Y) VARIABLEEXOGENA : Proc (variable cualitativa,convertida a tipo factor) PLANTEAMIENTO DE HIPOTESIS Ho :Hipotesis nula: Homogeneidad de varianzas.Las medias de las muestras son iguales. Ha :Hipotesis alternativa ,no homogeneidad de varianzas.Las medias de las muestras son difeentes o al menos una es diferente.

ESTADISTICO DE PRUEBA Prueba F

REGLA DE DESICION Si Pr(>F) > 0.05 : No Rechazo Ho Si Pr(>F) < 0.05 : Rechazo la Ho

SE TOMA UNA MUESTRA Tomamos una muestra que concentre a los elementos con referencia a la mediana.

leveneTest(auto2$precio,auto2$Proc,center = median)

DESICION EN BASE A LA MUESTRA Pr(>F) = 0.5825 > 0.05. No rechazo la Ho. Entonces: No existe diferencia de las varianzas en las muestras hechas a la variable cualitativa de Proc relacionada con precio.. Lo cual nos indicaria que no seria adecuado usar variables dummy en modelo de regresion.

SEGUNDA PRUEBA : TEST ANOVA EN BASE A PROMEDIOS PARA VARIABLE PRECIO Y PROC

Ahora analizamos el modelo ANOVA ,para comprobar si sera util usar la variable dummy en mi model. Para lo cual generamos nuestro modelo modanova1=autoprecio autoProc.

DEFINICION DE VARIABLES VARIABLE ENDOGENA: Precio (variable en el eje Y) VARIABLEEXOGENA : Proc (variable cualitativa,convertida a tipo factor)

PLANTEAMIENTO DE HIPOTESIS Ho :Hipotesis nula: Homogeneidad de varianzas.Las medias de las muestras son iguales. Ha :Hipotesis alternativa ,no homogeneidad de varianzas.al menos una es diferente.

REGLA DE DESICION (igual al anterior descrito) Si Pr(>F) > 0.05 : No Rechazo Ho Si Pr(>F) < 0.05 : Rechazo la Ho

SE TOMA LAs MUESTRAS

modanova1=aov(auto2$precio~auto2$Proc)
summary(modanova1)
##             Df    Sum Sq Mean Sq F value Pr(>F)
## auto2$Proc   1    173907  173907    0.02  0.887
## Residuals   67 576623052 8606314

DESICION EN BASE A LA MUESTRA El cual indica que Error estándar residual: 2933.6 (alto) y los efectos estimados pueden estar desequilibrados

Sale Pr(>F)= 0.887 > 0.05 ,por lo cual decimos que NO es significativa Por lo cual diremos que NO seria util usar variables dummy.

TERCERA PRUEBA : TEST ANOVA MEDIAS RECORTADAS PARA VARIABLE PRECIO Y PROC

SEPARACION DE LOS PRECIO POR NIVELES DE VARIABLE PROC

crearemos la variable “sepa”,con el Comando “unstack”, vamos a separa los “precios” por los niveles de Proc (local y extranjera). Separo los precio teniendo en cuenta los niveles,creando listas diferentes para cada uno de los grupos.

sepa=unstack(auto2,precio~Proc)

Se forman dos lista grupos de elementos, los cuales se visualiza que estan desbalanceados, pues el numero de observaciones no es el mismo para los dos niveles de la variable Proc.

table(auto2$Proc)
## 
##      local extranjero 
##         48         21

EVALUACION DE ROBUSTES DE LAS VARIABLES INGRESOS Y PROC Para lo cual instalaremos al paque “WRS2”, y llamaremos a su libreria.

library(WRS2)

t1way:calcula un ANOVA unidireccional en medios recortados. sirve para trabajar en tramos, para asi ser mas robusta. Para ver si las variables son robustas en el modelo.

t1way(sepa)

Resulta “Error” debido a que las submuestras son de distintos tamaños (muestras desbalanceadas), y este comando es para muestras balanceadas.

Comando t1way, permite bootear, buscaria el mejor de todos,mostraria con mejor nivel de significacncia. t1way(sepa,nboot = 1000)

GENERACION DE DATA.FRAME APARTIR DE MI VARIABLE SEPA Por lo cual Vamos a generar data.frame apartir de variable “sepa” tomando por niveles de precios:

a :seleccionar el objeo 1,dentro los elementos del 1 al 5,y los colocare como variable Proc del prime nivel valor1.

a=data.frame(precio=sepa[[1]][1:5], Proc=factor(1))

b:seleccionar el objeo 2,dentro los elementos del 1 al 5,y los colocare como variable Proc del segundo nivel valor2.

b=data.frame(precio=sepa[[2]][1:5],Proc=factor(2))

Ahora debemos de hacer una unificacion de tipo columnas. Utilizamos “rbind” : para unificar base de datos en una sola columna, y a esa nueva base de datos le llamaremos “tdata”.

tdata=rbind(a,b)

Ahora debemos de separarlos esta columna,de precios y segun los niveles de la variable Proc en columnas.Utlizamos " unstack“. Llamaremos a esta nueva base de datos”sepanew", que es una data.frame balanceada.

sepaw=unstack(tdata,precio~Proc)
sepaw

OBSERVACION: WRS2 ,que en comparacion al WRS implementa las funcionalidades más importantes ,como la utilizacion de marcos de datos como estructuras de entrada básicas en lugar de listas, objetos de fórmula para la especificación del modelo, métodos básicos de impresión entre otros, los cuales se uzaran para medir la robustes del modelo tanto en ANOVA como en ANCOVA.

t1way :calcula un ANOVA unidireccional en medios recortados.Supuesto de homocedasticidad requerida. sirve para trabajar en tramos, para asi ser mas robusta. Para ver si las variables son robustas en el modelo.

ANALISIS DE VARIANZAS PRECIO Y PROC (ANOVA) PARA DATOS CONVERTIDOS EN BALANCEADOS CON “t1way”

DEFINICION DE VARIABLES : VARIABLE ENDOGENA: INGRESOS (variable en el eje Y) VARIABLEEXOGENA : NIVEL EDUCATIVO (variable cualitativa,convertida a tipo factor)

PLANTEAMIENTO DE HIPOTESIS Ho :Hipotesis nula : Las medias de las muestras son iguales. Ha :Hipotesis alternativa : nO todas las medias de las muestras son iguales O Al menos una es distinta.

ESTADISTICO DE PRUEBA Prueba F

REGLA DE DESICION Si Pr(>F) > 0.05 : No Rechazo Ho Si Pr(>F) < 0.05 : Rechazo la Ho

SE TOMA UNA MUESTRA Tomamos el test.

t1way(tdata)
## Call:
## t1way(formula = tdata)
## 
## Test statistic: F = 2.0328 
## Degrees of freedom 1: 1 
## Degrees of freedom 2: 2.35 
## p-value: 0.27242 
## 
## Explanatory measure of effect size: 0.77 
## Bootstrap CI: [0.03; 1.62]

INTERPRETACION Y DESICION Evaluando el p-value = 0.27242 > 0.05. Por lo cual al nivel de significancia del 0.05 , cae en zona de no rechazo de la H0. Por lo cual no es adecuado el uso de dummy en nuestro modelo planteado.

PRUEBA 4 : ANOVA MODELO LINEAL

generaremos una base de datos “modanova2” ,lo generare con “lm”, que tomara como variabla endogena a PRECIOS y como exogena Proc.Consideraremos a esta variable “Proc” (transformada en factor con 2 niveles),con sus niveles, recordando que en su estado basal es nivel 1.

DEFINICION DE VARIABLES : VARIABLE ENDOGENA: INGRESOS (variable en el eje Y) VARIABLEEXOGENA : NIVEL EDUCATIVO (variable cualitativa,convertida a tipo factor)

PLANTEAMIENTO DE HIPOTESIS Ho :Hipotesis nula : Las medias de las muestras son iguales. Ha :Hipotesis alternativa : nO todas las medias de las muestras son iguales O Al menos una es distinta.

ESTADISTICO DE PRUEBA Prueba F

REGLA DE DESICION Si Pr(>F) > 0.05 : No Rechazo Ho Si Pr(>F) < 0.05 : Rechazo la Ho

TOMA DE DESICION EN BASE A LA PRUEBA Recordemos que un ANOVA consiste modelo que las variables exogenas son unicamente cualitativas.

modanova2 <- lm(precio~Proc,data = auto2)
summary(modanova2)
## 
## Call:
## lm(formula = precio ~ Proc, data = auto2)
## 
## Residuals:
## LABEL: Precio del automovil 
## VALUES:
## -2888.2, -1984.2, -1075.2, 162.7, 9726.8
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      6179.3      423.4  14.593   <2e-16 ***
## Procextranjero   -109.1      767.5  -0.142    0.887    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2934 on 67 degrees of freedom
## Multiple R-squared:  0.0003015,  Adjusted R-squared:  -0.01462 
## F-statistic: 0.02021 on 1 and 67 DF,  p-value: 0.8874

REGLA DE DESICION La variable Procextranjero no es significativo al nivel de significancia del 0.05. La significacncia de nuestro modelo ES 0.8874,LO CUAL CAE EN ZONA DE NO RECHAZO DE hO.

PRUEBA 5 : ANOVA MODELO AOV

Ahora Haremos un summary del tipo aov , con las mismas condiciones de la prueba 4.

TOMA DE MUESTRA

modanova3 <- aov(precio~Proc,data = auto2)
summary(modanova3)
##             Df    Sum Sq Mean Sq F value Pr(>F)
## Proc         1    173907  173907    0.02  0.887
## Residuals   67 576623052 8606314

EVALUACION Y TOMA DE DESICION El modelo no es significativo al 0.05 de significancia,no se rechaza la Ho.

PRUEBA 6 : ANALISIS GRAFICO

Para ver graficamente la distincion de las variables de precio como endogena y de Proc como exogena. El grafico le pondremos nombre “Diferencia de medias de precio por Procedencia del auto”, con el eje “x” = “Procedencia del auto”, y nombre del eje “y” de “precio”, pintar de color rainbow(5).``

x11()
boxplot(auto2$precio~auto2$Proc,
        main="Diferencia de medias de precios por Procedencia del auto",
        xlab = "Procedencia del auto",
        ylab = "Precios del auto",
        col=rainbow(5))

Graficamente se no se ve la distincion pareciera de medias similares ,no mucho cambio entre ellas.,no hay un cambio rotundo. El analisis grafico es complementario al summary lm, summary aov(el mas importante), los cuales me indicaron que no existe distincion de las medias de procedencia de los autos.

POR LO TANTO. No se aplica variables dummy en mi modelo de precio y procedencia del auto.

MODELO 2 : COMPROBAR LA INTRODUCCION DE VARIABLES DUMMY EN VARIABLE PROC , EXOGENA LMALETRA Y ENDOGENA PRECIO

Para este analisis de modelo se tienen 2 variables exogenas: Prec (variable cualitativa transformada a tipo factor) y la variable Lmaletera; y como variable endogena al precio. Para realizar este analisis de variables exogenas, cualitativas y cuantitativas,cumpliendo los supuestos, se utiliza el ANCOVA, para demostar la significancia primero, si es adecuada encluir variables dummy al modelo, para lo cual desarrollaremos variables pruebas enanalisis mediasiguales de las tres variables. consultaremos si la variable cualitativa Proc es del tipo factor.

is.factor((auto2$Proc))
## [1] TRUE

Como ya es de tipo factor, esto nos permite crear variables dummy para variable “prod”. Para saber cuantos niveles tiene mi variable “prod” (la transfomada de la variable ).

levels(auto2$Proc)
## [1] "local"      "extranjero"

Percatamos que la variable “Proc” tiene 2 niveles: “local” y “extranjero”. Para saber la abundancia en cada nivel.

table(auto2$Proc)
## 
##      local extranjero 
##         48         21

La tabla nos indica que la distribucion esta desbalanceada, para lo cual debemos de adoptar alguna tecnica para trabajarla, como el de hacerla balanceada, ante ello primero haremos ANOVA tanto en lm como en aov, para comprobar la significancia y observaremos su grafico para un analisis complementario a lo adicional, todo ello para validad si deberia ir con dummy la variable “Proc”.

PRUEBA 1 : MODELO ANcOVA - MEDIANTE ANCOVA LM

ANALISIS DE varianzas Proc, Lmaletera Y Precio (ANcOVA) Teniendo nuestra variable cualitativa“Proc”(tipo factor),Lmaletera y Precio, analizaremos sus varianzas.

DEFINICION DE VARIABLES : VARIABLE ENDOGENA: Precio (variable en el eje Y) VARIABLE EXOGENA : Proc y Lmaletera

PLANTEAMIENTO DE HIPOTESIS Ho :Hipotesis nula : Las medias de las muestras son iguales. Ha :Hipotesis alternativa : nO todas las medias de las muestras son iguales O Al menos una es distinta.

ESTADISTICO DE PRUEBA Prueba F

REGLA DE DESICION Si Pr(>F) > 0.05 : No Rechazo Ho Si Pr(>F) < 0.05 : Rechazo la Ho

SE TOMA UNA MUESTRA Tomamos el test.

modancova1 <- lm(precio~Proc+Lmaletera,data = auto2)
summary(modancova1)
## 
## Call:
## lm(formula = precio ~ Proc + Lmaletera, data = auto2)
## 
## Residuals:
## LABEL: Precio del automovil 
## VALUES:
## -3799.1, -1467.1, -773.8, 526.8, 8482.3
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    -9918.70    4146.86  -2.392 0.019620 *  
## Procextranjero  2390.17     947.12   2.524 0.014030 *  
## Lmaletera        385.39      98.85   3.899 0.000229 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2665 on 66 degrees of freedom
## Multiple R-squared:  0.1874, Adjusted R-squared:  0.1628 
## F-statistic: 7.612 on 2 and 66 DF,  p-value: 0.00106

EVALUACION Y TOMA DE DESICION Se evalua la significancia del intercepto y de las variables, las cuales si Pr son menores de 0.005, por lo cual caen en zona de rechazo de Ho. La significacncia de nuestro modelo en su conjunto es p-value de 0.00106, menor a 0.05, por locual tambien es significativa, rechazando la Ho.

INTERPRETACION DE COEFICIENTES si la procedencia delauto es a nivel local, el precio promedio seria -9918.70 mas (385.39 x Lmaletera ) Si la procedencia del auto es a nivel extranjera,el precio promedio seria,su estado basal,-9918.70,mas 2390.17, + (385.39 x Lmaletera)

TOMA DE DESICION En base a esta prueba 1 , de ANCOVA mediante Lm, si es significativo usar dummy en el modelo.

PRUEBA 2 : MODELO ANcOVA - MEDIANTE ANCOVA AOV

Con las mismas condicones de la prueva 1, solo que ahora variara muestra toma de muestra.

SE TOMA UNA MUESTRA Ahora Haremos un summary del tipo aov,

modancova2 <- aov(precio~Proc+Lmaletera,data = auto2)
summary(modancova2)
##             Df    Sum Sq   Mean Sq F value   Pr(>F)    
## Proc         1    173907    173907   0.024 0.876123    
## Lmaletera    1 107941522 107941522  15.200 0.000229 ***
## Residuals   66 468681530   7101235                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

EVALUACION value Pr es no significativa, pero resulta que si es significativa la variable Lmaletera . Variable Proc, con 1 grados de libertad, vemos que no es significativa,no se rechaza la Ho. Variable Lmaletera:con 1 grado de libertad, vemos que si es significativa.se rechaza la Ho.

INTERPRETACION DE COEFICIENTES No seria adecuado usar variables dummy en Proc para este modelo. Por lo cual, el modanova2 no es adecuado tomar variables dummy en el modelo.

PRUEBA 3 : MODELO CON INTERACCION :Consideramos Lmaletera por Proc en nuestro modelo, asi afectara tanto a nuestra pendiente como al intercepto.

Hace el efecto tanto en la pendiente como en el intercepto

DEFINICION DE VARIABLES : VARIABLE ENDOGENA: Precio (variable en el eje Y) VARIABLEEXOGENA : Proc y Lmaletera

*PLANTEAMIENTO DE HIPOTESIS** Ho :Hipotesis nula : Las medias de las muestras son iguales. Ha :Hipotesis alternativa : nO todas las medias de las muestras son iguales O Al menos una es distinta.

ESTADISTICO DE PRUEBA Prueba F

REGLA DE DESICION Si Pr(>F) > 0.05 : No Rechazo Ho Si Pr(>F) < 0.05 : Rechazo la Ho

SE TOMA UNA MUESTRA Consideramos empleo por nivel en nuestro modelo, asi afectara tanto a nuestra pendiente como al intercepto.

modint1 <- lm(precio~Lmaletera*Proc,data = auto2)

La ecuacion sera: precio = -8906.1 (Intercept) + 361.1 Lmaletera - 13198.5 Procextranjero + 437.3 Lmaletera:Procextranjero

summary(modint1)
## 
## Call:
## lm(formula = precio ~ Lmaletera * Proc, data = auto2)
## 
## Residuals:
## LABEL: Precio del automovil 
## VALUES:
## -3696.6, -1384.9, -796.9, 387, 8560.6
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)               -8906.1     4265.0  -2.088 0.040702 *  
## Lmaletera                   361.1      101.7   3.552 0.000719 ***
## Procextranjero           -13198.5    15424.6  -0.856 0.395316    
## Lmaletera:Procextranjero    437.3      431.9   1.013 0.315028    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2664 on 65 degrees of freedom
## Multiple R-squared:  0.2001, Adjusted R-squared:  0.1631 
## F-statistic: 5.419 on 3 and 65 DF,  p-value: 0.002174

EVALUACION E INTERPRETACION (Intercept) Pr(>|t|)= 0.040702 <0.05 , significativa para el modelo Lmaletera Pr(>|t|)= 0.000719 <0.05 , significativa para el modelo Procextranjero Pr(>|t|)= 0.395316 >0.05 ,no sifnificativa para el modelo Lmaletera:Procextranjero Pr(>|t|)= 0.315028 >0.05 ,no significTIV para el modelo El mode lo en general Pr(>|t|)= 0.002 < 0.05 , el modelo es significativo

PRUEBA 4 : MODELO CON INTERACCION :Consideramos Lmaletera y Proc en nuestro modelo, afectara solo a la pendiente

En este caso esta en “:” , lo cual indica que solo afectara o modificara la pendiente.

SE TOMA UNA MUESTRA

modint2 <- lm(precio~Lmaletera:Proc,data = auto2)
summary(modint2)
## 
## Call:
## lm(formula = precio ~ Lmaletera:Proc, data = auto2)
## 
## Residuals:
## LABEL: Precio del automovil 
## VALUES:
## -3789.7, -1457.7, -766.1, 533.3, 8491.4
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)              -9915.19    4090.36  -2.424 0.018097 *  
## Lmaletera:Proclocal        385.11      97.56   3.947 0.000194 ***
## Lmaletera:Procextranjero   453.56     116.90   3.880 0.000244 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2659 on 66 degrees of freedom
## Multiple R-squared:  0.191,  Adjusted R-squared:  0.1665 
## F-statistic: 7.794 on 2 and 66 DF,  p-value: 0.0009151

EVALUACION E INTERPRETACIOM (Intercept) Pr(>|t|)= 0.018097 <0.05 , significativa para el modelo Lmaletera:Proclocal Pr(>|t|)= 0.000194 <0.05 , significativa para el modelo Lmaletera:Procextranjero Pr(>|t|)= 0.000244 <0.05 ,sifnificativa para el modelo El mode lo en general Pr(>|t|)= 0.0009151 < 0.05 , el modelo es significativo

si se deberi considerar a Lmaletera y Proc en un modelo, donde solo afecte solo a la pendiente.

PRUEBA 5 : MODELO CON INTERACCION :Consideramos Lmaletera y Proc en nuestro modelo como variables independientes.

SE TOMA UNA MUESTRA

modint3 <-lm(precio~Lmaletera+Proc,data = auto2)
summary(modint3)
## 
## Call:
## lm(formula = precio ~ Lmaletera + Proc, data = auto2)
## 
## Residuals:
## LABEL: Precio del automovil 
## VALUES:
## -3799.1, -1467.1, -773.8, 526.8, 8482.3
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    -9918.70    4146.86  -2.392 0.019620 *  
## Lmaletera        385.39      98.85   3.899 0.000229 ***
## Procextranjero  2390.17     947.12   2.524 0.014030 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2665 on 66 degrees of freedom
## Multiple R-squared:  0.1874, Adjusted R-squared:  0.1628 
## F-statistic: 7.612 on 2 and 66 DF,  p-value: 0.00106

EVALUACION E INTERPRETACION (Intercept) Pr(>|t|)= 0.019620 <0.05 , significativa para el modelo Lmaletera Pr(>|t|)= 0.000229 <0.05 , significativa para el modelo Procextranjero Pr(>|t|)= 0.014030 <0.05 ,sifnificativa para el modelo

El mode lo en general Pr(>|t|)= 0.00106 < 0.05 , el modelo es significativo.

Se estima el modelo solicitado, obteniendose significancia del intercepto y las variables,asi como del modelo en su conjunto, por lo cual diremos que si es conveniente el uso de variables dummy, para modelarlas en un modelo con estas tres variables.

EJERCICIO 5 : VALIDACION SI “pROC” ES UNA VARIABLE TIPO FACTOR

Recordemos en la pregunta 1 , al momento de analizar la data, realizamos eliminacion de nuestros datos NA de la base de datos “auto” y creamos una nueva “auto2”. auto1 <- na.omit(auto)

Recordemos que a esa base de datos “autos2”, tiene con 69 observaciones o filas y 12 variables o columnas.

dim(auto1)
## [1] 69 12

CONVERSION A TIPO FACTOR :VARIABLE :PROC Primero lo analizamos como estaba en la data, y salio que no era tipo factor.

is.factor(auto1$Proc)
## [1] TRUE

[1] FALSE

Trasnsformamaos la variable “Proc” en factor.

auto1$Proc <- as.factor(auto1$Proc)

Ahora comprobamos si la variable “Proc” es un factor.

is.factor((auto1$Proc))
## [1] TRUE

Variable auto$Proc ya esta transformada a tipo factor, y comenzamos a trabajar nuestros distintos modelos y pruebas con el.

EJERCICIO 6 : ¿EXPLIQUE LAS RAZONES DEL CAMBIO DE FACTOR DE LA VARIABLE “PROC”?

Los supuestos de trabajar , nos exige , que en caso de variables cualitativas o categoricas, estas tienen que estar convertidas a factor, delimitada con valores, para trabajar con las tecnicas estadistica de ANOVA Y ANCOVA donde se calculo y contrastala significancia de su uso con el estadistico F Lo que se quierecontrastar es si estan relacionadas las variables dependiente e independietes en base a sus medias,señala si las medias entre grupos sn iguales o diferentes.

EJERCICIO 7 : REALICE BOXPLOT DE PROC Y PRECIO. AÑADELE UN TITULO, NOMBRES A LOS EJES Y UN COLOR DE PREFERENCIA. INTERPRETE EL BOXPLOT HACIENDO USO DE LA HERRAMIENTA SUMMAY SOBRE LAS VARIABLES EN CUESTION. ¿INTITUIVAMENTE ME DICE ALGO ESTE GRAFICO?¿ES DEFINITIVO?

Recordemos lo hecho en MODELO ANOVA- PRUEBA 6 : ANALISIS GRAFICO Para ver graficamente la distincion de las variables de precio como endogena y de Proc como exogena. El grafico le pondremos nombre “Diferencia de medias de precio por Procedencia del auto”, con el eje “x” = “Procedencia del auto”, y nombre del eje “y” de “precio”, pintar de color rainbow(5).

x11()
boxplot(auto2$precio ~ auto2$Proc, 
        main="Diferencia de medias de precios por procedencia del auto",
        xlab = "Procedencia del auto",
        ylab = "Precios de los autos",
        col=rainbow(5))

Se realizaron 6 pruebas del modelo ANOVA, que relacionaron a la Procedencia del auto y al precio del auto, dando como resultado, todas,el NO rechazo de la hipotesis nula, que tenian medias iguales.por lo que no es conveniente utilizar variables dummy en un modelo que solo relacionen a estas variables.

EJERCICIO 8 : REALICE LA PRUEBA DE LEVENE E INTERPRETE LOS RESULTADOS

Recordemos lo desarrollados en el modelo ANOVA ,PRUEBA 1.(ya explicado anteriormente,pero aqui se precisa) PRIMERA PRUEBA : TEST ANOVA F PARA ANALISIS DE PRECIO Y PROC Para lo cual utilizaremos "levensTest. levenwTest :Es una prueba F, para saber si existe distincion entre las caracteristicas de las variables cualitativas. Tanto para muestras balanceadas o desbalanceadas, toma la parte central y compara. Compara respecto a la mediana, percentil 50.Tomaremos el 90% delos datos, la parte central. Permite trabajar datos aglomerados en percentiles.

DEFINICION DE VARIABLES VARIABLE ENDOGENA: Precio (variable en el eje Y) VARIABLEEXOGENA : Proc (variable cualitativa,convertida a tipo factor)

PLANTEAMIENTO DE HIPOTESIS Ho :Hipotesis nula: Homogeneidad de varianzas.Las medias de las muestras son iguales. Ha :Hipotesis alternativa ,no homogeneidad de varianzas.Las medias de las muestras son difeentes o al menos una es diferente.

ESTADISTICO DE PRUEBA Prueba F

REGLA DE DESICION Si Pr(>F) > 0.05 : No Rechazo Ho Si Pr(>F) < 0.05 : Rechazo la Ho

SE TOMA UNA MUESTRA Tomamos una muestra que concentre a los elementos con referencia a la mediana.

leveneTest(auto2$precio, auto2$Proc, center = median)

Levene’s Test for Homogeneity of Variance (center = median)

Df F value Pr(>F)

group 1 0.3052 0.5825

67

DESICION EN BASE A LA MUESTRA Pr(>F) = 0.5825 > 0.05. No rechazo la Ho. Entonces: No existe diferencia en las muestras de las varianzas dela variable cualitativa de Proc y precio.. Lo cual nos indicaria que no seria adecuado usar variables dummy en modelo de regresion con mi variable nivel.

EJERCICIO 9 : ¿EL USO DE LA VARIABLE PROC SERA CONVENIENTE PARA EL MODELO?

Se revisaron y analizaron dos modelos.

PRIMERO: variable precio y Proc, donde resulto,en diferentes pruebas, que no era adecuado el uso de dummy, pues no era significativa para los modelos a estimar.

SEGUNDO:Se modelo al precio como endogena, y exogenas al Proc (procedencia del auto) y Lmaletera, dando como resultados que si era un modelo significativo, y si seria adecuado el uso de la variable Proc en 2 niveles o 2 dummy.

Residuals: LABEL: Precio del automovil VALUES: -3799.1, -1467.1, -773.8, 526.8, 8482.3 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -9918.70 4146.86 -2.392 0.019620 * Lmaletera 385.39 98.85 3.899 0.000229 ** Procextranjero 2390.17 947.12 2.524 0.014030 — Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 2665 on 66 degrees of freedom Multiple R-squared: 0.1874, Adjusted R-squared: 0.1628 F-statistic: 7.612 on 2 and 66 DF, p-value: 0.00106

EJERCICIO 10 : QUE TIPO DE MODELO ES EL DESARROLLADO, AQUE SE DEBE SU DENOMINACION?¿QUE TIPO DE VARIABLE PROC EN ELMODELO?

Este modelo ancova, descrito en ejercicios anteriores , dan sinificancia al uso de las variables, y al modelo en su conjunto. Recordemosque se considera a la variable Proc, como una variable dummy.

Precio = -9918.70 (Intercept) + 385.39 Lmaletera + 2390.17 Procextranjero

Que considera que el precio promedio en estado basal, de procedencia local, da como resultado igual a (-9918.70 (Intercept) + 385.39 Lmaletera ).