La base de datos externa utilizada en este caso fue proporcionada por Bureau Transports, en donde se visualiza la produccion y ventas de autos en Estados Unidos durante 2000 a 2020. De igual forma, se utilizaron otras bases obtenidas del Banco Mundial para recabar datos como la inflacion, el indice de Pobreza, y el PIB per Capita en USA.
library(foreign)
library(dplyr)
library(forcats)
library(janitor)
library(Hmisc)
library(psych)
library(naniar)
library(dlookr)
library(kableExtra)
library(readr)
library(corrplot)
library(jtools)
library(lmtest)
library(car)
library(olsrr)
library(gmodels)
library(factoextra)
library(plotrix)
library(tidyr)
library(knitr)
library(pollster)
library(epiDisplay)
library(modeest)
library(RColorBrewer)
#file.choose()
externa1 <- read.csv("/Users/Karen/Downloads/Evidencia 2 FORM/Base EUA nueva.csv")
summary (externa1)
## Year Production Sales Inflacion
## Length:21 Min. : 5710 Min. : 7868 Min. :-0.360
## Class :character 1st Qu.:10336 1st Qu.:11582 1st Qu.: 1.590
## Mode :character Median :11260 Median :13638 Median : 2.130
## Mean :10705 Mean :12664 Mean : 2.126
## 3rd Qu.:11960 3rd Qu.:13880 3rd Qu.: 2.850
## Max. :12774 Max. :14923 Max. : 3.840
## Pobreza PIB Poblacion Desempleo
## Min. :0.7000 Min. :36330 Min. :282162411 Min. :3.670
## 1st Qu.:1.0000 1st Qu.:44123 1st Qu.:295516599 1st Qu.:4.620
## Median :1.0000 Median :48651 Median :309327143 Median :5.530
## Mean :0.9857 Mean :50062 Mean :308023794 Mean :5.985
## 3rd Qu.:1.0000 3rd Qu.:56763 3rd Qu.:320738994 3rd Qu.:7.370
## Max. :1.2000 Max. :65095 Max. :331501080 Max. :9.630
## Autopartes
## Min. :300543
## 1st Qu.:466904
## Median :501311
## Mean :518449
## 3rd Qu.:601972
## Max. :668450
str (externa1)
## 'data.frame': 21 obs. of 9 variables:
## $ Year : chr "01/01/2000" "01/01/2001" "01/01/2002" "01/01/2003" ...
## $ Production: num 12774 11425 12280 12087 11960 ...
## $ Sales : num 14923 14373 13830 13638 13880 ...
## $ Inflacion : num 3.38 2.83 1.59 2.27 2.68 3.39 3.23 2.85 3.84 -0.36 ...
## $ Pobreza : num 0.7 0.7 0.7 1 1 1 1 1 1 1 ...
## $ PIB : num 36330 37134 37998 39490 41725 ...
## $ Poblacion : num 2.82e+08 2.85e+08 2.88e+08 2.90e+08 2.93e+08 ...
## $ Desempleo : num 3.99 4.73 5.78 5.99 5.53 5.08 4.62 4.62 5.78 9.25 ...
## $ Autopartes: num 466904 425152 470493 493732 491839 ...
Tecnica 1 Convertir tipos de datos
Cambiar de caracter a fecha
externa1$Year <-as.Date(externa1$Year,format ="%d/%m/%Y")
tibble(externa1)
## # A tibble: 21 × 9
## Year Production Sales Inflacion Pobreza PIB Pobla…¹ Desem…² Autop…³
## <date> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 2000-01-01 12774. 14923. 3.38 0.7 36330. 2.82e8 3.99 466904
## 2 2001-01-01 11425. 14373. 2.83 0.7 37134. 2.85e8 4.73 425152
## 3 2002-01-01 12280. 13830. 1.59 0.7 37998. 2.88e8 5.78 470493
## 4 2003-01-01 12087. 13638. 2.27 1 39490. 2.90e8 5.99 493732
## 5 2004-01-01 11960. 13880. 2.68 1 41725. 2.93e8 5.53 491839
## 6 2005-01-01 11947. 14021. 3.39 1 44123. 2.96e8 5.08 502939
## 7 2006-01-01 11260. 13335. 3.23 1 46302 2.98e8 4.62 501311
## 8 2007-01-01 10752. 12687. 2.85 1 48050. 3.01e8 4.62 498481
## 9 2008-01-01 8672. 10108. 3.84 1 48570. 3.04e8 5.78 409349
## 10 2009-01-01 5710. 7868. -0.36 1 47195. 3.07e8 9.25 300543
## # … with 11 more rows, and abbreviated variable names ¹Poblacion, ²Desempleo,
## # ³Autopartes
Tecnica 2 Valores faltantes
Se realizó esta tecnica con la finalidad de conocer si en la base de datos existen NA o similares que no sean validos para la información
#¿Tenemos NA en la base de datos?
sum(is.na(externa1))
## [1] 0
#¿Tenemos NA por variable?
sapply(externa1,function(x)sum(is.na(x)))
## Year Production Sales Inflacion Pobreza PIB Poblacion
## 0 0 0 0 0 0 0
## Desempleo Autopartes
## 0 0
#En caso de tener, borrar los registros NA
externa1 <- na.omit(externa1)
summary(externa1)
## Year Production Sales Inflacion
## Min. :2000-01-01 Min. : 5710 Min. : 7868 Min. :-0.360
## 1st Qu.:2005-01-01 1st Qu.:10336 1st Qu.:11582 1st Qu.: 1.590
## Median :2010-01-01 Median :11260 Median :13638 Median : 2.130
## Mean :2009-12-31 Mean :10705 Mean :12664 Mean : 2.126
## 3rd Qu.:2015-01-01 3rd Qu.:11960 3rd Qu.:13880 3rd Qu.: 2.850
## Max. :2020-01-01 Max. :12774 Max. :14923 Max. : 3.840
## Pobreza PIB Poblacion Desempleo
## Min. :0.7000 Min. :36330 Min. :282162411 Min. :3.670
## 1st Qu.:1.0000 1st Qu.:44123 1st Qu.:295516599 1st Qu.:4.620
## Median :1.0000 Median :48651 Median :309327143 Median :5.530
## Mean :0.9857 Mean :50062 Mean :308023794 Mean :5.985
## 3rd Qu.:1.0000 3rd Qu.:56763 3rd Qu.:320738994 3rd Qu.:7.370
## Max. :1.2000 Max. :65095 Max. :331501080 Max. :9.630
## Autopartes
## Min. :300543
## 1st Qu.:466904
## Median :501311
## Mean :518449
## 3rd Qu.:601972
## Max. :668450
¿Cuántos registros y variables tiene la base de datos?
dim(externa1)
## [1] 21 9
Clasificación de variables
Las variables en esta base de datos corresponden a la produccion y ventas de autos en Estados Unidos, asi como indicadores generales como la inflacion, indice de Pobreza y el PIB per Capita de USA durante el periodo de tiempo de los años 2000 a 2020.
Variableex <- c("`Year`", "`Production`", "`Sales`", "`Inflacion`", "`Pobreza`", "`PIB`", "`Poblacion`", "`Desempleo`", "`Autopartes`")
Tipoex <- c("Cuantitativa (discreta)", "Cuantitativa (continua)", "Cuantitativa (continua)", "Cuantitativa (continua)", "Cuantitativa (continua)", "Cuantitativa (continua)", "Cuantitativa (discreta)","Cuantitativa (continua)","Cuantitativa (discreta)")
Escalaex <- c("Razon", "Intervalo", "Intervalo", "Intervalo", "Intervalo", "Intervalo", "Razon", "Intervalo", "Razon")
Tableex <- data.frame (Variableex, Tipoex, Escalaex)
knitr::kable(Tableex)
| Variableex | Tipoex | Escalaex |
|---|---|---|
Year
|
Cuantitativa (discreta) | Razon |
Production
|
Cuantitativa (continua) | Intervalo |
Sales
|
Cuantitativa (continua) | Intervalo |
Inflacion
|
Cuantitativa (continua) | Intervalo |
Pobreza
|
Cuantitativa (continua) | Intervalo |
PIB
|
Cuantitativa (continua) | Intervalo |
Poblacion
|
Cuantitativa (discreta) | Razon |
Desempleo
|
Cuantitativa (continua) | Intervalo |
Autopartes
|
Cuantitativa (discreta) | Razon |
En la tabla se presentan los datos estadisticos descriptivos para todas las variables de la base de datos externa en USA, en donde es posible observar, que el promedio de producción es de 1.07 a lo largo de los años, mientras que la inflacion de 2.13, el indice de Pobreza de 9.86, y el PIB per Capita de 5.01 el cual ha tenido una desviacion estandar de 8.79 arrojando que es el valor con mayor dispersion durante el periodo de tiempo de 2000 a 2020 en Estados Unidos.
Aunado a eso, el promedio de la tasa de desempleo es de 5.99, mientras que el promedio de la fabricacion de autopartes de Estados Unidos es de 5.18.
describe (externa1)
## # A tibble: 8 × 26
## describe…¹ n na mean sd se_mean IQR skewn…² kurto…³ p00
## <chr> <int> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Production 21 0 1.07e+4 1.79e+3 3.91e+2 1.62e3 -1.42 1.68 5.71e+3
## 2 Sales 21 0 1.27e+4 1.91e+3 4.18e+2 2.30e3 -1.28 0.753 7.87e+3
## 3 Inflacion 21 0 2.13e+0 1.07e+0 2.34e-1 1.26e0 -0.590 0.239 -3.6 e-1
## 4 Pobreza 21 0 9.86e-1 1.39e-1 3.03e-2 0 -0.834 1.27 7 e-1
## 5 PIB 21 0 5.01e+4 8.79e+3 1.92e+3 1.26e4 0.0796 -0.966 3.63e+4
## 6 Poblacion 21 0 3.08e+8 1.53e+7 3.35e+6 2.52e7 -0.157 -1.22 2.82e+8
## 7 Desempleo 21 0 5.99e+0 1.84e+0 4.02e-1 2.75e0 0.766 -0.624 3.67e+0
## 8 Autopartes 21 0 5.18e+5 9.74e+4 2.13e+4 1.35e5 -0.157 -0.321 3.01e+5
## # … with 16 more variables: p01 <dbl>, p05 <dbl>, p10 <dbl>, p20 <dbl>,
## # p25 <dbl>, p30 <dbl>, p40 <dbl>, p50 <dbl>, p60 <dbl>, p70 <dbl>,
## # p75 <dbl>, p80 <dbl>, p90 <dbl>, p95 <dbl>, p99 <dbl>, p100 <dbl>, and
## # abbreviated variable names ¹described_variables, ²skewness, ³kurtosis
Bar plot
En la siguiente grafica es posible observar la cantidad de autos producidos en Estados Unidos a lo largo del periodo de tiempo de los años 2000 al 2020. Como observación, en el año 2009, se ve la notaria baja en producción debido a la crisis economica de ese mismo año en USA.
Produccion <- data.frame(externa1$Production, externa1$Year)
colnames(Produccion)<-c('Produccion','Año')
ggplot(data = Produccion, aes (x=Año, y=Produccion)) +
geom_bar(stat = "identity", fill="orange") + scale_fill_grey() +
labs(title = "Produccion de autos en USA ",
y="Autos")
USA<-subset(externa1,select=-c(Year))
corrplot(cor(USA),type='upper',order='hclust',addCoef.col='black')
El primer modelo predictivo, en este caso, analiza la variable dependiente siendo la produccion de autos en Estados Unidos, mientras que para las variables exploratorias se toman en cuenta la inflacion, el indice de pobreza, el PIB per Capita, la poblacion, la tasa de desempleo, y la fabricación de autopartes en Estados Unidos.
regresion <- lm(Production~ Inflacion + Pobreza + PIB + Poblacion + Desempleo + Autopartes, data=externa1)
summary (regresion)
##
## Call:
## lm(formula = Production ~ Inflacion + Pobreza + PIB + Poblacion +
## Desempleo + Autopartes, data = externa1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -353.2 -195.4 2.9 151.9 513.4
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.535e+03 1.192e+04 0.380 0.7095
## Inflacion 5.299e+01 7.411e+01 0.715 0.4864
## Pobreza -3.493e+02 5.939e+02 -0.588 0.5658
## PIB -2.616e-01 8.870e-02 -2.949 0.0106 *
## Poblacion 2.454e-05 5.586e-05 0.439 0.6672
## Desempleo -9.185e+01 9.657e+01 -0.951 0.3577
## Autopartes 2.409e-02 1.538e-03 15.661 2.87e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 267.2 on 14 degrees of freedom
## Multiple R-squared: 0.9844, Adjusted R-squared: 0.9777
## F-statistic: 147.3 on 6 and 14 DF, p-value: 7.853e-12
datos_nuevos <- data.frame(Inflacion=2, Pobreza=1, PIB=47195, Poblacion=325122128, Desempleo =5, Autopartes=636320)
predict(regresion,datos_nuevos)
## 1
## 14793.52
De esta forma, se observa que la variable que tiene mayor significancia para la variable dependiente es la fabricacion de autopartes, explicado en un modelo con R2 de 0.97, por lo que es ampliamente confiable. Este modelo mantiene una tendencia positiva, por lo que, es posible decir que mientras mayor fabricación de autopartes haya, mayor producción de autos. No obstante, igual el PIB tiene cierta signficancia pero con tendencia negativa.
effect_plot(regresion,pred=Autopartes,interval=TRUE)
El segundo modelo predictivo, en este caso, analiza la variable dependiente siendo la venta de autos en Estados Unidos, mientras que para las variables exploratorias igual se toman en cuenta la inflacion, el indice de pobreza, el PIB per Capita, la poblacion, la tasa de desempleo, y la fabricación de autopartes en Estados Unidos.
regresion2 <- lm(Sales~ Inflacion + Pobreza + PIB + Poblacion + Desempleo + Autopartes, data=externa1)
summary (regresion2)
##
## Call:
## lm(formula = Sales ~ Inflacion + Pobreza + PIB + Poblacion +
## Desempleo + Autopartes, data = externa1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -511.56 -258.33 27.97 179.05 697.03
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.133e+04 1.729e+04 1.233 0.238
## Inflacion -1.057e+02 1.075e+02 -0.984 0.342
## Pobreza -1.475e+03 8.612e+02 -1.712 0.109
## PIB -1.234e-01 1.286e-01 -0.960 0.354
## Poblacion -3.456e-05 8.099e-05 -0.427 0.676
## Desempleo -2.424e+02 1.400e+02 -1.731 0.105
## Autopartes 2.178e-02 2.231e-03 9.762 1.26e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 387.5 on 14 degrees of freedom
## Multiple R-squared: 0.9713, Adjusted R-squared: 0.959
## F-statistic: 79.02 on 6 and 14 DF, p-value: 5.461e-10
datos_nuevos2 <- data.frame(Inflacion=2, Pobreza=1, PIB=47195, Poblacion=325122128, Desempleo =5, Autopartes=636320)
predict(regresion2,datos_nuevos2)
## 1
## 15224.71
De esta forma, se puede observar que la unica variable que igual tiene significancia en la variable dependiente es la fabricacion de autopartes, esto explicado en un modelo con R2 de 0.95. Este modelo mantiene una tendencia positiva, por lo que es posible decir que mientras mayor sea la fabricación de autopartes, mayores serán las ventas
effect_plot(regresion2,pred=Autopartes,interval=TRUE)
Despues de analizar ambos modelos, es posible decir que la variable con mayor signficancia es la fabricacion de autopartes tanto para la producción, como para las ventas de coches en Estados Unidos. Por lo cual, es importante validar su desempeño a lo largo del periodo de tiempo y estar al tanto de su compartamiento.