La base de datos externa utilizada en este caso fue proporcionada por Bureau Transports, en donde se visualiza la produccion y ventas de autos en Estados Unidos durante 2000 a 2020. De igual forma, se utilizaron otras bases obtenidas del Banco Mundial para recabar datos como la inflacion, el indice de Pobreza, y el PIB per Capita en USA.

library(foreign)
library(dplyr)         
library(forcats)     
library(janitor)      
library(Hmisc)      
library(psych) 
library(naniar)       
library(dlookr)       
library(kableExtra)
library(readr)
library(corrplot)
library(jtools) 
library(lmtest) 
library(car) 
library(olsrr) 
library(gmodels)
library(factoextra)
library(plotrix)
library(tidyr) 
library(knitr)
library(pollster)
library(epiDisplay)
library(modeest)
library(RColorBrewer)

Seccion 1

Limpieza, Transformación, y Organización de Bases de Datos

#file.choose()
externa1 <- read.csv("/Users/Karen/Downloads/Evidencia 2 FORM/Base EUA nueva.csv")

Entender base de datos

summary (externa1)
##      Year             Production        Sales         Inflacion     
##  Length:21          Min.   : 5710   Min.   : 7868   Min.   :-0.360  
##  Class :character   1st Qu.:10336   1st Qu.:11582   1st Qu.: 1.590  
##  Mode  :character   Median :11260   Median :13638   Median : 2.130  
##                     Mean   :10705   Mean   :12664   Mean   : 2.126  
##                     3rd Qu.:11960   3rd Qu.:13880   3rd Qu.: 2.850  
##                     Max.   :12774   Max.   :14923   Max.   : 3.840  
##     Pobreza            PIB          Poblacion           Desempleo    
##  Min.   :0.7000   Min.   :36330   Min.   :282162411   Min.   :3.670  
##  1st Qu.:1.0000   1st Qu.:44123   1st Qu.:295516599   1st Qu.:4.620  
##  Median :1.0000   Median :48651   Median :309327143   Median :5.530  
##  Mean   :0.9857   Mean   :50062   Mean   :308023794   Mean   :5.985  
##  3rd Qu.:1.0000   3rd Qu.:56763   3rd Qu.:320738994   3rd Qu.:7.370  
##  Max.   :1.2000   Max.   :65095   Max.   :331501080   Max.   :9.630  
##    Autopartes    
##  Min.   :300543  
##  1st Qu.:466904  
##  Median :501311  
##  Mean   :518449  
##  3rd Qu.:601972  
##  Max.   :668450
str (externa1)
## 'data.frame':    21 obs. of  9 variables:
##  $ Year      : chr  "01/01/2000" "01/01/2001" "01/01/2002" "01/01/2003" ...
##  $ Production: num  12774 11425 12280 12087 11960 ...
##  $ Sales     : num  14923 14373 13830 13638 13880 ...
##  $ Inflacion : num  3.38 2.83 1.59 2.27 2.68 3.39 3.23 2.85 3.84 -0.36 ...
##  $ Pobreza   : num  0.7 0.7 0.7 1 1 1 1 1 1 1 ...
##  $ PIB       : num  36330 37134 37998 39490 41725 ...
##  $ Poblacion : num  2.82e+08 2.85e+08 2.88e+08 2.90e+08 2.93e+08 ...
##  $ Desempleo : num  3.99 4.73 5.78 5.99 5.53 5.08 4.62 4.62 5.78 9.25 ...
##  $ Autopartes: num  466904 425152 470493 493732 491839 ...

Tecnicas de limpieza

Tecnica 1 Convertir tipos de datos

Cambiar de caracter a fecha

externa1$Year <-as.Date(externa1$Year,format ="%d/%m/%Y")
tibble(externa1)
## # A tibble: 21 × 9
##    Year       Production  Sales Inflacion Pobreza    PIB Pobla…¹ Desem…² Autop…³
##    <date>          <dbl>  <dbl>     <dbl>   <dbl>  <dbl>   <dbl>   <dbl>   <dbl>
##  1 2000-01-01     12774. 14923.      3.38     0.7 36330.  2.82e8    3.99  466904
##  2 2001-01-01     11425. 14373.      2.83     0.7 37134.  2.85e8    4.73  425152
##  3 2002-01-01     12280. 13830.      1.59     0.7 37998.  2.88e8    5.78  470493
##  4 2003-01-01     12087. 13638.      2.27     1   39490.  2.90e8    5.99  493732
##  5 2004-01-01     11960. 13880.      2.68     1   41725.  2.93e8    5.53  491839
##  6 2005-01-01     11947. 14021.      3.39     1   44123.  2.96e8    5.08  502939
##  7 2006-01-01     11260. 13335.      3.23     1   46302   2.98e8    4.62  501311
##  8 2007-01-01     10752. 12687.      2.85     1   48050.  3.01e8    4.62  498481
##  9 2008-01-01      8672. 10108.      3.84     1   48570.  3.04e8    5.78  409349
## 10 2009-01-01      5710.  7868.     -0.36     1   47195.  3.07e8    9.25  300543
## # … with 11 more rows, and abbreviated variable names ¹​Poblacion, ²​Desempleo,
## #   ³​Autopartes

Tecnica 2 Valores faltantes

Se realizó esta tecnica con la finalidad de conocer si en la base de datos existen NA o similares que no sean validos para la información

#¿Tenemos NA en la base de datos?
sum(is.na(externa1))
## [1] 0
#¿Tenemos NA por variable?
sapply(externa1,function(x)sum(is.na(x)))
##       Year Production      Sales  Inflacion    Pobreza        PIB  Poblacion 
##          0          0          0          0          0          0          0 
##  Desempleo Autopartes 
##          0          0
#En caso de tener, borrar los registros NA 
externa1 <- na.omit(externa1)
summary(externa1)
##       Year              Production        Sales         Inflacion     
##  Min.   :2000-01-01   Min.   : 5710   Min.   : 7868   Min.   :-0.360  
##  1st Qu.:2005-01-01   1st Qu.:10336   1st Qu.:11582   1st Qu.: 1.590  
##  Median :2010-01-01   Median :11260   Median :13638   Median : 2.130  
##  Mean   :2009-12-31   Mean   :10705   Mean   :12664   Mean   : 2.126  
##  3rd Qu.:2015-01-01   3rd Qu.:11960   3rd Qu.:13880   3rd Qu.: 2.850  
##  Max.   :2020-01-01   Max.   :12774   Max.   :14923   Max.   : 3.840  
##     Pobreza            PIB          Poblacion           Desempleo    
##  Min.   :0.7000   Min.   :36330   Min.   :282162411   Min.   :3.670  
##  1st Qu.:1.0000   1st Qu.:44123   1st Qu.:295516599   1st Qu.:4.620  
##  Median :1.0000   Median :48651   Median :309327143   Median :5.530  
##  Mean   :0.9857   Mean   :50062   Mean   :308023794   Mean   :5.985  
##  3rd Qu.:1.0000   3rd Qu.:56763   3rd Qu.:320738994   3rd Qu.:7.370  
##  Max.   :1.2000   Max.   :65095   Max.   :331501080   Max.   :9.630  
##    Autopartes    
##  Min.   :300543  
##  1st Qu.:466904  
##  Median :501311  
##  Mean   :518449  
##  3rd Qu.:601972  
##  Max.   :668450

Variables

¿Cuántos registros y variables tiene la base de datos?

dim(externa1)
## [1] 21  9

Clasificación de variables

Las variables en esta base de datos corresponden a la produccion y ventas de autos en Estados Unidos, asi como indicadores generales como la inflacion, indice de Pobreza y el PIB per Capita de USA durante el periodo de tiempo de los años 2000 a 2020.

Variableex <- c("`Year`", "`Production`", "`Sales`", "`Inflacion`", "`Pobreza`", "`PIB`", "`Poblacion`", "`Desempleo`", "`Autopartes`")
Tipoex <- c("Cuantitativa (discreta)", "Cuantitativa (continua)", "Cuantitativa (continua)", "Cuantitativa (continua)", "Cuantitativa (continua)", "Cuantitativa (continua)", "Cuantitativa (discreta)","Cuantitativa (continua)","Cuantitativa (discreta)")
Escalaex <- c("Razon", "Intervalo", "Intervalo", "Intervalo", "Intervalo", "Intervalo", "Razon", "Intervalo", "Razon")
Tableex <- data.frame (Variableex, Tipoex, Escalaex)
knitr::kable(Tableex)
Variableex Tipoex Escalaex
Year Cuantitativa (discreta) Razon
Production Cuantitativa (continua) Intervalo
Sales Cuantitativa (continua) Intervalo
Inflacion Cuantitativa (continua) Intervalo
Pobreza Cuantitativa (continua) Intervalo
PIB Cuantitativa (continua) Intervalo
Poblacion Cuantitativa (discreta) Razon
Desempleo Cuantitativa (continua) Intervalo
Autopartes Cuantitativa (discreta) Razon

Seccion 2

Análisis Exploratorio de las Bases de Datos

En la tabla se presentan los datos estadisticos descriptivos para todas las variables de la base de datos externa en USA, en donde es posible observar, que el promedio de producción es de 1.07 a lo largo de los años, mientras que la inflacion de 2.13, el indice de Pobreza de 9.86, y el PIB per Capita de 5.01 el cual ha tenido una desviacion estandar de 8.79 arrojando que es el valor con mayor dispersion durante el periodo de tiempo de 2000 a 2020 en Estados Unidos.

Aunado a eso, el promedio de la tasa de desempleo es de 5.99, mientras que el promedio de la fabricacion de autopartes de Estados Unidos es de 5.18.

describe (externa1)
## # A tibble: 8 × 26
##   describe…¹     n    na    mean      sd se_mean    IQR skewn…² kurto…³      p00
##   <chr>      <int> <int>   <dbl>   <dbl>   <dbl>  <dbl>   <dbl>   <dbl>    <dbl>
## 1 Production    21     0 1.07e+4 1.79e+3 3.91e+2 1.62e3 -1.42     1.68   5.71e+3
## 2 Sales         21     0 1.27e+4 1.91e+3 4.18e+2 2.30e3 -1.28     0.753  7.87e+3
## 3 Inflacion     21     0 2.13e+0 1.07e+0 2.34e-1 1.26e0 -0.590    0.239 -3.6 e-1
## 4 Pobreza       21     0 9.86e-1 1.39e-1 3.03e-2 0      -0.834    1.27   7   e-1
## 5 PIB           21     0 5.01e+4 8.79e+3 1.92e+3 1.26e4  0.0796  -0.966  3.63e+4
## 6 Poblacion     21     0 3.08e+8 1.53e+7 3.35e+6 2.52e7 -0.157   -1.22   2.82e+8
## 7 Desempleo     21     0 5.99e+0 1.84e+0 4.02e-1 2.75e0  0.766   -0.624  3.67e+0
## 8 Autopartes    21     0 5.18e+5 9.74e+4 2.13e+4 1.35e5 -0.157   -0.321  3.01e+5
## # … with 16 more variables: p01 <dbl>, p05 <dbl>, p10 <dbl>, p20 <dbl>,
## #   p25 <dbl>, p30 <dbl>, p40 <dbl>, p50 <dbl>, p60 <dbl>, p70 <dbl>,
## #   p75 <dbl>, p80 <dbl>, p90 <dbl>, p95 <dbl>, p99 <dbl>, p100 <dbl>, and
## #   abbreviated variable names ¹​described_variables, ²​skewness, ³​kurtosis

Graficos

Bar plot

En la siguiente grafica es posible observar la cantidad de autos producidos en Estados Unidos a lo largo del periodo de tiempo de los años 2000 al 2020. Como observación, en el año 2009, se ve la notaria baja en producción debido a la crisis economica de ese mismo año en USA.

Produccion <- data.frame(externa1$Production, externa1$Year)
colnames(Produccion)<-c('Produccion','Año')

ggplot(data = Produccion, aes (x=Año, y=Produccion)) +
  geom_bar(stat = "identity", fill="orange") + scale_fill_grey() + 
  labs(title = "Produccion de autos en USA ", 
        y="Autos")

Seccion 2

Modelos predictivos

USA<-subset(externa1,select=-c(Year))
corrplot(cor(USA),type='upper',order='hclust',addCoef.col='black') 

Modelo 1

El primer modelo predictivo, en este caso, analiza la variable dependiente siendo la produccion de autos en Estados Unidos, mientras que para las variables exploratorias se toman en cuenta la inflacion, el indice de pobreza, el PIB per Capita, la poblacion, la tasa de desempleo, y la fabricación de autopartes en Estados Unidos.

regresion <- lm(Production~ Inflacion + Pobreza + PIB + Poblacion + Desempleo + Autopartes, data=externa1)
summary (regresion)
## 
## Call:
## lm(formula = Production ~ Inflacion + Pobreza + PIB + Poblacion + 
##     Desempleo + Autopartes, data = externa1)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -353.2 -195.4    2.9  151.9  513.4 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4.535e+03  1.192e+04   0.380   0.7095    
## Inflacion    5.299e+01  7.411e+01   0.715   0.4864    
## Pobreza     -3.493e+02  5.939e+02  -0.588   0.5658    
## PIB         -2.616e-01  8.870e-02  -2.949   0.0106 *  
## Poblacion    2.454e-05  5.586e-05   0.439   0.6672    
## Desempleo   -9.185e+01  9.657e+01  -0.951   0.3577    
## Autopartes   2.409e-02  1.538e-03  15.661 2.87e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 267.2 on 14 degrees of freedom
## Multiple R-squared:  0.9844, Adjusted R-squared:  0.9777 
## F-statistic: 147.3 on 6 and 14 DF,  p-value: 7.853e-12
datos_nuevos <- data.frame(Inflacion=2, Pobreza=1, PIB=47195, Poblacion=325122128, Desempleo =5, Autopartes=636320)
predict(regresion,datos_nuevos)
##        1 
## 14793.52

De esta forma, se observa que la variable que tiene mayor significancia para la variable dependiente es la fabricacion de autopartes, explicado en un modelo con R2 de 0.97, por lo que es ampliamente confiable. Este modelo mantiene una tendencia positiva, por lo que, es posible decir que mientras mayor fabricación de autopartes haya, mayor producción de autos. No obstante, igual el PIB tiene cierta signficancia pero con tendencia negativa.

effect_plot(regresion,pred=Autopartes,interval=TRUE)

Modelo 2

El segundo modelo predictivo, en este caso, analiza la variable dependiente siendo la venta de autos en Estados Unidos, mientras que para las variables exploratorias igual se toman en cuenta la inflacion, el indice de pobreza, el PIB per Capita, la poblacion, la tasa de desempleo, y la fabricación de autopartes en Estados Unidos.

regresion2 <- lm(Sales~ Inflacion + Pobreza + PIB + Poblacion + Desempleo + Autopartes, data=externa1)
summary (regresion2)
## 
## Call:
## lm(formula = Sales ~ Inflacion + Pobreza + PIB + Poblacion + 
##     Desempleo + Autopartes, data = externa1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -511.56 -258.33   27.97  179.05  697.03 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  2.133e+04  1.729e+04   1.233    0.238    
## Inflacion   -1.057e+02  1.075e+02  -0.984    0.342    
## Pobreza     -1.475e+03  8.612e+02  -1.712    0.109    
## PIB         -1.234e-01  1.286e-01  -0.960    0.354    
## Poblacion   -3.456e-05  8.099e-05  -0.427    0.676    
## Desempleo   -2.424e+02  1.400e+02  -1.731    0.105    
## Autopartes   2.178e-02  2.231e-03   9.762 1.26e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 387.5 on 14 degrees of freedom
## Multiple R-squared:  0.9713, Adjusted R-squared:  0.959 
## F-statistic: 79.02 on 6 and 14 DF,  p-value: 5.461e-10
datos_nuevos2 <- data.frame(Inflacion=2, Pobreza=1, PIB=47195, Poblacion=325122128, Desempleo =5, Autopartes=636320)
predict(regresion2,datos_nuevos2)
##        1 
## 15224.71

De esta forma, se puede observar que la unica variable que igual tiene significancia en la variable dependiente es la fabricacion de autopartes, esto explicado en un modelo con R2 de 0.95. Este modelo mantiene una tendencia positiva, por lo que es posible decir que mientras mayor sea la fabricación de autopartes, mayores serán las ventas

effect_plot(regresion2,pred=Autopartes,interval=TRUE)

Despues de analizar ambos modelos, es posible decir que la variable con mayor signficancia es la fabricacion de autopartes tanto para la producción, como para las ventas de coches en Estados Unidos. Por lo cual, es importante validar su desempeño a lo largo del periodo de tiempo y estar al tanto de su compartamiento.