Regresión lineal simple de la Ley de Moore

Ley de moore

Para este ejercicio se utilizarán datos de los microchips comerciales de gama alta año tras año desde 1974 hasta 2018.
Importar datos

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(prettydoc)
library(readr)
moorel <- read_csv("u1a9.csv", col_types = cols(Anio = col_number(), 
    Transistores = col_number(), Tamanio = col_number()))

Conociendo los datos

glimpse(moorel)

## Rows: 30
## Columns: 3
## $ Anio         <dbl> 1974, 1976, 1978, 1979, 1982, 1985, 1988, 1989, 1993, ...
## $ Transistores <dbl> 4500, 6500, 29000, 29000, 134000, 275000, 250000, 1180...
## $ Tamanio      <dbl> 1500, 1500, 1500, 1500, 1500, 1400, 1230, 800, 600, 35...

Resumen estadístico

summary(moorel)

##       Anio       Transistores          Tamanio      
##  Min.   :1974   Min.   :4.500e+03   Min.   :  10.0  
##  1st Qu.:1990   1st Qu.:1.660e+06   1st Qu.:  32.0  
##  Median :2002   Median :5.000e+07   Median : 350.0  
##  Mean   :2000   Mean   :1.785e+09   Mean   : 492.2  
##  3rd Qu.:2011   3rd Qu.:2.200e+09   3rd Qu.: 750.0  
##  Max.   :2018   Max.   :1.000e+10   Max.   :1500.0

Matriz de diagramas de dispersión

pairs(moorel)

Matriz de diagramas de correlación

cor(moorel)

##                    Anio Transistores    Tamanio
## Anio          1.0000000    0.6875046 -0.9504936
## Transistores  0.6875046    1.0000000 -0.4967278
## Tamanio      -0.9504936   -0.4967278  1.0000000

En esta matriz de correlaciones, se puede notar que entre el año y el tamaño existe una correlación inversa, pues entre una variable crece la otra decrece, estas dos en maneras similares pero en sentido contrario.

Prueba de correlación de pearson

El coeficiente de correlación de Pearson es una prueba que mide la relación estadística entre dos variables continuas. Si la asociación entre los elementos no es lineal, entonces el coeficiente no se encuentra representado adecuadamente.

# Prueba de correlación de pearson para el tamaño con respecto al año
cor.test(x = moorel$Anio, y = moorel$Tamanio, method = "pearson", digits = 3)

## 
##  Pearson's product-moment correlation
## 
## data:  moorel$Anio and moorel$Tamanio
## t = -16.185, df = 28, p-value = 9.6e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.9764079 -0.8975889
## sample estimates:
##        cor 
## -0.9504936

# Prueba de correlación de pearson para los transistores con respecto al año 
cor.test(x = moorel$Anio, y = moorel$Transistores, method = "pearson", digits = 3)

## 
##  Pearson's product-moment correlation
## 
## data:  moorel$Anio and moorel$Transistores
## t = 5.0097, df = 28, p-value = 2.701e-05
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4349722 0.8397731
## sample estimates:
##       cor 
## 0.6875046

Después de hacer la prueba de pearsons, solamente se confirma lo que con la prueba anterior se dijo, existe una correlación más directa entre el tamaño con respecto al año que con el número de transistores con respecto al año.

library(GGally)

## Loading required package: ggplot2

## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2

ggpairs(moorel, lower=list(continuous = "smooth"), diag = list(continuous = "bar"), axisLabels = "none")

## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

De lo analizado hasta aquí, podemos concluír:

La variable tamaño está correlacionada inversamente, es decir, cada año que avanza, la arquitectura del microprocesador es menor (más transistores en un espacio menor).
El coeficiente de correlación de Pearson es bastante alto: -0.9504936 , y el valor de P es significativo (p < 2.701e-05). Esto indica una correlación intensa, pero inversa.
Podría tener sentido generar una correlación lineal simple solamente aplicada a estas dos variables, sin embargo no sería lo correcto realmente pues necesitas de las tres variables en armonía para mejorar la eficiencia de los microprocesadores.

Modelo de regresión lineal simple

modelo.lineal <- lm(Tamanio ~ Anio, data = moorel)
summary(modelo.lineal)

## 
## Call:
## lm(formula = Tamanio ~ Anio, data = moorel)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -333.59 -129.40  -20.87  142.86  306.22 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 82516.299   5067.873   16.28 8.25e-16 ***
## Anio          -41.019      2.534  -16.18 9.60e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 180.6 on 28 degrees of freedom
## Multiple R-squared:  0.9034, Adjusted R-squared:    0.9 
## F-statistic:   262 on 1 and 28 DF,  p-value: 9.6e-16

Ecuación de la recta de mínimos cuadrados

\[ 82516.299 - 41.019x \]

Intervalos de confianza

confint(modelo.lineal)

##                   2.5 %      97.5 %
## (Intercept) 72135.23063 92897.36716
## Anio          -46.21019   -35.82761

Representación gráfica del modelo

ggplot(data = moorel, mapping = aes(x = Anio, y = Tamanio)) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "green") +
labs(title = "Volumen ~ Diámetro", x = "Diámetro", y = "Volumen") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5))

## `geom_smooth()` using formula 'y ~ x'

## Verificar condiciones para aceptar o no el modelo

Para evaluar las condiciones que permiten decir que el modelo es válido, se hará un análisis de resultados.

par(mfrow = c(1, 2))
plot(modelo.lineal)

## Contraste de hipótesis (normalidad de los residuos)

Según el método de prueba de Shapiro-wilk El test de Shapiro-Wilks plantea la hipótesis nula que una muestra proviene de una distribución normal. Eligimos un nivel de significanza, por ejemplo 0,05, y tenemos una hipótesis alternativa que sostiene que la distribución no es normal.

shapiro.test(modelo.lineal$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo.lineal$residuals
## W = 0.96421, p-value = 0.3949

Según el modelo de prueba de Sairnov Cosmograv

La prueba de Kolmogorov-Smirnov para una muestra es un procedimiento de “bondad de ajuste”, que permite medir el grado de concordancia existente entre la distribución de un conjunto de datos y una distribución teórica específica. Su objetivo es señalar si los datos provienen de una población que tiene la distribución teórica especificada, es decir, contrasta si las observaciones podrían razonablemente proceder de la distribución especificada.

Residuales * Test de Breush-Pagan

library(lmtest)

## Loading required package: zoo

## 
## Attaching package: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

bptest(modelo.lineal)

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo.lineal
## BP = 0.51739, df = 1, p-value = 0.472

Análisis gráfico de autocorrelación de los residuos

ggplot(data = moorel, aes(x =seq_along(modelo.lineal$residuals), y= modelo.lineal$residuals))+
  geom_point(aes(color=modelo.lineal$residuals))+
  geom_line(size=0.3)+
  labs(title = "Distribución de los residuos", x="index", y="residuo")+
  geom_hline(yintercept = 0)+
  theme(plot.title = element_text(hjust=0.5), legend.position= "non")

Aqui se aprecia que la correlación de los residuos con el test de Breush-Pagan está muy separada, con lo que se puede decir que los residuos no se pueden considerar.

#Residuos estudentizados
studentized_residual <- rstudent(modelo.lineal)
which(abs(studentized_residual)>3)

## named integer(0)

Gráfica de residuos estudentizados

library(car)

## Loading required package: carData

## 
## Attaching package: 'car'

## The following object is masked from 'package:dplyr':
## 
##     recode

summary(influence(model=modelo.lineal))

##              Length Class  Mode   
## hat          30     -none- numeric
## coefficients 60     -none- numeric
## sigma        30     -none- numeric
## wt.res       30     -none- numeric

influencePlot(model=modelo.lineal)

##       StudRes        Hat       CookD
## 1  -0.2677095 0.16304804 0.007220305
## 2   0.2178896 0.14362037 0.004121203
## 5   1.7028950 0.09478866 0.142180863
## 6   1.8368169 0.07568916 0.127342941
## 10 -1.9783419 0.03762142 0.069289445
## 30  1.6194901 0.09951431 0.136983416

Esto anterior nos dice que entre los residuos hay dos cúmulos de residuos, pegados a (0.04, -2) y en (0.10, 2), siendo datos que pueden considerarse para otro análisis, pero para este no.

Redacción

En este análisis de correlación lineal, se puede apreciar claramente que existe una relación en las variables de número de transistores y tamaño de arquitectura con respecto al año, no se puede inferir que están directamente relacionada, pero si se puede asegurar que hay una correlación inversa entre el año y el tamaño de la arquitectura, todo esto según los esta muestra.

De igual modo los diferentes tipos de análisis de correlación solo nos han servido para confirmar lo que se supuso desde el primer análisis, solamente que en la parte de los residuos, uno nos dice que los residuos no deben de ser considerados para nada, y los otros nos describen que para esta muestra no son necesarios los residuos para formar parte de una hipotética estadística o respuesta final acerca de la ley de Moore, sino que pudieran tener relación pero en otro tipo de análisis, pues esta ley de Moore se mueve en una función exponencial en toda su trayectoria, y no en una lineal, como lo es un análisis de correlación lineal.

U1A14

Jorge Valenzuela Parra

3/10/2020

Regresión lineal simple de la Ley de Moore

Modelo de regresión lineal simple

Redacción