Regresión lineal simple de la Ley de Moore
Ley de moore
Para este ejercicio se utilizarán datos de los microchips comerciales de gama alta año tras año desde 1974 hasta 2018.
Importar datos
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(prettydoc)
library(readr)
moorel <- read_csv("u1a9.csv", col_types = cols(Anio = col_number(),
Transistores = col_number(), Tamanio = col_number()))- Conociendo los datos
## Rows: 30
## Columns: 3
## $ Anio <dbl> 1974, 1976, 1978, 1979, 1982, 1985, 1988, 1989, 1993, ...
## $ Transistores <dbl> 4500, 6500, 29000, 29000, 134000, 275000, 250000, 1180...
## $ Tamanio <dbl> 1500, 1500, 1500, 1500, 1500, 1400, 1230, 800, 600, 35...
- Resumen estadístico
## Anio Transistores Tamanio
## Min. :1974 Min. :4.500e+03 Min. : 10.0
## 1st Qu.:1990 1st Qu.:1.660e+06 1st Qu.: 32.0
## Median :2002 Median :5.000e+07 Median : 350.0
## Mean :2000 Mean :1.785e+09 Mean : 492.2
## 3rd Qu.:2011 3rd Qu.:2.200e+09 3rd Qu.: 750.0
## Max. :2018 Max. :1.000e+10 Max. :1500.0
- Matriz de diagramas de dispersión
- Matriz de diagramas de correlación
## Anio Transistores Tamanio
## Anio 1.0000000 0.6875046 -0.9504936
## Transistores 0.6875046 1.0000000 -0.4967278
## Tamanio -0.9504936 -0.4967278 1.0000000
En esta matriz de correlaciones, se puede notar que entre el año y el tamaño existe una correlación inversa, pues entre una variable crece la otra decrece, estas dos en maneras similares pero en sentido contrario.
- Prueba de correlación de pearson
El coeficiente de correlación de Pearson es una prueba que mide la relación estadística entre dos variables continuas. Si la asociación entre los elementos no es lineal, entonces el coeficiente no se encuentra representado adecuadamente.
# Prueba de correlación de pearson para el tamaño con respecto al año
cor.test(x = moorel$Anio, y = moorel$Tamanio, method = "pearson", digits = 3)##
## Pearson's product-moment correlation
##
## data: moorel$Anio and moorel$Tamanio
## t = -16.185, df = 28, p-value = 9.6e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.9764079 -0.8975889
## sample estimates:
## cor
## -0.9504936
# Prueba de correlación de pearson para los transistores con respecto al año
cor.test(x = moorel$Anio, y = moorel$Transistores, method = "pearson", digits = 3)##
## Pearson's product-moment correlation
##
## data: moorel$Anio and moorel$Transistores
## t = 5.0097, df = 28, p-value = 2.701e-05
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4349722 0.8397731
## sample estimates:
## cor
## 0.6875046
Después de hacer la prueba de pearsons, solamente se confirma lo que con la prueba anterior se dijo, existe una correlación más directa entre el tamaño con respecto al año que con el número de transistores con respecto al año.
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
ggpairs(moorel, lower=list(continuous = "smooth"), diag = list(continuous = "bar"), axisLabels = "none")## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
De lo analizado hasta aquí, podemos concluír:
La variable tamaño está correlacionada inversamente, es decir, cada año que avanza, la arquitectura del microprocesador es menor (más transistores en un espacio menor).
El coeficiente de correlación de Pearson es bastante alto: -0.9504936 , y el valor de P es significativo (p < 2.701e-05). Esto indica una correlación intensa, pero inversa.
Podría tener sentido generar una correlación lineal simple solamente aplicada a estas dos variables, sin embargo no sería lo correcto realmente pues necesitas de las tres variables en armonía para mejorar la eficiencia de los microprocesadores.
Modelo de regresión lineal simple
##
## Call:
## lm(formula = Tamanio ~ Anio, data = moorel)
##
## Residuals:
## Min 1Q Median 3Q Max
## -333.59 -129.40 -20.87 142.86 306.22
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 82516.299 5067.873 16.28 8.25e-16 ***
## Anio -41.019 2.534 -16.18 9.60e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 180.6 on 28 degrees of freedom
## Multiple R-squared: 0.9034, Adjusted R-squared: 0.9
## F-statistic: 262 on 1 and 28 DF, p-value: 9.6e-16
- Ecuación de la recta de mínimos cuadrados
\[ 82516.299 - 41.019x \]
- Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) 72135.23063 92897.36716
## Anio -46.21019 -35.82761
- Representación gráfica del modelo
ggplot(data = moorel, mapping = aes(x = Anio, y = Tamanio)) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "green") +
labs(title = "Volumen ~ Diámetro", x = "Diámetro", y = "Volumen") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5)) ## `geom_smooth()` using formula 'y ~ x'
## Verificar condiciones para aceptar o no el modelo
- Para evaluar las condiciones que permiten decir que el modelo es válido, se hará un análisis de resultados.
## Contraste de hipótesis (normalidad de los residuos)
- Según el método de prueba de Shapiro-wilk El test de Shapiro-Wilks plantea la hipótesis nula que una muestra proviene de una distribución normal. Eligimos un nivel de significanza, por ejemplo 0,05, y tenemos una hipótesis alternativa que sostiene que la distribución no es normal.
##
## Shapiro-Wilk normality test
##
## data: modelo.lineal$residuals
## W = 0.96421, p-value = 0.3949
- Según el modelo de prueba de Sairnov Cosmograv
La prueba de Kolmogorov-Smirnov para una muestra es un procedimiento de “bondad de ajuste”, que permite medir el grado de concordancia existente entre la distribución de un conjunto de datos y una distribución teórica específica. Su objetivo es señalar si los datos provienen de una población que tiene la distribución teórica especificada, es decir, contrasta si las observaciones podrían razonablemente proceder de la distribución especificada.
Residuales * Test de Breush-Pagan
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
##
## studentized Breusch-Pagan test
##
## data: modelo.lineal
## BP = 0.51739, df = 1, p-value = 0.472
- Análisis gráfico de autocorrelación de los residuos
ggplot(data = moorel, aes(x =seq_along(modelo.lineal$residuals), y= modelo.lineal$residuals))+
geom_point(aes(color=modelo.lineal$residuals))+
geom_line(size=0.3)+
labs(title = "Distribución de los residuos", x="index", y="residuo")+
geom_hline(yintercept = 0)+
theme(plot.title = element_text(hjust=0.5), legend.position= "non") Aqui se aprecia que la correlación de los residuos con el test de Breush-Pagan está muy separada, con lo que se puede decir que los residuos no se pueden considerar.
#Residuos estudentizados
studentized_residual <- rstudent(modelo.lineal)
which(abs(studentized_residual)>3)## named integer(0)
Gráfica de residuos estudentizados
## Loading required package: carData
##
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
##
## recode
## Length Class Mode
## hat 30 -none- numeric
## coefficients 60 -none- numeric
## sigma 30 -none- numeric
## wt.res 30 -none- numeric
## StudRes Hat CookD
## 1 -0.2677095 0.16304804 0.007220305
## 2 0.2178896 0.14362037 0.004121203
## 5 1.7028950 0.09478866 0.142180863
## 6 1.8368169 0.07568916 0.127342941
## 10 -1.9783419 0.03762142 0.069289445
## 30 1.6194901 0.09951431 0.136983416
Esto anterior nos dice que entre los residuos hay dos cúmulos de residuos, pegados a (0.04, -2) y en (0.10, 2), siendo datos que pueden considerarse para otro análisis, pero para este no.
Redacción
En este análisis de correlación lineal, se puede apreciar claramente que existe una relación en las variables de número de transistores y tamaño de arquitectura con respecto al año, no se puede inferir que están directamente relacionada, pero si se puede asegurar que hay una correlación inversa entre el año y el tamaño de la arquitectura, todo esto según los esta muestra.
De igual modo los diferentes tipos de análisis de correlación solo nos han servido para confirmar lo que se supuso desde el primer análisis, solamente que en la parte de los residuos, uno nos dice que los residuos no deben de ser considerados para nada, y los otros nos describen que para esta muestra no son necesarios los residuos para formar parte de una hipotética estadística o respuesta final acerca de la ley de Moore, sino que pudieran tener relación pero en otro tipo de análisis, pues esta ley de Moore se mueve en una función exponencial en toda su trayectoria, y no en una lineal, como lo es un análisis de correlación lineal.