Para este ejercicio usaremos los datos de GDP de paises de América del norte descargados de esta página:
https://ourworldindata.org/economic-growth
setwd("~/Esta")
library(readr)
GDP <- read_csv("GDP.csv")
##
## -- Column specification --------------------------------------------------------
## cols(
## year = col_double(),
## mexico = col_double(),
## usa = col_double(),
## canada = col_double()
## )
head(GDP)
## # A tibble: 6 x 4
## year mexico usa canada
## <dbl> <dbl> <dbl> <dbl>
## 1 1900 1374 6252 4630
## 2 1901 1477 6822 4913
## 3 1902 1356 6756 5270
## 4 1903 1493 6955 5260
## 5 1904 1503 6739 5161
## 6 1905 1643 7094 5590
Crear una variable que contenga los datos para México
mex <- GDP$mexico
usa <- GDP$usa
La media de un conjunto de números, algunas ocasiones simplemente llamada el promedio , es la suma de los datos dividida entre el número total de datos.
mediamex <- mean(mex)
mediamex
## [1] 5818.308
mediausa <- mean(usa)
mediausa
## [1] 22958.44
La mediana de un conjunto de números es el número medio en el conjunto (después que los números han sido arreglados del menor al mayor) – o, si hay un número par de datos, la mediana es el promedio de los dos números medios.
medianamex <- median(mex)
medianamex
## [1] 3256
la moda es el valor con mayor frecuencia en una de las distribuciones de datos. Esto va en forma de una columna cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Una distribución trimodal de los datos es en la que encontramos tres modas. En el caso de la distribución uniforme discreta, cuando todos los datos tienen la misma frecuencia, se puede definir las modas como indicado, pero estos valores no tienen utilidad. Por eso algunos matemáticos califican esta distribución como «sin moda».
library(modeest)
mlv(mex, method="mfv")[1]
## [1] 1356
summary(mex)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1356 1872 3256 5818 9946 15803
IQR(mex)
## [1] 8074
boxplot(mex)
library(fdth) #importar paquete
##
## Attaching package: 'fdth'
## The following object is masked from 'package:modeest':
##
## mfv
## The following objects are masked from 'package:stats':
##
## sd, var
dist <- fdt(mex, breaks="Sturges")
dist
## Class limits f rf rf(%) cf cf(%)
## [1342.44,3169.7638) 58 0.50 49.57 58 49.57
## [3169.7638,4997.0875) 9 0.08 7.69 67 57.26
## [4997.0875,6824.4113) 5 0.04 4.27 72 61.54
## [6824.4113,8651.735) 4 0.03 3.42 76 64.96
## [8651.735,10479.059) 21 0.18 17.95 97 82.91
## [10479.059,12306.383) 8 0.07 6.84 105 89.74
## [12306.383,14133.706) 3 0.03 2.56 108 92.31
## [14133.706,15961.03) 9 0.08 7.69 117 100.00
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual
ordenar datos de menor a mayor
sort (mex)
## [1] 1356 1374 1426 1477 1492 1493 1503 1512 1514 1563 1606 1607
## [13] 1609 1622 1641 1643 1662 1676 1683 1685 1690 1693 1711 1735
## [25] 1741 1811 1829 1843 1870 1872 1904 1919 1926 1932 1933 1935
## [37] 1938 1954 1968 1992 2067 2079 2126 2146 2262 2271 2357 2374
## [49] 2406 2472 2648 2679 2723 2766 2860 2986 3051 3164 3256 3259
## [61] 3380 3525 3657 3906 4325 4558 4852 5124 5509 5841 6214 6442
## [73] 6945 7472 7999 8504 8696 8791 9100 9145 9168 9299 9333 9411
## [85] 9431 9674 9766 9946 10050 10169 10217 10221 10244 10293 10391 10412
## [97] 10433 11236 11300 11311 11338 11364 11480 11812 12193 13018 13474 13713
## [109] 14180 14276 14442 15203 15210 15357 15531 15766 15803
#histogramas
plot(dist, type="fh") #Histograma de frecuencias absolutas
plot(dist, type="rfh") #Histograma de frecuencias relativas
plot(dist, type="cfh") #Histograma de frecuencias acumuladas
#polígonos
plot(dist, type="fp") #polígono de frecuencias absolutas
plot(dist, type="rfp") # polígono de frecuencias relativas
plot(dist, type="cfp") # polígono de frecuencias acumuladas
Varianza, La varianza es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media. Formalmente se calcula como la suma de los residuos al cuadrado divididos entre el total de observaciones
La desviación estándar es la medida de dispersión más común, que indica qué tan dispersos están los datos con respecto a la media. Mientras mayor sea la desviación estándar, mayor será la dispersión de los datos. El símbolo σ (sigma) se utiliza frecuentemente para representar la desviación estándar de una población, mientras que s se utiliza para representar la desviación estándar de una muestra. La variación que es aleatoria o natural de un proceso se conoce comúnmente como ruido.
Gráfico de dispersión (scatterplot)
plot(mex)
Estadística inferencial
La estadística inferencial es una parte de la estadística que comprende los métodos y procedimientos que por medio de la inducción determina propiedades de una población estadística, a partir de una parte de esta. Su objetivo es obtener conclusiones útiles para hacer deducciones sobre una totalidad, basándose en la información numérica de la muestra.
¿De que forma se relaciona el PIB de mex, can, usa?
pairs(GDP)
cor(GDP)
## year mexico usa canada
## year 1.0000000 0.9271500 0.9599462 0.9552651
## mexico 0.9271500 1.0000000 0.9713115 0.9772744
## usa 0.9599462 0.9713115 1.0000000 0.9982661
## canada 0.9552651 0.9772744 0.9982661 1.0000000
Cálculo y representacion de la recta de mínimos cuadrados El comando básico es lm (linear models).
El primer argumento de este comando es una fórmula y ~ x en la que se especifica cuál es la variable respuesta o dependiente (y) y cuál es la variable regresora o independiente (x). El segundo argumento, llamado “data” especifica cuál es el fichero en el que se encuentran las variables. El resultado lo guardamos en un objeto llamado regresion. Este objeto es una lista que contiene toda la información relevante sobre el análisis. Mediante el comando summary obtenemos un resumen de los principales resultados:
regresion <-lm(usa~ mexico, data=GDP)
summary(regresion)
##
## Call:
## lm(formula = usa ~ mexico, data = GDP)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11750.0 -2075.2 -467.8 2428.0 7238.4
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.662e+03 5.320e+02 8.764 1.95e-14 ***
## mexico 3.145e+00 7.179e-02 43.800 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3563 on 115 degrees of freedom
## Multiple R-squared: 0.9434, Adjusted R-squared: 0.943
## F-statistic: 1918 on 1 and 115 DF, p-value: < 2.2e-16