Es el valor monetario total de los bienes y servicios producidos dentro de las fronteras de los Estados Unidos, independientemente de quién posee los activos o la nacionalidad de la mano de obra utilizada en la producción de ese producto.
Para este ejercicio usaremos los datos de GDP de paises de América del norte descargados de esta página:
https://ourworldindata.org/economic-growth
setwd("~/R")
library(readr)
GDP <- read_csv("GDP.csv")
##
## -- Column specification --------------------------------------------------------
## cols(
## year = col_double(),
## mexico = col_double(),
## usa = col_double(),
## canada = col_double()
## )
head(GDP)
## # A tibble: 6 x 4
## year mexico usa canada
## <dbl> <dbl> <dbl> <dbl>
## 1 1900 1374 6252 4630
## 2 1901 1477 6822 4913
## 3 1902 1356 6756 5270
## 4 1903 1493 6955 5260
## 5 1904 1503 6739 5161
## 6 1905 1643 7094 5590
Crear una variable que contenga los datos para México y Canadá
mex <- GDP$mexico
can <- GDP$canada
La media de un conjunto de números, algunas ocasiones simplemente llamada el promedio , es la suma de los datos dividida entre el número total de datos.
mediamex <- mean(mex)
mediamex
## [1] 5818.308
mediausa <- mean(can)
mediausa
## [1] 18531.81
La mediana de un conjunto de números es el número medio en el conjunto (después que los números han sido arreglados del menor al mayor) – o, si hay un número par de datos, la mediana es el promedio de los dos números medios.
-México
medianamex <- median(mex)
medianamex
## [1] 3256
-Canadá
median(can)
## [1] 13644
la moda es el valor con mayor frecuencia en una de las distribuciones de datos. Esto va en forma de una columna cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Una distribución trimodal de los datos es en la que encontramos tres modas. En el caso de la distribución uniforme discreta, cuando todos los datos tienen la misma frecuencia, se puede definir las modas como indicado, pero estos valores no tienen utilidad. Por eso algunos matemáticos califican esta distribución como «sin moda».
-México
library(modeest)
mlv(mex, method="mfv")[1]
## [1] 1356
-canadá
library(modeest)
mfv(can, method="mfv")[1]
## [1] 4630
-México
summary(mex)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1356 1872 3256 5818 9946 15803
IQR(mex)
## [1] 8074
-Canadá
summary(can)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4630 7406 13644 18532 28658 43642
IQR(can)
## [1] 21252
-México
boxplot(mex)
-Canadá
boxplot(can)
library(fdth) #importar paquete
##
## Attaching package: 'fdth'
## The following object is masked from 'package:modeest':
##
## mfv
## The following objects are masked from 'package:stats':
##
## sd, var
dist <- fdt(mex, breaks="Sturges")
dist
## Class limits f rf rf(%) cf cf(%)
## [1342.44,3169.7638) 58 0.50 49.57 58 49.57
## [3169.7638,4997.0875) 9 0.08 7.69 67 57.26
## [4997.0875,6824.4113) 5 0.04 4.27 72 61.54
## [6824.4113,8651.735) 4 0.03 3.42 76 64.96
## [8651.735,10479.059) 21 0.18 17.95 97 82.91
## [10479.059,12306.383) 8 0.07 6.84 105 89.74
## [12306.383,14133.706) 3 0.03 2.56 108 92.31
## [14133.706,15961.03) 9 0.08 7.69 117 100.00
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual
library(fdth) #importar paquete
dist <- fdt(can, breaks="Sturges")
dist
## Class limits f rf rf(%) cf cf(%)
## [4583.7,9520.54) 41 0.35 35.04 41 35.04
## [9520.54,14457.38) 21 0.18 17.95 62 52.99
## [14457.38,19394.22) 9 0.08 7.69 71 60.68
## [19394.22,24331.06) 9 0.08 7.69 80 68.38
## [24331.06,29267.9) 9 0.08 7.69 89 76.07
## [29267.9,34204.74) 10 0.09 8.55 99 84.62
## [34204.74,39141.58) 5 0.04 4.27 104 88.89
## [39141.58,44078.42) 13 0.11 11.11 117 100.00
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual
#histogramas
plot(dist, type="fh") #Histograma de frecuencias absolutas
plot(dist, type="rfh") #Histograma de frecuencias relativas
plot(dist, type="cfh") #Histograma de frecuencias acumuladas
#polígonos
plot(dist, type="fp") #polígono de frecuencias absolutas
plot(dist, type="rfp") # polígono de frecuencias relativas
plot(dist, type="cfp") # polígono de frecuencias acumuladas
Varianza, La varianza es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media. Formalmente se calcula como la suma de los residuos al cuadrado divididos entre el total de observaciones
La desviación estándar es la medida de dispersión más común, que indica qué tan dispersos están los datos con respecto a la media. Mientras mayor sea la desviación estándar, mayor será la dispersión de los datos.
El símbolo σ (sigma) se utiliza frecuentemente para representar la desviación estándar de una población, mientras que s se utiliza para representar la desviación estándar de una muestra. La variación que es aleatoria o natural de un proceso se conoce comúnmente como ruido.
-México
plot(mex)
-Canadá
plot(can)
Estadística inferencial
La estadística inferencial es una parte de la estadística que comprende los métodos y procedimientos que por medio de la inducción determina propiedades de una población estadística, a partir de una parte de esta. Su objetivo es obtener conclusiones útiles para hacer deducciones sobre una totalidad, basándose en la información numérica de la muestra.
¿De que forma se relaciona el PIB de mex, can, usa?
pairs(GDP)
cor(GDP)
## year mexico usa canada
## year 1.0000000 0.9271500 0.9599462 0.9552651
## mexico 0.9271500 1.0000000 0.9713115 0.9772744
## usa 0.9599462 0.9713115 1.0000000 0.9982661
## canada 0.9552651 0.9772744 0.9982661 1.0000000
Cálculo y representacion de la recta de mínimos cuadrados El comando básico es lm (linear models).
El primer argumento de este comando es una fórmula y ~ x en la que se especifica cuál es la variable respuesta o dependiente (y) y cuál es la variable regresora o independiente (x).
El segundo argumento, llamado “data” especifica cuál es el fichero en el que se encuentran las variables.
El resultado lo guardamos en un objeto llamado regresion. Este objeto es una lista que contiene toda la información relevante sobre el análisis. Mediante el comando summary obtenemos un resumen de los principales resultados:
regresion <-lm(can~ mexico, data=GDP)
summary(regresion)
##
## Call:
## lm(formula = can ~ mexico, data = GDP)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8919.9 -1579.2 -281.1 1870.6 4771.1
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.366e+03 3.907e+02 8.616 4.28e-14 ***
## mexico 2.607e+00 5.272e-02 49.439 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2617 on 115 degrees of freedom
## Multiple R-squared: 0.9551, Adjusted R-squared: 0.9547
## F-statistic: 2444 on 1 and 115 DF, p-value: < 2.2e-16