Comparación del GDP (Gross Domestic Product) entre México y Canadá

Es el valor monetario total de los bienes y servicios producidos dentro de las fronteras de los Estados Unidos, independientemente de quién posee los activos o la nacionalidad de la mano de obra utilizada en la producción de ese producto.

Para este ejercicio usaremos los datos de GDP de paises de América del norte descargados de esta página:

https://ourworldindata.org/economic-growth

Importar datos

setwd("~/R")
library(readr)
GDP <- read_csv("GDP.csv")
## 
## -- Column specification --------------------------------------------------------
## cols(
##   year = col_double(),
##   mexico = col_double(),
##   usa = col_double(),
##   canada = col_double()
## )
head(GDP)
## # A tibble: 6 x 4
##    year mexico   usa canada
##   <dbl>  <dbl> <dbl>  <dbl>
## 1  1900   1374  6252   4630
## 2  1901   1477  6822   4913
## 3  1902   1356  6756   5270
## 4  1903   1493  6955   5260
## 5  1904   1503  6739   5161
## 6  1905   1643  7094   5590

Análisis para México

Crear una variable que contenga los datos para México y Canadá

mex <- GDP$mexico
can <- GDP$canada

Estadística descriptiva

Medidas de tendencia central

Media

La media de un conjunto de números, algunas ocasiones simplemente llamada el promedio , es la suma de los datos dividida entre el número total de datos.

mediamex <- mean(mex)
mediamex
## [1] 5818.308
mediausa <- mean(can)
mediausa
## [1] 18531.81

Mediana

La mediana de un conjunto de números es el número medio en el conjunto (después que los números han sido arreglados del menor al mayor) – o, si hay un número par de datos, la mediana es el promedio de los dos números medios.

-México

medianamex <- median(mex)
medianamex
## [1] 3256

-Canadá

median(can)
## [1] 13644

Moda

la moda es el valor con mayor frecuencia en una de las distribuciones de datos. Esto va en forma de una columna cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Una distribución trimodal de los datos es en la que encontramos tres modas. En el caso de la distribución uniforme discreta, cuando todos los datos tienen la misma frecuencia, se puede definir las modas como indicado, pero estos valores no tienen utilidad. Por eso algunos matemáticos califican esta distribución como «sin moda».

-México

library(modeest)
mlv(mex, method="mfv")[1]
## [1] 1356

-canadá

library(modeest)
mfv(can, method="mfv")[1]
## [1] 4630

Rango intercuartil (IQR)

-México

summary(mex)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1356    1872    3256    5818    9946   15803
IQR(mex)
## [1] 8074

-Canadá

summary(can)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    4630    7406   13644   18532   28658   43642
IQR(can)
## [1] 21252

Gráfico de caja y bigote

-México

boxplot(mex)

-Canadá

boxplot(can)

Distribución de frecuencias para México

Tabla de frecuencias

library(fdth) #importar paquete
## 
## Attaching package: 'fdth'
## The following object is masked from 'package:modeest':
## 
##     mfv
## The following objects are masked from 'package:stats':
## 
##     sd, var
dist <- fdt(mex, breaks="Sturges")
dist
##           Class limits  f   rf rf(%)  cf  cf(%)
##    [1342.44,3169.7638) 58 0.50 49.57  58  49.57
##  [3169.7638,4997.0875)  9 0.08  7.69  67  57.26
##  [4997.0875,6824.4113)  5 0.04  4.27  72  61.54
##   [6824.4113,8651.735)  4 0.03  3.42  76  64.96
##   [8651.735,10479.059) 21 0.18 17.95  97  82.91
##  [10479.059,12306.383)  8 0.07  6.84 105  89.74
##  [12306.383,14133.706)  3 0.03  2.56 108  92.31
##   [14133.706,15961.03)  9 0.08  7.69 117 100.00
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual

Distribución de frecuencias para Canadá

Tabla de frecuencias

library(fdth) #importar paquete
dist <- fdt(can, breaks="Sturges")
dist
##         Class limits  f   rf rf(%)  cf  cf(%)
##     [4583.7,9520.54) 41 0.35 35.04  41  35.04
##   [9520.54,14457.38) 21 0.18 17.95  62  52.99
##  [14457.38,19394.22)  9 0.08  7.69  71  60.68
##  [19394.22,24331.06)  9 0.08  7.69  80  68.38
##   [24331.06,29267.9)  9 0.08  7.69  89  76.07
##   [29267.9,34204.74) 10 0.09  8.55  99  84.62
##  [34204.74,39141.58)  5 0.04  4.27 104  88.89
##  [39141.58,44078.42) 13 0.11 11.11 117 100.00
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual

Histogramas y polígonos de frecuencia

#histogramas
plot(dist, type="fh") #Histograma de frecuencias absolutas

plot(dist, type="rfh") #Histograma de frecuencias relativas

plot(dist, type="cfh") #Histograma de frecuencias acumuladas

#polígonos

plot(dist, type="fp") #polígono de frecuencias absolutas

plot(dist, type="rfp") # polígono de frecuencias relativas

plot(dist, type="cfp") # polígono de frecuencias acumuladas

Mediddas de dispersión

  • Varianza, La varianza es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media. Formalmente se calcula como la suma de los residuos al cuadrado divididos entre el total de observaciones

  • La desviación estándar es la medida de dispersión más común, que indica qué tan dispersos están los datos con respecto a la media. Mientras mayor sea la desviación estándar, mayor será la dispersión de los datos.

El símbolo σ (sigma) se utiliza frecuentemente para representar la desviación estándar de una población, mientras que s se utiliza para representar la desviación estándar de una muestra. La variación que es aleatoria o natural de un proceso se conoce comúnmente como ruido.

  • Gráfico de dispersión (scatterplot)

-México

plot(mex)

-Canadá

plot(can)

Estadística inferencial

La estadística inferencial es una parte de la estadística que comprende los métodos y procedimientos que por medio de la inducción determina propiedades de una población estadística, a partir de una parte de esta. Su objetivo es obtener conclusiones útiles para hacer deducciones sobre una totalidad, basándose en la información numérica de la muestra.

¿De que forma se relaciona el PIB de mex, can, usa?

Matriz de diagramas de dispersión

pairs(GDP)

Matriz de coeficientes de correlación

cor(GDP)
##             year    mexico       usa    canada
## year   1.0000000 0.9271500 0.9599462 0.9552651
## mexico 0.9271500 1.0000000 0.9713115 0.9772744
## usa    0.9599462 0.9713115 1.0000000 0.9982661
## canada 0.9552651 0.9772744 0.9982661 1.0000000

Cálculo y representacion de la recta de mínimos cuadrados El comando básico es lm (linear models).

El primer argumento de este comando es una fórmula y ~ x en la que se especifica cuál es la variable respuesta o dependiente (y) y cuál es la variable regresora o independiente (x).

El segundo argumento, llamado “data” especifica cuál es el fichero en el que se encuentran las variables.

El resultado lo guardamos en un objeto llamado regresion. Este objeto es una lista que contiene toda la información relevante sobre el análisis. Mediante el comando summary obtenemos un resumen de los principales resultados:

regresion <-lm(can~ mexico, data=GDP)
summary(regresion)
## 
## Call:
## lm(formula = can ~ mexico, data = GDP)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8919.9 -1579.2  -281.1  1870.6  4771.1 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 3.366e+03  3.907e+02   8.616 4.28e-14 ***
## mexico      2.607e+00  5.272e-02  49.439  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2617 on 115 degrees of freedom
## Multiple R-squared:  0.9551, Adjusted R-squared:  0.9547 
## F-statistic:  2444 on 1 and 115 DF,  p-value: < 2.2e-16