Repaso unidad 1 y 2, Crecimiento económico mundial

Para este ejercicio usaremos los datos de GDP de paises de América del norte descargados de esta página:

https://ourworldindata.org/economic-growth

Importar datos

setwd("~/Esta")
library(readr)
GDP <- read_csv("GDP.csv")
## 
## -- Column specification --------------------------------------------------------
## cols(
##   year = col_double(),
##   mexico = col_double(),
##   usa = col_double(),
##   canada = col_double()
## )
head(GDP)
## # A tibble: 6 x 4
##    year mexico   usa canada
##   <dbl>  <dbl> <dbl>  <dbl>
## 1  1900   1374  6252   4630
## 2  1901   1477  6822   4913
## 3  1902   1356  6756   5270
## 4  1903   1493  6955   5260
## 5  1904   1503  6739   5161
## 6  1905   1643  7094   5590

Análisis para México

Crear una variable que contenga los datos para México

mex <- GDP$mexico
usa <- GDP$usa

Estadística descriptiva

Medidas de tendencia central

Media

La media de un conjunto de números, algunas ocasiones simplemente llamada el promedio , es la suma de los datos dividida entre el número total de datos.

mediamex <- mean(mex)
mediamex
## [1] 5818.308
mediausa <- mean(usa)
mediausa
## [1] 22958.44

Mediana

La mediana de un conjunto de números es el número medio en el conjunto (después que los números han sido arreglados del menor al mayor) – o, si hay un número par de datos, la mediana es el promedio de los dos números medios.

medianamex <- median(mex)
medianamex
## [1] 3256

Moda

la moda es el valor con mayor frecuencia en una de las distribuciones de datos. Esto va en forma de una columna cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Una distribución trimodal de los datos es en la que encontramos tres modas. En el caso de la distribución uniforme discreta, cuando todos los datos tienen la misma frecuencia, se puede definir las modas como indicado, pero estos valores no tienen utilidad. Por eso algunos matemáticos califican esta distribución como «sin moda».

library(modeest)
mlv(mex, method="mfv")[1]
## [1] 1356

Rango intercuartil (IQR)

summary(mex)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1356    1872    3256    5818    9946   15803
IQR(mex)
## [1] 8074

Gráfico de caja y bigote

boxplot(mex)

Distribución de frecuencias

Tabla de frecuencias

library(fdth) #importar paquete
## 
## Attaching package: 'fdth'
## The following object is masked from 'package:modeest':
## 
##     mfv
## The following objects are masked from 'package:stats':
## 
##     sd, var
dist <- fdt(mex, breaks="Sturges")
dist
##           Class limits  f   rf rf(%)  cf  cf(%)
##    [1342.44,3169.7638) 58 0.50 49.57  58  49.57
##  [3169.7638,4997.0875)  9 0.08  7.69  67  57.26
##  [4997.0875,6824.4113)  5 0.04  4.27  72  61.54
##   [6824.4113,8651.735)  4 0.03  3.42  76  64.96
##   [8651.735,10479.059) 21 0.18 17.95  97  82.91
##  [10479.059,12306.383)  8 0.07  6.84 105  89.74
##  [12306.383,14133.706)  3 0.03  2.56 108  92.31
##   [14133.706,15961.03)  9 0.08  7.69 117 100.00
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual

ordenar datos de menor a mayor

sort (mex)
##   [1]  1356  1374  1426  1477  1492  1493  1503  1512  1514  1563  1606  1607
##  [13]  1609  1622  1641  1643  1662  1676  1683  1685  1690  1693  1711  1735
##  [25]  1741  1811  1829  1843  1870  1872  1904  1919  1926  1932  1933  1935
##  [37]  1938  1954  1968  1992  2067  2079  2126  2146  2262  2271  2357  2374
##  [49]  2406  2472  2648  2679  2723  2766  2860  2986  3051  3164  3256  3259
##  [61]  3380  3525  3657  3906  4325  4558  4852  5124  5509  5841  6214  6442
##  [73]  6945  7472  7999  8504  8696  8791  9100  9145  9168  9299  9333  9411
##  [85]  9431  9674  9766  9946 10050 10169 10217 10221 10244 10293 10391 10412
##  [97] 10433 11236 11300 11311 11338 11364 11480 11812 12193 13018 13474 13713
## [109] 14180 14276 14442 15203 15210 15357 15531 15766 15803

Histogramas y polígonos de frecuencia

#histogramas
plot(dist, type="fh") #Histograma de frecuencias absolutas

plot(dist, type="rfh") #Histograma de frecuencias relativas

plot(dist, type="cfh") #Histograma de frecuencias acumuladas

#polígonos

plot(dist, type="fp") #polígono de frecuencias absolutas

plot(dist, type="rfp") # polígono de frecuencias relativas

plot(dist, type="cfp") # polígono de frecuencias acumuladas

Mediddas de dispersión

  • Varianza, La varianza es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media. Formalmente se calcula como la suma de los residuos al cuadrado divididos entre el total de observaciones

  • La desviación estándar es la medida de dispersión más común, que indica qué tan dispersos están los datos con respecto a la media. Mientras mayor sea la desviación estándar, mayor será la dispersión de los datos. El símbolo σ (sigma) se utiliza frecuentemente para representar la desviación estándar de una población, mientras que s se utiliza para representar la desviación estándar de una muestra. La variación que es aleatoria o natural de un proceso se conoce comúnmente como ruido.

  • Gráfico de dispersión (scatterplot)

plot(mex)

Estadística inferencial

La estadística inferencial es una parte de la estadística que comprende los métodos y procedimientos que por medio de la inducción determina propiedades de una población estadística, a partir de una parte de esta. Su objetivo es obtener conclusiones útiles para hacer deducciones sobre una totalidad, basándose en la información numérica de la muestra.

¿De que forma se relaciona el PIB de mex, can, usa?

Matriz de diagramas de dispersión

pairs(GDP)

Matriz de coeficientes de correlación

cor(GDP)
##             year    mexico       usa    canada
## year   1.0000000 0.9271500 0.9599462 0.9552651
## mexico 0.9271500 1.0000000 0.9713115 0.9772744
## usa    0.9599462 0.9713115 1.0000000 0.9982661
## canada 0.9552651 0.9772744 0.9982661 1.0000000

Cálculo y representacion de la recta de mínimos cuadrados El comando básico es lm (linear models).

El primer argumento de este comando es una fórmula y ~ x en la que se especifica cuál es la variable respuesta o dependiente (y) y cuál es la variable regresora o independiente (x). El segundo argumento, llamado “data” especifica cuál es el fichero en el que se encuentran las variables. El resultado lo guardamos en un objeto llamado regresion. Este objeto es una lista que contiene toda la información relevante sobre el análisis. Mediante el comando summary obtenemos un resumen de los principales resultados:

regresion <-lm(usa~ mexico, data=GDP)
summary(regresion)
## 
## Call:
## lm(formula = usa ~ mexico, data = GDP)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -11750.0  -2075.2   -467.8   2428.0   7238.4 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 4.662e+03  5.320e+02   8.764 1.95e-14 ***
## mexico      3.145e+00  7.179e-02  43.800  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3563 on 115 degrees of freedom
## Multiple R-squared:  0.9434, Adjusted R-squared:  0.943 
## F-statistic:  1918 on 1 and 115 DF,  p-value: < 2.2e-16