Para este ejercicio usaremos los datos de GDP de paises de América del norte descargados de esta página: https://ourworldindata.org/economic-growth
setwd("~/Estadistica 1")
library(readr)
## Warning: package 'readr' was built under R version 4.0.4
GDP <- read_csv("GDP.csv")
##
## -- Column specification --------------------------------------------------------
## cols(
## year = col_double(),
## mexico = col_double(),
## usa = col_double(),
## canada = col_double()
## )
head(GDP)
## # A tibble: 6 x 4
## year mexico usa canada
## <dbl> <dbl> <dbl> <dbl>
## 1 1900 1374 6252 4630
## 2 1901 1477 6822 4913
## 3 1902 1356 6756 5270
## 4 1903 1493 6955 5260
## 5 1904 1503 6739 5161
## 6 1905 1643 7094 5590
Crear una variable que contenga los datos para México
mex <- GDP$mexico
mediamex <- mean(mex)
mediamex
## [1] 5818.308
medianmex <- median(mex)
medianmex
## [1] 3256
library(modeest)
## Warning: package 'modeest' was built under R version 4.0.4
mlv(mex, method="mfv")[1]
## [1] 1356
summary(mex)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1356 1872 3256 5818 9946 15803
IQR(mex)
## [1] 8074
boxplot(mex)
hist(mex)
## Análisis para USA
setwd("~/Estadistica 1")
library(readr)
GDP <- read_csv("GDP.csv")
##
## -- Column specification --------------------------------------------------------
## cols(
## year = col_double(),
## mexico = col_double(),
## usa = col_double(),
## canada = col_double()
## )
Variable de USA
USA <- GDP$usa
mediausa <- mean(USA)
mediausa
## [1] 22958.44
medianausa <- median(USA)
medianausa
## [1] 17407
library(modeest)
mlv(USA, method="mfv")[1]
## [1] 6252
summary(USA)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6252 9490 17407 22958 34730 53015
IQR(USA)
## [1] 25240
boxplot(USA)
hist(USA)
México
library(fdth) #importar paquete
##
## Attaching package: 'fdth'
## The following object is masked from 'package:modeest':
##
## mfv
## The following objects are masked from 'package:stats':
##
## sd, var
dist <- fdt(mex, breaks="Sturges")
dist
## Class limits f rf rf(%) cf cf(%)
## [1342.44,3169.7638) 58 0.50 49.57 58 49.57
## [3169.7638,4997.0875) 9 0.08 7.69 67 57.26
## [4997.0875,6824.4113) 5 0.04 4.27 72 61.54
## [6824.4113,8651.735) 4 0.03 3.42 76 64.96
## [8651.735,10479.059) 21 0.18 17.95 97 82.91
## [10479.059,12306.383) 8 0.07 6.84 105 89.74
## [12306.383,14133.706) 3 0.03 2.56 108 92.31
## [14133.706,15961.03) 9 0.08 7.69 117 100.00
USA
library(fdth)
distU <- fdt(USA, breaks ="Sturges")
distU
## Class limits f rf rf(%) cf cf(%)
## [6189.48,12108.939) 41 0.35 35.04 41 35.04
## [12108.939,18028.397) 19 0.16 16.24 60 51.28
## [18028.397,23947.856) 9 0.08 7.69 69 58.97
## [23947.856,29867.315) 12 0.10 10.26 81 69.23
## [29867.315,35786.774) 7 0.06 5.98 88 75.21
## [35786.774,41706.232) 9 0.08 7.69 97 82.91
## [41706.232,47625.691) 7 0.06 5.98 104 88.89
## [47625.691,53545.15) 13 0.11 11.11 117 100.00
México
sort(mex)
## [1] 1356 1374 1426 1477 1492 1493 1503 1512 1514 1563 1606 1607
## [13] 1609 1622 1641 1643 1662 1676 1683 1685 1690 1693 1711 1735
## [25] 1741 1811 1829 1843 1870 1872 1904 1919 1926 1932 1933 1935
## [37] 1938 1954 1968 1992 2067 2079 2126 2146 2262 2271 2357 2374
## [49] 2406 2472 2648 2679 2723 2766 2860 2986 3051 3164 3256 3259
## [61] 3380 3525 3657 3906 4325 4558 4852 5124 5509 5841 6214 6442
## [73] 6945 7472 7999 8504 8696 8791 9100 9145 9168 9299 9333 9411
## [85] 9431 9674 9766 9946 10050 10169 10217 10221 10244 10293 10391 10412
## [97] 10433 11236 11300 11311 11338 11364 11480 11812 12193 13018 13474 13713
## [109] 14180 14276 14442 15203 15210 15357 15531 15766 15803
USA
sort(USA)
## [1] 6252 6739 6756 6822 6955 6970 7094 7270 7334 7434 7525 7586
## [13] 7668 7711 7740 7762 7876 7948 8020 8101 8134 8342 8466 8485
## [25] 8648 8681 8850 8864 9420 9490 9525 9601 9718 9797 10040 10050
## [37] 10090 10450 10459 10543 11307 12844 14057 14112 14175 14471 14559 15241
## [49] 15392 15992 16126 16401 16443 16513 16917 16945 17370 17398 17407 17901
## [61] 18058 18175 18977 19515 20360 21390 22529 22842 23692 23958 24196 24395
## [73] 25415 25956 26287 26603 27059 28001 29211 29287 29613 29951 30056 30159
## [85] 32076 33024 33851 34730 35865 36464 36757 36982 37241 37762 38808 39391
## [97] 40414 41723 43073 44576 45878 45887 46267 47158 48453 48493 49267 49655
## [109] 49675 50276 50394 50490 50863 50902 51664 52591 53015
México
plot(dist, type = "fh") #Hisograma de frecuencia absolutas
USA
plot(distU, type = "fh") #Hisograma de frecuencia absolutas
plot(distU, type = "rfh") #Hisograma de frecuencia relativas
plot(dist, type = "cfh") #Hisograma de frecuencia acomuladas
plot(dist, type = "cfh") #Hisograma de frecuencia acomuladas
plot(distU, type = "cfh") #Hisograma de frecuencia acomuladas
plot(dist, type = "fp") #Poligono de frecuencia absolutas
plot(dist, type = "rfp") #Poligono de frecuencia relativas
plot(dist, type = "cfp")#Poligono de frecuencia acomuladas
plot(distU, type = "fp") #Poligono de frecuencia absolutas
plot(distU, type = "rfp") #Poligono de frecuencia relativas
plot(distU, type = "cfp")#Poligono de frecuencia acomuladas
Varianza. La varianza es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media. Formalmente se calcula como la suma de los residuos al cuadrado divididos entre el total de observaciones.
La desviación estándar es la medida de dispersión más común, que indica qué tan dispersos están los datos con respecto a la media. Mientras mayor sea la desviación estándar, mayor será la dispersión de los datos.
El símbolo σ (sigma) se utiliza frecuentemente para representar la desviación estándar de una población, mientras que s se utiliza para representar la desviación estándar de una muestra. La variación que es aleatoria o natural de un proceso se conoce comúnmente como ruido.
plot(mex)
plot(USA)
Estadistica inferencial
La estadística inferencial es una parte de la estadística que comprende los métodos y procedimientos que por medio de la inducción determina propiedades de una población estadística, a partir de una parte de esta. Su objetivo es obtener conclusiones útiles para hacer deducciones sobre una totalidad, basándose en la información numérica de la muestra.
pairs(GDP)
cor (GDP)
## year mexico usa canada
## year 1.0000000 0.9271500 0.9599462 0.9552651
## mexico 0.9271500 1.0000000 0.9713115 0.9772744
## usa 0.9599462 0.9713115 1.0000000 0.9982661
## canada 0.9552651 0.9772744 0.9982661 1.0000000
regresion <-lm(usa~ mex, data=GDP)
summary(regresion)
##
## Call:
## lm(formula = usa ~ mex, data = GDP)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11750.0 -2075.2 -467.8 2428.0 7238.4
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.662e+03 5.320e+02 8.764 1.95e-14 ***
## mex 3.145e+00 7.179e-02 43.800 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3563 on 115 degrees of freedom
## Multiple R-squared: 0.9434, Adjusted R-squared: 0.943
## F-statistic: 1918 on 1 and 115 DF, p-value: < 2.2e-16
Cuando ya se han comparado los datos, podemos observar la diferencia que existe entre México y USA, esté último tiene mayor crecimiento económico comparado con México; esto se esto se da por diferentes factores entre los cuales estan la forma de gobiernos , la forma de trabajo , las organizaciones, estilos de vida, las costumbres, etc.