Para esta evaluación se tomaron como base estos datos: https://www.inegi.org.mx/temas/pib/#Tabulados
setwd("~/Estadistica")
library(readr)
PIB <- read_csv("PIB.csv")
##
## -- Column specification --------------------------------------------------------
## cols(
## primarias = col_double(),
## manufactura = col_double(),
## inmobiliarias = col_double()
## )
head(PIB)
## # A tibble: 6 x 3
## primarias manufactura inmobiliarias
## <dbl> <dbl> <dbl>
## 1 371390. 1698488. 998787.
## 2 369425. 1678576. 1010400.
## 3 377071. 1671630. 1017815.
## 4 362920. 1681706. 1027499.
## 5 363635. 1698171. 1040847.
## 6 393408. 1737834. 1052990.
Comparación de actividades manufactureras e inmobiliarias
man <- PIB$manufactura
inm <- PIB$inmobiliarias
Estadistica descriptiva
Medidas de tendencia central Las medidas de tendencia central son medidas estadísticas que pretenden resumir en un solo valor a un conjunto de valores. Representan un centro en torno al cual se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central más utilizadas son: media, mediana y moda.
Media
# Manufactura
meanman <- mean(man)
meanman
## [1] 2370180
# Inmbobiliario
meaninm <-mean(inm)
meaninm
## [1] 1570802
Mediana
# Manufactura
medianman <- median(man)
medianman
## [1] 2372057
# Inmobiliario
medianinm <- median(inm)
medianinm
## [1] 1582417
Moda
# Manufactura
library(modeest)
## Warning: package 'modeest' was built under R version 4.0.4
mlv(man, method = "mfv") [1]
## [1] 1591590
# Inmobiliario
library(modeest)
mlv(inm, method = "mfv") [1]
## [1] 998786.5
Rango intercuartil
# Manufactura
summary(man)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1591590 2206180 2372058 2370180 2591063 2981584
IQR(man)
## [1] 384883.3
# Inmobiliario
summary(inm)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 998787 1261862 1582417 1570802 1870725 2074242
IQR(inm)
## [1] 608862.7
Valores máximos y minimos
Manufactura
min(PIB$manufactura, na.rm = TRUE)
## [1] 1591590
max(PIB$manufactura, na.rm = TRUE)
## [1] 2981584
max(PIB$manufactura, na.rm = TRUE) - min(PIB$manufactura, na.rm = TRUE)
## [1] 1389993
Inmobiliario
min(PIB$inmobiliarias, na.rm = TRUE)
## [1] 998786.5
max(PIB$inmobiliarias, na.rm = TRUE)
## [1] 2074242
max(PIB$inmobiliarias, na.rm = TRUE) - min(PIB$inmobiliarias, na.rm = TRUE)
## [1] 1075455
Gráfico de caja y bigote
# Manufactura
boxplot(man)
# Inmobiliario
boxplot(inm)
Distribución de frecuencias
MAnufactura
library(fdth) #importar paquetes
## Warning: package 'fdth' was built under R version 4.0.4
##
## Attaching package: 'fdth'
## The following object is masked from 'package:modeest':
##
## mfv
## The following objects are masked from 'package:stats':
##
## sd, var
##
## Attaching package: 'fdth'
## The following object is masked from 'package:modeest':
##
## mfv
## The following objects are masked from 'package:stats':
##
## sd, var
dist <- fdt(man, breaks = "Sturges")
dist
## Class limits f rf rf(%) cf cf(%)
## [1575674.365,1755140.009) 9 0.08 8.04 9 8.04
## [1755140.009,1934605.653) 8 0.07 7.14 17 15.18
## [1934605.653,2114071.298) 5 0.04 4.46 22 19.64
## [2114071.298,2293536.942) 21 0.19 18.75 43 38.39
## [2293536.942,2473002.586) 27 0.24 24.11 70 62.50
## [2473002.586,2652468.23) 16 0.14 14.29 86 76.79
## [2652468.23,2831933.874) 11 0.10 9.82 97 86.61
## [2831933.874,3011399.518) 15 0.13 13.39 112 100.00
sort(man)
## [1] 1591590 1630377 1671630 1678576 1681706 1698171 1698331 1698488 1737834
## [10] 1760069 1766085 1769214 1781156 1796901 1812049 1888922 1921331 1977080
## [19] 2021828 2087948 2100335 2111285 2152457 2152752 2157564 2166767 2183179
## [28] 2188641 2212026 2218840 2224143 2231770 2234171 2239728 2242791 2243939
## [37] 2245005 2246333 2249843 2251276 2253833 2254089 2283201 2296002 2316299
## [46] 2316839 2320765 2325533 2329709 2331730 2331854 2342612 2344402 2351759
## [55] 2364911 2366278 2377837 2387464 2413172 2421035 2422352 2428010 2439170
## [64] 2442793 2444821 2456107 2457225 2468088 2470754 2472527 2473144 2473742
## [73] 2474986 2483717 2491708 2502094 2522297 2540534 2558515 2558725 2563296
## [82] 2570231 2575538 2590132 2593854 2636394 2681868 2686401 2727775 2733965
## [91] 2752923 2770210 2770819 2772088 2774488 2787010 2805940 2834238 2837244
## [100] 2865578 2879245 2880133 2892737 2894845 2895683 2929393 2932418 2939272
## [109] 2939943 2953599 2978552 2981584
Histogramas y poligonos de frecuencia
#Histogramas
plot(dist, type = "fh") # Histograma de frecuencia absoluta
plot(dist, type = "rfh") #Histograma de frecuencia relativa
plot(dist, type = "cfh") #Histograma de frecuencia acumulada
#Polígonos
plot(dist, type = "fp") # Polígono de frecuencia absoluta
plot(dist, type = "rfp") # Polígono de frecuencia relativa
plot(dist, type = "cfp") # Polígono de frecuencia acumulada
Medidas de dispersión
Varianza La varianza es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media. Formalmente se calcula como la suma de los residuos al cuadrado divididos entre el total de observaciones.
var(PIB$manufactura, na.rm = TRUE)
## [1] 130102816410
Desviación estandar
sd(PIB$manufactura, na.rm = TRUE)
## [1] 360697.7
Gráfico de dispersión
plot(man)
Inmobiliario
library(fdth) #importar paquetes
dist <- fdt(inm, breaks = "Sturges")
dist
## Class limits f rf rf(%) cf cf(%)
## [988798.6608,1127071.883) 13 0.12 11.61 13 11.61
## [1127071.883,1265345.105) 16 0.14 14.29 29 25.89
## [1265345.105,1403618.328) 13 0.12 11.61 42 37.50
## [1403618.328,1541891.55) 11 0.10 9.82 53 47.32
## [1541891.55,1680164.772) 13 0.12 11.61 66 58.93
## [1680164.772,1818437.995) 10 0.09 8.93 76 67.86
## [1818437.995,1956711.217) 15 0.13 13.39 91 81.25
## [1956711.217,2094984.439) 21 0.19 18.75 112 100.00
sort(inm)
## [1] 998786.5 1010400.0 1017815.1 1027499.3 1040846.8 1052990.5 1061997.4
## [8] 1071085.9 1081899.1 1090147.5 1100050.2 1108722.8 1121553.8 1130838.5
## [15] 1140772.0 1148461.8 1152976.5 1162436.3 1169150.5 1176209.7 1180001.7
## [22] 1188178.1 1194145.0 1202344.2 1214119.5 1227782.5 1241755.1 1252100.9
## [29] 1265115.5 1277347.8 1289301.5 1300858.7 1315843.3 1328261.4 1336191.8
## [36] 1345491.7 1346509.0 1354713.5 1368670.8 1378940.5 1395531.7 1402297.5
## [43] 1420959.0 1435916.0 1449865.7 1466334.0 1471072.0 1471404.9 1484691.7
## [50] 1496019.1 1501011.5 1515406.3 1539661.1 1560846.7 1568628.7 1578234.6
## [57] 1586600.3 1608974.7 1626808.6 1637882.7 1645685.8 1665057.0 1672874.1
## [64] 1673078.5 1678430.7 1679159.3 1699994.1 1702526.6 1713141.9 1728565.7
## [71] 1752428.3 1762721.3 1777521.0 1779450.1 1792507.4 1813614.3 1822601.4
## [78] 1829997.1 1842771.2 1843496.9 1847655.2 1852728.3 1857708.6 1867323.0
## [85] 1880929.2 1886702.1 1901156.9 1912307.3 1918526.3 1942484.3 1946775.7
## [92] 1957807.3 1958684.1 1977714.4 1985272.8 1997899.6 1998123.1 1998584.3
## [99] 2006775.5 2018933.9 2029323.8 2029454.1 2038797.5 2043916.1 2045017.9
## [106] 2052070.5 2059907.9 2062074.7 2069001.6 2071895.5 2073988.6 2074242.0
Histograma y poligonos de frecuencia
#Histogramas
plot(dist, type = "fh") # Histograma de frecuencia absoluta
plot(dist, type = "rfh") #Histograma de frecuencia relativa
plot(dist, type = "cfh") #Histograma de frecuencia acumulada
#Polígonos
plot(dist, type = "fp") # Polígono de frecuencia absoluta
plot(dist, type = "rfp") # Polígono de frecuencia relativa
plot(dist, type = "cfp") # Polígono de frecuencia acumulada
Medidas de dispersión
Varianza La varianza es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media. Formalmente se calcula como la suma de los residuos al cuadrado divididos entre el total de observaciones.
var(PIB$inmobiliarias, na.rm = TRUE)
## [1] 1.15122e+11
Desviación estandar
Es la medida de dispersión más común, que indica qué tan dispersos están los datos con respecto a la media. Mientras mayor sea la desviación estándar, mayor será la dispersión de los datos.
sd(PIB$inmobiliarias, na.rm = TRUE)
## [1] 339296.4
Gráfico de dispersión
plot(inm)
Análisis de correlación
Diagrama de dispersión de matriz
pairs(PIB)