Para esta evaluación se tomaron como base estos datos: https://www.inegi.org.mx/temas/pib/#Tabulados

Evaluación EU1U2

Importar datos

setwd("~/Estadistica")
library(readr)
PIB <- read_csv("PIB.csv")
## 
## -- Column specification --------------------------------------------------------
## cols(
##   primarias = col_double(),
##   manufactura = col_double(),
##   inmobiliarias = col_double()
## )
head(PIB)
## # A tibble: 6 x 3
##   primarias manufactura inmobiliarias
##       <dbl>       <dbl>         <dbl>
## 1   371390.    1698488.       998787.
## 2   369425.    1678576.      1010400.
## 3   377071.    1671630.      1017815.
## 4   362920.    1681706.      1027499.
## 5   363635.    1698171.      1040847.
## 6   393408.    1737834.      1052990.

Comparación de actividades manufactureras e inmobiliarias

man <- PIB$manufactura

inm <- PIB$inmobiliarias

Estadistica descriptiva

Medidas de tendencia central Las medidas de tendencia central son medidas estadísticas que pretenden resumir en un solo valor a un conjunto de valores. Representan un centro en torno al cual se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central más utilizadas son: media, mediana y moda.

Media

# Manufactura
meanman <- mean(man)
meanman
## [1] 2370180
# Inmbobiliario
meaninm <-mean(inm)
meaninm
## [1] 1570802

Mediana

# Manufactura
medianman <- median(man)
medianman
## [1] 2372057
# Inmobiliario
medianinm <- median(inm)
medianinm
## [1] 1582417

Moda

# Manufactura
library(modeest)
## Warning: package 'modeest' was built under R version 4.0.4
mlv(man, method = "mfv") [1]
## [1] 1591590
# Inmobiliario
library(modeest)
mlv(inm, method = "mfv") [1]
## [1] 998786.5

Rango intercuartil

# Manufactura
summary(man)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 1591590 2206180 2372058 2370180 2591063 2981584
IQR(man)
## [1] 384883.3
# Inmobiliario
summary(inm)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  998787 1261862 1582417 1570802 1870725 2074242
IQR(inm)
## [1] 608862.7

Valores máximos y minimos

Manufactura

min(PIB$manufactura, na.rm = TRUE)
## [1] 1591590
max(PIB$manufactura, na.rm = TRUE)
## [1] 2981584
max(PIB$manufactura, na.rm = TRUE) - min(PIB$manufactura, na.rm = TRUE)
## [1] 1389993

Inmobiliario

min(PIB$inmobiliarias, na.rm = TRUE)
## [1] 998786.5
max(PIB$inmobiliarias, na.rm = TRUE)
## [1] 2074242
max(PIB$inmobiliarias, na.rm = TRUE) - min(PIB$inmobiliarias, na.rm = TRUE)
## [1] 1075455

Gráfico de caja y bigote

# Manufactura
boxplot(man)

# Inmobiliario
boxplot(inm)

Distribución de frecuencias

MAnufactura

library(fdth) #importar paquetes
## Warning: package 'fdth' was built under R version 4.0.4
## 
## Attaching package: 'fdth'
## The following object is masked from 'package:modeest':
## 
##     mfv
## The following objects are masked from 'package:stats':
## 
##     sd, var
## 
## Attaching package: 'fdth'
## The following object is masked from 'package:modeest':
## 
##     mfv
## The following objects are masked from 'package:stats':
## 
##     sd, var
dist <- fdt(man, breaks = "Sturges")
dist
##               Class limits  f   rf rf(%)  cf  cf(%)
##  [1575674.365,1755140.009)  9 0.08  8.04   9   8.04
##  [1755140.009,1934605.653)  8 0.07  7.14  17  15.18
##  [1934605.653,2114071.298)  5 0.04  4.46  22  19.64
##  [2114071.298,2293536.942) 21 0.19 18.75  43  38.39
##  [2293536.942,2473002.586) 27 0.24 24.11  70  62.50
##   [2473002.586,2652468.23) 16 0.14 14.29  86  76.79
##   [2652468.23,2831933.874) 11 0.10  9.82  97  86.61
##  [2831933.874,3011399.518) 15 0.13 13.39 112 100.00
sort(man)
##   [1] 1591590 1630377 1671630 1678576 1681706 1698171 1698331 1698488 1737834
##  [10] 1760069 1766085 1769214 1781156 1796901 1812049 1888922 1921331 1977080
##  [19] 2021828 2087948 2100335 2111285 2152457 2152752 2157564 2166767 2183179
##  [28] 2188641 2212026 2218840 2224143 2231770 2234171 2239728 2242791 2243939
##  [37] 2245005 2246333 2249843 2251276 2253833 2254089 2283201 2296002 2316299
##  [46] 2316839 2320765 2325533 2329709 2331730 2331854 2342612 2344402 2351759
##  [55] 2364911 2366278 2377837 2387464 2413172 2421035 2422352 2428010 2439170
##  [64] 2442793 2444821 2456107 2457225 2468088 2470754 2472527 2473144 2473742
##  [73] 2474986 2483717 2491708 2502094 2522297 2540534 2558515 2558725 2563296
##  [82] 2570231 2575538 2590132 2593854 2636394 2681868 2686401 2727775 2733965
##  [91] 2752923 2770210 2770819 2772088 2774488 2787010 2805940 2834238 2837244
## [100] 2865578 2879245 2880133 2892737 2894845 2895683 2929393 2932418 2939272
## [109] 2939943 2953599 2978552 2981584

Histogramas y poligonos de frecuencia

#Histogramas

plot(dist, type = "fh") # Histograma de frecuencia absoluta

plot(dist, type = "rfh") #Histograma de frecuencia relativa

plot(dist, type = "cfh") #Histograma de frecuencia acumulada

#Polígonos

plot(dist, type = "fp") # Polígono de frecuencia absoluta

plot(dist, type = "rfp") # Polígono de frecuencia relativa

plot(dist, type = "cfp") # Polígono de frecuencia acumulada

Medidas de dispersión

Varianza La varianza es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media. Formalmente se calcula como la suma de los residuos al cuadrado divididos entre el total de observaciones.

var(PIB$manufactura, na.rm = TRUE)
## [1] 130102816410

Desviación estandar

sd(PIB$manufactura, na.rm = TRUE)
## [1] 360697.7

Gráfico de dispersión

plot(man)

Inmobiliario

library(fdth) #importar paquetes
dist <- fdt(inm, breaks = "Sturges")
dist
##               Class limits  f   rf rf(%)  cf  cf(%)
##  [988798.6608,1127071.883) 13 0.12 11.61  13  11.61
##  [1127071.883,1265345.105) 16 0.14 14.29  29  25.89
##  [1265345.105,1403618.328) 13 0.12 11.61  42  37.50
##   [1403618.328,1541891.55) 11 0.10  9.82  53  47.32
##   [1541891.55,1680164.772) 13 0.12 11.61  66  58.93
##  [1680164.772,1818437.995) 10 0.09  8.93  76  67.86
##  [1818437.995,1956711.217) 15 0.13 13.39  91  81.25
##  [1956711.217,2094984.439) 21 0.19 18.75 112 100.00
sort(inm)
##   [1]  998786.5 1010400.0 1017815.1 1027499.3 1040846.8 1052990.5 1061997.4
##   [8] 1071085.9 1081899.1 1090147.5 1100050.2 1108722.8 1121553.8 1130838.5
##  [15] 1140772.0 1148461.8 1152976.5 1162436.3 1169150.5 1176209.7 1180001.7
##  [22] 1188178.1 1194145.0 1202344.2 1214119.5 1227782.5 1241755.1 1252100.9
##  [29] 1265115.5 1277347.8 1289301.5 1300858.7 1315843.3 1328261.4 1336191.8
##  [36] 1345491.7 1346509.0 1354713.5 1368670.8 1378940.5 1395531.7 1402297.5
##  [43] 1420959.0 1435916.0 1449865.7 1466334.0 1471072.0 1471404.9 1484691.7
##  [50] 1496019.1 1501011.5 1515406.3 1539661.1 1560846.7 1568628.7 1578234.6
##  [57] 1586600.3 1608974.7 1626808.6 1637882.7 1645685.8 1665057.0 1672874.1
##  [64] 1673078.5 1678430.7 1679159.3 1699994.1 1702526.6 1713141.9 1728565.7
##  [71] 1752428.3 1762721.3 1777521.0 1779450.1 1792507.4 1813614.3 1822601.4
##  [78] 1829997.1 1842771.2 1843496.9 1847655.2 1852728.3 1857708.6 1867323.0
##  [85] 1880929.2 1886702.1 1901156.9 1912307.3 1918526.3 1942484.3 1946775.7
##  [92] 1957807.3 1958684.1 1977714.4 1985272.8 1997899.6 1998123.1 1998584.3
##  [99] 2006775.5 2018933.9 2029323.8 2029454.1 2038797.5 2043916.1 2045017.9
## [106] 2052070.5 2059907.9 2062074.7 2069001.6 2071895.5 2073988.6 2074242.0

Histograma y poligonos de frecuencia

#Histogramas

plot(dist, type = "fh") # Histograma de frecuencia absoluta

plot(dist, type = "rfh") #Histograma de frecuencia relativa

plot(dist, type = "cfh") #Histograma de frecuencia acumulada

#Polígonos

plot(dist, type = "fp") # Polígono de frecuencia absoluta

plot(dist, type = "rfp") # Polígono de frecuencia relativa

plot(dist, type = "cfp") # Polígono de frecuencia acumulada

Medidas de dispersión

Varianza La varianza es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media. Formalmente se calcula como la suma de los residuos al cuadrado divididos entre el total de observaciones.

var(PIB$inmobiliarias, na.rm = TRUE)
## [1] 1.15122e+11

Desviación estandar

Es la medida de dispersión más común, que indica qué tan dispersos están los datos con respecto a la media. Mientras mayor sea la desviación estándar, mayor será la dispersión de los datos.

sd(PIB$inmobiliarias, na.rm = TRUE)
## [1] 339296.4

Gráfico de dispersión

plot(inm)

Análisis de correlación

Diagrama de dispersión de matriz

pairs(PIB)