Evaluación EU1U2

En el presente archivo analizaremos y contrastaremos 2 de las principales activades economicas de Mexico, para asi, analizarlas en base a la estadistica descriptiva e inferencial Los datos son conseguidos de la base de datos del INEGI https://www.inegi.org.mx/temas/pib/#Tabulados

Importar datos

setwd("~/Esta")
library(readr)
PIB <- read_csv("PIB.csv")
## 
## -- Column specification --------------------------------------------------------
## cols(
##   primarias = col_double(),
##   manufactura = col_double(),
##   inmobiliarias = col_double()
## )
head(PIB)
## # A tibble: 6 x 3
##   primarias manufactura inmobiliarias
##       <dbl>       <dbl>         <dbl>
## 1   371390.    1698488.       998787.
## 2   369425.    1678576.      1010400.
## 3   377071.    1671630.      1017815.
## 4   362920.    1681706.      1027499.
## 5   363635.    1698171.      1040847.
## 6   393408.    1737834.      1052990.

Aqui se utilizaran 3 Actividades, que seran Actividades primarias, Actividades manufactureras, Actividades inmobiliarias, aunque se analizaran y contrastaran las Actividades manufactureras y las Actividades primarias.

Prim <- PIB$primarias
Manu <- PIB$manufactura
Inmo <- PIB$inmobiliarias

Estadística descriptiva

Aqui se comenzara a analizar los datos en base a la estadistica descriptiva

Medidas de tendencia central

Media

La media de un conjunto de números, algunas ocasiones simplemente llamada el promedio , es la suma de los datos dividida entre el número total de datos.

MediaPrim <- (mean)(Prim)
MediaPrim
## [1] 471505.8
MediaManu <- (mean)(Manu)
MediaManu
## [1] 2370180

Mediana

La mediana de un conjunto de números es el número medio en el conjunto (después que los números han sido arreglados del menor al mayor) – o, si hay un número par de datos, la mediana es el promedio de los dos números medios.

MedianaPrim <- median(Prim)
MedianaPrim
## [1] 470182.3
MedianaManu <- median(Manu)
MedianaManu
## [1] 2372057

Moda

La moda es el valor con mayor frecuencia en una de las distribuciones de datos. Esto va en forma de una columna cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima.

library(modeest)
mlv(Prim, method="mfv")[1]
## [1] 351036.5
mlv(Manu, method="mfv")[1]
## [1] 1591590

Rango intercuartil (IQR)

summary(Prim)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  351037  410631  470182  471506  520028  631653
IQR(Prim)
## [1] 109397.8
summary(Manu)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 1591590 2206180 2372058 2370180 2591063 2981584
IQR(Manu)
## [1] 384883.3

Gráfico de caja y bigote

boxplot(Prim)

boxplot(Manu)

Interpretacion

Como se puede ver gracias a las medidas de tendencia central, veremos que Mexico principalmente es un pais con un fuerte ingreso gracias a las Actividades Manufactureras, que casi representan entre 4 y 5 veces mas que las Actividades Primarias, representado en Millones de pesos

Distribución de frecuencias

Tabla de frecuencias

library(fdth) #importar paquete
## 
## Attaching package: 'fdth'
## The following object is masked from 'package:modeest':
## 
##     mfv
## The following objects are masked from 'package:stats':
## 
##     sd, var
distP <- fdt(Prim, breaks="Sturges")
distP
##             Class limits  f   rf rf(%)  cf  cf(%)
##  [347526.129,383831.592) 10 0.09  8.93  10   8.93
##  [383831.592,420137.055) 21 0.19 18.75  31  27.68
##  [420137.055,456442.518) 18 0.16 16.07  49  43.75
##  [456442.518,492747.981) 24 0.21 21.43  73  65.18
##  [492747.981,529053.444) 13 0.12 11.61  86  76.79
##  [529053.444,565358.907)  8 0.07  7.14  94  83.93
##   [565358.907,601664.37) 15 0.13 13.39 109  97.32
##   [601664.37,637969.833)  3 0.03  2.68 112 100.00
distM <- fdt(Manu, breaks="Sturges")
distM
##               Class limits  f   rf rf(%)  cf  cf(%)
##  [1575674.365,1755140.009)  9 0.08  8.04   9   8.04
##  [1755140.009,1934605.653)  8 0.07  7.14  17  15.18
##  [1934605.653,2114071.298)  5 0.04  4.46  22  19.64
##  [2114071.298,2293536.942) 21 0.19 18.75  43  38.39
##  [2293536.942,2473002.586) 27 0.24 24.11  70  62.50
##   [2473002.586,2652468.23) 16 0.14 14.29  86  76.79
##   [2652468.23,2831933.874) 11 0.10  9.82  97  86.61
##  [2831933.874,3011399.518) 15 0.13 13.39 112 100.00
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual

Ordenar datos de menor a mayor

sort (Prim)
##   [1] 351036.5 358108.6 362920.4 363634.9 368845.8 369424.7 371390.2 371847.3
##   [9] 377070.8 377685.1 385071.9 386531.7 387759.8 387893.5 388504.7 390053.8
##  [17] 391824.9 392134.9 392264.4 393407.9 394887.2 396696.7 397191.0 398155.0
##  [25] 398629.1 402645.9 407587.3 409415.4 411035.7 415778.9 416318.7 421223.1
##  [33] 422867.3 425053.4 427278.5 429969.9 431401.3 435588.0 436274.2 437004.5
##  [41] 438472.6 438656.2 439030.0 441998.5 442317.4 442739.9 446117.2 446375.0
##  [49] 450220.8 456849.3 459959.5 460202.8 462744.9 462822.4 466886.5 467940.9
##  [57] 472423.6 472699.0 473111.7 474005.5 474238.0 476841.0 476917.1 477514.1
##  [65] 477587.1 478576.3 478896.8 484933.3 485481.7 486657.3 487170.5 489061.0
##  [73] 491190.6 493474.1 494162.2 495701.6 498927.5 500117.8 501393.4 502625.0
##  [81] 508378.5 510001.4 512843.2 518674.9 524088.8 528627.5 533250.8 538724.4
##  [89] 539983.4 540421.2 541769.2 544433.2 545250.2 557704.1 568053.2 568808.0
##  [97] 568853.0 575101.2 576255.0 581070.6 587197.5 587682.0 587878.1 590808.7
## [105] 592659.0 592912.4 593758.2 594163.6 596741.9 604903.4 616544.1 631653.3
sort (Manu)
##   [1] 1591590 1630377 1671630 1678576 1681706 1698171 1698331 1698488 1737834
##  [10] 1760069 1766085 1769214 1781156 1796901 1812049 1888922 1921331 1977080
##  [19] 2021828 2087948 2100335 2111285 2152457 2152752 2157564 2166767 2183179
##  [28] 2188641 2212026 2218840 2224143 2231770 2234171 2239728 2242791 2243939
##  [37] 2245005 2246333 2249843 2251276 2253833 2254089 2283201 2296002 2316299
##  [46] 2316839 2320765 2325533 2329709 2331730 2331854 2342612 2344402 2351759
##  [55] 2364911 2366278 2377837 2387464 2413172 2421035 2422352 2428010 2439170
##  [64] 2442793 2444821 2456107 2457225 2468088 2470754 2472527 2473144 2473742
##  [73] 2474986 2483717 2491708 2502094 2522297 2540534 2558515 2558725 2563296
##  [82] 2570231 2575538 2590132 2593854 2636394 2681868 2686401 2727775 2733965
##  [91] 2752923 2770210 2770819 2772088 2774488 2787010 2805940 2834238 2837244
## [100] 2865578 2879245 2880133 2892737 2894845 2895683 2929393 2932418 2939272
## [109] 2939943 2953599 2978552 2981584

Histogramas y polígonos de frecuencia

#histogramas De Actividades Primarias
plot(distP, type="fh") #Histograma de frecuencias absolutas

plot(distP, type="rfh") #Histograma de frecuencias relativas

plot(distP, type="cfh") #Histograma de frecuencias acumuladas

#Polígonos De Actividades Primarias

plot(distP, type="fp") #polígono de frecuencias absolutas

plot(distP, type="rfp") # polígono de frecuencias relativas

plot(distP, type="cfp") # polígono de frecuencias acumuladas

#Histogramas De Actividades Manufactureras
plot(distM, type="fh") #Histograma de frecuencias absolutas

plot(distM, type="rfh") #Histograma de frecuencias relativas

plot(distM, type="cfh") #Histograma de frecuencias acumuladas

#Polígonos De Actividades Manufactureras

plot(distM, type="fp") #polígono de frecuencias absolutas

plot(distM, type="rfp") # polígono de frecuencias relativas

plot(distM, type="cfp") # polígono de frecuencias acumuladas

Mediddas de dispersión

  • Varianza, La varianza es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media. Formalmente se calcula como la suma de los residuos al cuadrado divididos entre el total de observaciones

  • La desviación estándar es la medida de dispersión más común, que indica qué tan dispersos están los datos con respecto a la media. Mientras mayor sea la desviación estándar, mayor será la dispersión de los datos.

El símbolo σ (sigma) se utiliza frecuentemente para representar la desviación estándar de una población, mientras que s se utiliza para representar la desviación estándar de una muestra. La variación que es aleatoria o natural de un proceso se conoce comúnmente como ruido.

Gráfico de dispersión (scatterplot)

plot(Prim)

plot(Manu)

Interpretacion

Ante los graficos de dispersion anteriores se puede analizar que aunque las actividades manufactures son de mayor escala, al contrario de las actividades primarias, las actividades manufactureras varian de mayor forma que las actividades primarias, teniendo subidas y bajadas pronunciadas, en cambio las actividades primarias se encuentran mas uniforme. Ademas considerando la pandemia y el comentario del profesor durante la clase, al final de los graficos hacia el lado derecho se ve como en las Actividades manufactureras se ve una caida por el hecho de que no se puede tener la misma cantidad de personal trabajando dentro de un espacio cerrado, como lo son las mayoria de los establecimientos donde se llevan a cabo dichas actividades, y con las medidas necesarias, al contrario de las Actividades Primarias, las cuales son al aire libre, y se puede tener mas espacio para que los trabajadores esten separados y se pueda tener en cuenta las medidas pertinentes, por lo cual, en lugar de bajar, las actividades primarias aumentaron un poco mas.

Estadística inferencial

La estadística inferencial es una parte de la estadística que comprende los métodos y procedimientos que por medio de la inducción determina propiedades de una población estadística, a partir de una parte de esta. Su objetivo es obtener conclusiones útiles para hacer deducciones sobre una totalidad, basándose en la información numérica de la muestra.

¿De que forma se relaciona el PIB dentro de las Actividades economicas Primarias y Manufactureras?

Matriz de diagramas de dispersión

pairs(PIB)

Matriz de coeficientes de correlación

cor(PIB)
##               primarias manufactura inmobiliarias
## primarias     1.0000000   0.8979538     0.9614170
## manufactura   0.8979538   1.0000000     0.9115337
## inmobiliarias 0.9614170   0.9115337     1.0000000

Interpretacion

Analizando el diagrama de dispersion donde se encuentran las tres actividades y el cuadro del coeficiente de correlacion, se puede intuir que las tres actividades estan relacionadas entre ellas, pero principalmente las actividades primarias y las inmobiliaras entre ellas, esto se debe a que estas son las bases para la poblacion, comida y vivienda, en este caso las actividades manufactureras quedan un poco al margen, por el hecho de que colocando la piramide de necesidades de maslow, lo principal que busca la poblacion son las necesidades basicas y un lugar donde vivir y sentirse seguros, por ello, las dos ultimas actividades mencionadas casi no varian y se ven mas relacionadas.