setwd("~/E1LMV11")
library(readr)
PIB <- read_csv("PIB.CSV")
##
## -- Column specification --------------------------------------------------------
## cols(
## primarias = col_double(),
## manufactura = col_double(),
## inmobiliarias = col_double()
## )
View(PIB)
head(PIB)
## # A tibble: 6 x 3
## primarias manufactura inmobiliarias
## <dbl> <dbl> <dbl>
## 1 371390. 1698488. 998787.
## 2 369425. 1678576. 1010400.
## 3 377071. 1671630. 1017815.
## 4 362920. 1681706. 1027499.
## 5 363635. 1698171. 1040847.
## 6 393408. 1737834. 1052990.
inm <- PIB$inmobiliarias
man <- PIB$manufactura
La estadística descriptiva es la rama de la estadística que recolecta, analiza y caracteriza un conjunto de datos (peso de la población, beneficios diarios de una empresa, temperatura mensual,…) con el objetivo de describir las características y comportamientos de este conjunto mediante medidas de resumen, tablas o gráficos.
Las medidas de tendencia central son parámetros estadísticos que informan sobre el centro de la distribución de la muestra o población estadística.
La media, también conocida como promedio, es el valor que se obtiene al dividir la suma de un conglomerado de números entre la cantidad de ellos.
Algunas características de la media son:
Considera todas las puntuaciones El numerador de la fórmula es la cantidad de valores Cuando hay puntuaciones extremas, no tiene una representación exacta de la muestra
mean(PIB$manufactura)
## [1] 2370180
mean(PIB$inmobiliarias)
## [1] 1570802
La mediana es un conjunto es un valor que se encuentra a la mitad de los otros valores, es decir, que al ordenar los número de menor a mayor, éste se encuentra justamente en medio entre los que están por arriba.
Algunas características de la media son:
Las operaciones para calcular el valor son muy sencillas de realizar. La medida no depende de los valores de las variables, solamente de su orden. Generalmente, los valores son enteros. Se puede calcular aunque los números que se encuentren arriba y abajo no tengan límites.
median(PIB$manufactura)
## [1] 2372057
median(PIB$inmobiliarias)
## [1] 1582417
a moda es el valor que aparece más dentro de un conglomerado. En un grupo puede haber dos modas y se conoce como bimodal, y más de dos modas o multimodal cuando se repiten más de dos valores; se llama amodal cuando en un conglomerado no se repiten los valores.
Por último, se conoce como moda adyacente cuando dos valores continuos tienen la misma cantidad de repeticiones. En este caso se saca el promedio de ambos.
Las principales características de la moda son:
Es una muestra muy clara Las operaciones para determinar el resultado son muy fáciles de elaborar Los valores que se presentan pueden ser cualitativos y cuantitativos
library(modeest)
mlv(PIB$manufactura, method = "mfv")
## [1] 1591590 1630377 1671630 1678576 1681706 1698171 1698331 1698488 1737834
## [10] 1760069 1766085 1769214 1781156 1796901 1812049 1888922 1921331 1977080
## [19] 2021828 2087948 2100335 2111285 2152457 2152752 2157564 2166767 2183179
## [28] 2188641 2212026 2218840 2224143 2231770 2234171 2239728 2242791 2243939
## [37] 2245005 2246333 2249843 2251276 2253833 2254089 2283201 2296002 2316299
## [46] 2316839 2320765 2325533 2329709 2331730 2331854 2342612 2344402 2351759
## [55] 2364911 2366278 2377837 2387464 2413172 2421035 2422352 2428010 2439170
## [64] 2442793 2444821 2456107 2457225 2468088 2470754 2472527 2473144 2473742
## [73] 2474986 2483717 2491708 2502094 2522297 2540534 2558515 2558725 2563296
## [82] 2570231 2575538 2590132 2593854 2636394 2681868 2686401 2727775 2733965
## [91] 2752923 2770210 2770819 2772088 2774488 2787010 2805940 2834238 2837244
## [100] 2865578 2879245 2880133 2892737 2894845 2895683 2929393 2932418 2939272
## [109] 2939943 2953599 2978552 2981584
library(modeest)
mlv(PIB$inmobiliarias, method = "mfv")
## [1] 998786.5 1010400.0 1017815.1 1027499.3 1040846.8 1052990.5 1061997.4
## [8] 1071085.9 1081899.1 1090147.5 1100050.2 1108722.8 1121553.8 1130838.5
## [15] 1140772.0 1148461.8 1152976.5 1162436.3 1169150.5 1176209.7 1180001.7
## [22] 1188178.1 1194145.0 1202344.2 1214119.5 1227782.5 1241755.1 1252100.9
## [29] 1265115.5 1277347.8 1289301.5 1300858.7 1315843.3 1328261.4 1336191.8
## [36] 1345491.7 1346509.0 1354713.5 1368670.8 1378940.5 1395531.7 1402297.5
## [43] 1420959.0 1435916.0 1449865.7 1466334.0 1471072.0 1471404.9 1484691.7
## [50] 1496019.1 1501011.5 1515406.3 1539661.1 1560846.7 1568628.7 1578234.6
## [57] 1586600.3 1608974.7 1626808.6 1637882.7 1645685.8 1665057.0 1672874.1
## [64] 1673078.5 1678430.7 1679159.3 1699994.1 1702526.6 1713141.9 1728565.7
## [71] 1752428.3 1762721.3 1777521.0 1779450.1 1792507.4 1813614.3 1822601.4
## [78] 1829997.1 1842771.2 1843496.9 1847655.2 1852728.3 1857708.6 1867323.0
## [85] 1880929.2 1886702.1 1901156.9 1912307.3 1918526.3 1942484.3 1946775.7
## [92] 1957807.3 1958684.1 1977714.4 1985272.8 1997899.6 1998123.1 1998584.3
## [99] 2006775.5 2018933.9 2029323.8 2029454.1 2038797.5 2043916.1 2045017.9
## [106] 2052070.5 2059907.9 2062074.7 2069001.6 2071895.5 2073988.6 2074242.0
El rango y el rango intercuartil (RIQ) miden la “dispersión” de un conjunto de datos. Mirar la dispersión nos permite ver qué tanto varían los datos. El rango es una manera rápida de tener una idea de la dispersión. Lleva más tiempo encontrar el RIQ, pero a veces nos da información más útil sobre la dispersión.
# Manufactura
summary(man)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1591590 2206180 2372058 2370180 2591063 2981584
IQR(man)
## [1] 384883.3
# Inmobiliario
summary(inm)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 998787 1261862 1582417 1570802 1870725 2074242
IQR(inm)
## [1] 608862.7
El número de clases y la amplitud de los intervalos los fija el investigador de acuerdo con el conocimiento que posea de la población, la necesidad de hacer comparación con otras investigaciones y la presentación de la información. Sin embargo, se recomienda que la información no sea demasiado compacta, lo cual le restaría precisión, ni demasiado dispersa, ya que no se tendría claridad. La amplitud debe ser igual para todos los intervalos y, en lo posible, no se debe trabajar con clases abiertas.
Manufactura
maximo <- max(PIB$manufactura) #valor más grande
maximo
## [1] 2981584
minimo <- min(PIB$manufactura) #valor más chico
minimo
## [1] 1591590
rango <- (maximo-minimo) #amplitud
Inmobiliarias
maximo <- max(PIB$inmobiliarias) #valor más grande
maximo
## [1] 2074242
minimo <- min(PIB$inmobiliarias) #valor más chico
minimo
## [1] 998786.5
rango <- (maximo-minimo) #amplitud
rango
## [1] 1075455
Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría.
Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente.
boxplot(PIB$manufactura)
boxplot(PIB$manufactura)
### Distribución de frecuencias
Las distribuciones o tablas de frecuencias permiten resumir los datos en una tabla que recoge:
• valores de la variable o modalidades del atributo,
• frecuencia absoluta o número de veces que aparece cada valor o modalidad en la muestra,
• porcentaje de veces que aparece cada valor de la variable o modalidad del atributo sobre el total de observaciones,
• porcentaje válido calculado sobre el total de observaciones excluidos los valores missing,
• porcentaje acumulado hasta cada uno de los valores de la variable ordenados de menor a mayor. Este porcentaje tiene interpretación sólo en los casos en que la variable sea susceptible de medida por lo menos en una escala ordinal.
Manufactura
library(fdth) #importar paquete
##
## Attaching package: 'fdth'
## The following object is masked from 'package:modeest':
##
## mfv
## The following objects are masked from 'package:stats':
##
## sd, var
dist <- fdt(PIB$manufactura, breaks="Sturges")
dist
## Class limits f rf rf(%) cf cf(%)
## [1575674.365,1755140.009) 9 0.08 8.04 9 8.04
## [1755140.009,1934605.653) 8 0.07 7.14 17 15.18
## [1934605.653,2114071.298) 5 0.04 4.46 22 19.64
## [2114071.298,2293536.942) 21 0.19 18.75 43 38.39
## [2293536.942,2473002.586) 27 0.24 24.11 70 62.50
## [2473002.586,2652468.23) 16 0.14 14.29 86 76.79
## [2652468.23,2831933.874) 11 0.10 9.82 97 86.61
## [2831933.874,3011399.518) 15 0.13 13.39 112 100.00
sort(man)
## [1] 1591590 1630377 1671630 1678576 1681706 1698171 1698331 1698488 1737834
## [10] 1760069 1766085 1769214 1781156 1796901 1812049 1888922 1921331 1977080
## [19] 2021828 2087948 2100335 2111285 2152457 2152752 2157564 2166767 2183179
## [28] 2188641 2212026 2218840 2224143 2231770 2234171 2239728 2242791 2243939
## [37] 2245005 2246333 2249843 2251276 2253833 2254089 2283201 2296002 2316299
## [46] 2316839 2320765 2325533 2329709 2331730 2331854 2342612 2344402 2351759
## [55] 2364911 2366278 2377837 2387464 2413172 2421035 2422352 2428010 2439170
## [64] 2442793 2444821 2456107 2457225 2468088 2470754 2472527 2473144 2473742
## [73] 2474986 2483717 2491708 2502094 2522297 2540534 2558515 2558725 2563296
## [82] 2570231 2575538 2590132 2593854 2636394 2681868 2686401 2727775 2733965
## [91] 2752923 2770210 2770819 2772088 2774488 2787010 2805940 2834238 2837244
## [100] 2865578 2879245 2880133 2892737 2894845 2895683 2929393 2932418 2939272
## [109] 2939943 2953599 2978552 2981584
Histograma. Está formado por una serie de rectángulos que tienen sus bases sobre un eje horizontal (eje x) e iguales al ancho de clase su altura es igual a la frecuencia de clase.
Polígono de frecuencias. Es un grafico de líneas trazado sobre los puntos medios de los extremos superiores de cada rectángulo.
#Histogramas
plot(dist, type = "fh") # Histograma de frecuencia absoluta
plot(dist, type = "rfh") #Histograma de frecuencia relativa
plot(dist, type = "cfh") #Histograma de frecuencia acumulada
#Polígonos
plot(dist, type = "fp") # Polígono de frecuencia absoluta
plot(dist, type = "rfp") # Polígono de frecuencia relativa
plot(dist, type = "cfp") # Polígono de frecuencia acumulada
La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística.
var(PIB$manufactura, na.rm = TRUE)
## [1] 130102816410
La desviación estándar mide la dispersión de una distribución de datos. Entre más dispersa está una distribución de datos, más grande es su desviación estándar.
sd(PIB$manufactura, na.rm = TRUE)
## [1] 360697.7
Una matriz de gráficos de dispersión es una cuadrícula de varios gráficos de dispersión de hasta cinco variables numéricas. La matriz incluye gráficos de dispersión individuales para cualquier combinación de variables.
Manufactura
plot(man)
library(fdth) #importar paquetes
dist <- fdt(inm, breaks = "Sturges")
dist
## Class limits f rf rf(%) cf cf(%)
## [988798.6608,1127071.883) 13 0.12 11.61 13 11.61
## [1127071.883,1265345.105) 16 0.14 14.29 29 25.89
## [1265345.105,1403618.328) 13 0.12 11.61 42 37.50
## [1403618.328,1541891.55) 11 0.10 9.82 53 47.32
## [1541891.55,1680164.772) 13 0.12 11.61 66 58.93
## [1680164.772,1818437.995) 10 0.09 8.93 76 67.86
## [1818437.995,1956711.217) 15 0.13 13.39 91 81.25
## [1956711.217,2094984.439) 21 0.19 18.75 112 100.00
sort(inm)
## [1] 998786.5 1010400.0 1017815.1 1027499.3 1040846.8 1052990.5 1061997.4
## [8] 1071085.9 1081899.1 1090147.5 1100050.2 1108722.8 1121553.8 1130838.5
## [15] 1140772.0 1148461.8 1152976.5 1162436.3 1169150.5 1176209.7 1180001.7
## [22] 1188178.1 1194145.0 1202344.2 1214119.5 1227782.5 1241755.1 1252100.9
## [29] 1265115.5 1277347.8 1289301.5 1300858.7 1315843.3 1328261.4 1336191.8
## [36] 1345491.7 1346509.0 1354713.5 1368670.8 1378940.5 1395531.7 1402297.5
## [43] 1420959.0 1435916.0 1449865.7 1466334.0 1471072.0 1471404.9 1484691.7
## [50] 1496019.1 1501011.5 1515406.3 1539661.1 1560846.7 1568628.7 1578234.6
## [57] 1586600.3 1608974.7 1626808.6 1637882.7 1645685.8 1665057.0 1672874.1
## [64] 1673078.5 1678430.7 1679159.3 1699994.1 1702526.6 1713141.9 1728565.7
## [71] 1752428.3 1762721.3 1777521.0 1779450.1 1792507.4 1813614.3 1822601.4
## [78] 1829997.1 1842771.2 1843496.9 1847655.2 1852728.3 1857708.6 1867323.0
## [85] 1880929.2 1886702.1 1901156.9 1912307.3 1918526.3 1942484.3 1946775.7
## [92] 1957807.3 1958684.1 1977714.4 1985272.8 1997899.6 1998123.1 1998584.3
## [99] 2006775.5 2018933.9 2029323.8 2029454.1 2038797.5 2043916.1 2045017.9
## [106] 2052070.5 2059907.9 2062074.7 2069001.6 2071895.5 2073988.6 2074242.0
#Histogramas
plot(dist, type = "fh") # Histograma de frecuencia absoluta
plot(dist, type = "rfh") #Histograma de frecuencia relativa
plot(dist, type = "cfh") #Histograma de frecuencia acumulada
#Polígonos
plot(dist, type = "fp") # Polígono de frecuencia absoluta
plot(dist, type = "rfp") # Polígono de frecuencia relativa
plot(dist, type = "cfp") # Polígono de frecuencia acumulada
Varianza
var(PIB$inmobiliarias, na.rm = TRUE)
## [1] 1.15122e+11
Desviación estandar
sd(PIB$inmobiliarias, na.rm = TRUE)
## [1] 339296.4
plot(inm)
Se llama estadística inferencial o inferencia estadística a la rama de la Estadística encargada de hacer deducciones, es decir, inferir propiedades, conclusiones y tendencias, a partir de una muestra del conjunto. Su papel es interpretar, hacer proyecciones y comparaciones.
pairs(PIB)
El coeficiente de variación es una medida de dispersión, pero expresada en términos relativos. Para efectos prácticos es básicamente lo mismo que la desviación estándar, pero expresado en términos porcentuales, lo cual permite establecer comparaciones con variables expresadas en diferentes unidades o escalas.
cor(PIB)
## primarias manufactura inmobiliarias
## primarias 1.0000000 0.8979538 0.9614170
## manufactura 0.8979538 1.0000000 0.9115337
## inmobiliarias 0.9614170 0.9115337 1.0000000
regresion <-lm(manufactura~ inmobiliarias, data=PIB)
summary(regresion)
##
## Call:
## lm(formula = manufactura ~ inmobiliarias, data = PIB)
##
## Residuals:
## Min 1Q Median 3Q Max
## -714292 -87804 24752 100100 323637
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8.480e+05 6.697e+04 12.66 <2e-16 ***
## inmobiliarias 9.690e-01 4.168e-02 23.25 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 149000 on 110 degrees of freedom
## Multiple R-squared: 0.8309, Adjusted R-squared: 0.8294
## F-statistic: 540.5 on 1 and 110 DF, p-value: < 2.2e-16
Podemos concluir que la manufactura sirve para elaborar y vender productos para obtener utilidades, también podemos decir que el PIB es el valor monetario de una producción el PIB refleja la competitividad que hay en las empresas esto cuando decrece esto quiere decir que no ha habido una inversión suficiente.