V ďaľšom uvedieme dva príklady s reálnymi dátami pre rôzne usporiadané vstupné údaje.
PRÍKLAD 1
Údaje o priemernom počte rokov vzdelávania (Leeuwen, Leeuwen, 2015) za jednotlivé krajiny sveta. Budeme pracovať s údajmi iba za roky 1950, 2000 a 2010 sú v excelovskom súbore názvom edu.xlsx, na hárku 1. Súbor je v adresári c:/bs. Každý záznam (riadok) obshuje tri hodnoty : štát, priemerný počet rokov vzdelávania a rok,za ktorý je údaj o priemernom počte rokov vzdelávania.
library(xlsx)
udajeE= read.xlsx("c:/bs/edu.xlsx",1)
attach(udajeE)
Vypíšme názvy stĺpcov. Ako ukážku obsahu datovej tabuľky udajeE vypíšme prvých 10 a posledných 5 riadkov.
colnames(udajeE) # výpis názvov stĺpcov
## [1] "country" "pocet" "rok"
head(udajeE, 10) # výpis prvých 10 riadkov
## country pocet rok
## 1 Afghanistan 2.50700 2000
## 2 Algeria 6.45000 2000
## 3 Angola 2.39000 2000
## 4 Argentina 8.37000 2000
## 5 Armenia 10.60200 2000
## 6 Australia 12.99000 2000
## 7 Austria 11.24000 2000
## 8 Azerbaijan 10.62945 2000
## 9 Bangladesh 4.42000 2000
## 10 Barbados 9.17398 2000
tail(udajeE,5) # výpis posledných 5 riadkov
## country pocet rok
## 384 Uruguay 4.910000 1950
## 385 Venezuela 2.530000 1950
## 386 Vietnam 2.781742 1950
## 387 Zambia 2.551758 1950
## 388 Zimbabwe 2.000407 1950
Iný spôsob vypísania obmien znaku rok môžeme získať pomocou príkazu
levels(factor(udajeE$rok))
## [1] "1950" "2000" "2010"
Úsečky vychádzajúce z krabice (niekedy nazývané fúzy) znázorňujú minimum a maximum údajov (range=0). Keď je hodnota range iné kladné číslo k,potom dĺžka úsečiek je k-násobkom kvartilového rozpätia (range=k). Presnejšie povedané dĺžka dolného “fúzu” je min (min; k násobok kvartilového rozpätia), dĺžka horného “fúzu” je min(max, k násobok kvartilového rozpätia). Za hodnotu k sa obvykle volí hodnota 1,5. Hodnoty väčšie ako horný kvartil + 1,5 násobok kvartilového rozpätia sa považujú za extrémne väľké. Hodnoty menšie ako dolný kvartil - 1,5 násobok kvartilového rozpätia za extrémne malé. V závislosti od riešeného probému môžeme za hodnotu k voliť vhodné číslo.
Znázorníme krabicové grafy pre priemerný počet rokov vzdelania pre roky 1950, 2000 a 2010 do jedného obrázku.Krabicové grafy nech sú v horizontálne.
Na nasledujúcom obrázku sú krabicové grafy pre k=0 a všetky tri analyzované roky. Horná a dolná hranica úsečiek zodpovedajú maximálnej a minimálnej hodnote. Krabicové grafy sú horizontálne (horizontal=TRUE). Parameter las nadobúda hodnotu 2 (las=2), tj. popis osi y bude na ňu kolmý.
boxplot(pocet ~ rok,
main = " Priemerný počet rokov vzdelávania (range=0)",
xlab = "Priemerný počet rokov ",
ylab = "Rok",
range=0,
las=2 ,
at = c(1,2,3),
names = c("1950", "2000","2010"),
col = c("green3","blue2","yellow"),
border = "black",
horizontal = TRUE
)
Pomôžme si aj hodnotami. Vypíšme popísné štatistiky (FUN =summary) pre druhú premennú v datovej tabuľke uudajeE (udajeE[,2]) pre jednotlivé skupiny (by=list(udajeE$rok))
agg=aggregate(udajeE[,2],by=list(udajeE$rok),FUN =summary)
agg
## Group.1 x.Min. x.1st Qu. x.Median x.Mean x.3rd Qu. x.Max.
## 1 1950 0.0400000 1.1500000 2.5350000 3.2348116 5.0375000 9.6100000
## 2 2000 0.8840623 4.8486137 7.3900000 7.3619255 10.1547032 13.0700000
## 3 2010 1.3100000 5.6775000 8.0320000 7.9525510 10.5702887 13.6100000
Z grafu vidíme, že minimálny priemerný počet rokov vzdelávania 0,04 v roku 1950 sa postupne zvýšil na 0,88 (v roku 2000) a následne na hodnotu 1,31 v roku 2010. Vidíme, že dolný kvartil v roku 1950 je nižší ako minimálna hodnota v roku 2010. Rovnako sa zvyšovala aj maximálna hodnota – z hodnoty 9,61 v roku 1950 na 13,61 v roku 2010. Horný kvartil v rokoch 2000 aj 2010 je vyšší ako maximálna hodnota 9,61 v roku 1950. Medián sa tiež postupne zvyšoval (z hodnoty 2,53 na hodnotu 8,03). Kým pravdepodobnostné rozdelenie v roku 1950 je zošikmené doprava (ľavý zelený obdĺžnik je užší ako pravý; pre úplnosť dodajme, že v každom je rovnaký počet pozorovaní, čiže v prvom obdĺžniku sú hustejšie), v rokoch 2000 a 2010 je medián v strede krabice, t.j. oba obdĺžniky sú približne rovnaké, čo indikuje symetrické rozdelenie. Toto tvrdenie podporuje aj skutočnosť, že priemer sa v oboch rokoch približne rovná mediánu (2,53 a 3,24; 7,39 a 7,36). Toto tvrdenie je pravdivé, keď sa jedná o jednovrcholové pravdepodobnostné rozdelenie. Krabicový graf, ani základné popisné štatistiky však informáciu o tvare funkcie hustoty nedávajú.
Preto pre úplnosť musíme zostrojiť jadrovú funkciu hustoty pre jednotlivé roky. Budeme potrebovať knižnicu lattice (library(“lattice”)). Jadrovú funkciu hustoty zostrojíme pre stĺpec (premennú) pocet v data frame s názvom udajeE. Skupiny sú tvorené na základe hodnôt rok. Body nechceme znázorniť (plot.points=FALSE). Pomocou auto.key =TRUE získame zobrazenie legendy.
library("lattice")
densityplot(~pocet,data=udajeE,
groups=rok,
xlab="priemerný počet rokov vzdelávania",
main="Priemerný počet rokov vzdelávania vo vybraných rokoch",
plot.points=FALSE,
auto.key =TRUE)
Jadrove funkcie hustoty pre priemerný počet rokov vzdelávania nie sú dvojvrcholové, takže náš komentár je úplne v poriadku.
Zostrojme krabicové grafy pre hodnotu parametra range=1,5, aby sme zistili, či existujú extrémne hodnoty. Farbu výplne krabicových grafov zadáme ako hexadecimálne číslo.
Farbu si môžeme vybrať napríklad na webovej stránke https://www.rapidtables.com/web/color/RGB_Color.html
boxplot(pocet ~ rok,
main = " Priemerný počet rokov vzdelávania (range = 1,5)",
xlab = "Priemerný počet rokov ",
ylab = "Rok",
range=1.5,
las=2,
at = c(1,2,3),
names = c("1950", "2000","2010"),
col = c("#C0FFC0","#00C3FF","#F3F390"),
border = "black",
horizontal = TRUE
)
Z obrázku vidíme, že neexistujú extrémne nízke ani extrémne vysoké hodnoty.
Zostrojme krabicový graf pre range = 0,5, t.j. guličkou budú označené všetky hodnoty, ktoré sú od dolného kvartilu vzdialenejšie ako 0,5 násobok kvartilového rozpätia a hodnoty, ktoré sú od horného kvartilu vzdialenejšie ako 0,5 násobok kvartilového rozpätia.
boxplot(pocet ~ rok,
main = " Priemerný počet rokov vzdelávania (range = 0,5)",
xlab = "Priemerný počet rokov ",
ylab = "Rok",
range=0.5,
las=2,
at = c(1,2,3),
names = c("1950", "2000","2010"),
col = c("#C0FFC0","#00C3FF","#F3F390"),
border = "black",
horizontal = TRUE
)
PRÍKLAD 2
Údaje o HDP na obyvateľa (Bolt a Zanden, 2015) za jednotlivé krajiny sveta. Budeme pracovať s údajmi iba za roky 1870, 1880, 1890 a 1900. Excelovský súbor obsahuje časť údajov, ktoré sú dostupné od Bolta a Zandena (2015) a to od roku 1870 do roku 2010. Sú v excelovskom súbore názvom gdp.xlsx, na hárku 1. Súbor je v adresári c:/bs.
library(xlsx)
udajeG= read.xlsx("c:/bs/gdp.xlsx",1)
attach(udajeG)
Vypíšme názvy stĺpcov.
Ako ukážku obsahu datovej tabuľky udajeG vypíšme prvé 3 a posledné 2 riadky.
colnames(udajeG) # výpis názvov stĺpcov
## [1] "country.name" "ROK1870" "ROK1871" "ROK1872" "ROK1873"
## [6] "ROK1874" "ROK1875" "ROK1876" "ROK1877" "ROK1878"
## [11] "ROK1879" "ROK1880" "ROK1881" "ROK1882" "ROK1883"
## [16] "ROK1884" "ROK1885" "ROK1886" "ROK1887" "ROK1888"
## [21] "ROK1889" "ROK1890" "ROK1891" "ROK1892" "ROK1893"
## [26] "ROK1894" "ROK1895" "ROK1896" "ROK1897" "ROK1898"
## [31] "ROK1899" "ROK1900" "ROK1901" "ROK1902" "ROK1903"
## [36] "ROK1904" "ROK1905" "ROK1906" "ROK1907" "ROK1908"
## [41] "ROK1909" "ROK1910" "ROK1911" "ROK1912" "ROK1913"
## [46] "ROK1914" "ROK1915" "ROK1916" "ROK1917" "ROK1918"
## [51] "ROK1919" "ROK1920" "ROK1921" "ROK1922" "ROK1923"
## [56] "ROK1924" "ROK1925" "ROK1926" "ROK1927" "ROK1928"
## [61] "ROK1929" "ROK1930" "ROK1931" "ROK1932" "ROK1933"
## [66] "ROK1934" "ROK1935" "ROK1936" "ROK1937" "ROK1938"
## [71] "ROK1939" "ROK1940" "ROK1941" "ROK1942" "ROK1943"
## [76] "ROK1944" "ROK1945" "ROK1946" "ROK1947" "ROK1948"
## [81] "ROK1949" "ROK1950" "ROK1951" "ROK1952" "ROK1953"
## [86] "ROK1954" "ROK1955" "ROK1956" "ROK1957" "ROK1958"
## [91] "ROK1959" "ROK1960" "ROK1961" "ROK1962" "ROK1963"
## [96] "ROK1964" "ROK1965" "ROK1966" "ROK1967" "ROK1968"
## [101] "ROK1969" "ROK1970" "ROK1971" "ROK1972" "ROK1973"
## [106] "ROK1974" "ROK1975" "ROK1976" "ROK1977" "ROK1978"
## [111] "ROK1979" "ROK1980" "ROK1981" "ROK1982" "ROK1983"
## [116] "ROK1984" "ROK1985" "ROK1986" "ROK1987" "ROK1988"
## [121] "ROK1989" "ROK1990" "ROK1991" "ROK1992" "ROK1993"
## [126] "ROK1994" "ROK1995" "ROK1996" "ROK1997" "ROK1998"
## [131] "ROK1999" "ROK2000" "ROK2001" "ROK2002" "ROK2003"
## [136] "ROK2004" "ROK2005" "ROK2006" "ROK2007" "ROK2008"
## [141] "ROK2009" "ROK2010"
head(udajeG,3) # výpis prvých 3 riadkov
## country.name ROK1870 ROK1871 ROK1872 ROK1873 ROK1874 ROK1875 ROK1876 ROK1877
## 1 Afghanistan NA NA NA NA NA NA NA NA
## 2 Albania 446 NA NA NA NA NA NA NA
## 3 Algeria 715 NA NA NA NA NA NA NA
## ROK1878 ROK1879 ROK1880 ROK1881 ROK1882 ROK1883 ROK1884 ROK1885 ROK1886
## 1 NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA
## ROK1887 ROK1888 ROK1889 ROK1890 ROK1891 ROK1892 ROK1893 ROK1894 ROK1895
## 1 NA NA NA NA NA NA NA NA NA
## 2 NA NA NA 598 NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA
## ROK1896 ROK1897 ROK1898 ROK1899 ROK1900 ROK1901 ROK1902 ROK1903 ROK1904
## 1 NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA 685 NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA
## ROK1905 ROK1906 ROK1907 ROK1908 ROK1909 ROK1910 ROK1911 ROK1912 ROK1913
## 1 NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA 780 NA NA 811
## 3 NA NA NA NA NA NA NA NA 1163
## ROK1914 ROK1915 ROK1916 ROK1917 ROK1918 ROK1919 ROK1920 ROK1921 ROK1922
## 1 NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA
## ROK1923 ROK1924 ROK1925 ROK1926 ROK1927 ROK1928 ROK1929 ROK1930 ROK1931
## 1 NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA 926 NA NA
## 3 NA NA NA NA NA NA NA NA NA
## ROK1932 ROK1933 ROK1934 ROK1935 ROK1936 ROK1937 ROK1938 ROK1939 ROK1940
## 1 NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA
## ROK1941 ROK1942 ROK1943 ROK1944 ROK1945 ROK1946 ROK1947 ROK1948 ROK1949
## 1 NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA
## ROK1950 ROK1951 ROK1952 ROK1953 ROK1954 ROK1955 ROK1956 ROK1957 ROK1958
## 1 645 653 664 692 694 695 713 699 723
## 2 1001 1045 1046 1089 1120 1181 1193 1269 1326
## 3 1365 1347 1376 1369 1437 1445 1553 1693 1719
## ROK1959 ROK1960 ROK1961 ROK1962 ROK1963 ROK1964 ROK1965 ROK1966 ROK1967
## 1 729 739 730 726 723 720 720 710 712
## 2 1381 1451 1463 1511 1563 1616 1675 1738 1804
## 3 1994 2088 1799 1433 1768 1806 1870 1725 1824
## ROK1968 ROK1969 ROK1970 ROK1971 ROK1972 ROK1973 ROK1974 ROK1975 ROK1976
## 1 719 713 709 659 630 684 703 721 737
## 2 1869 1932 2004 2084 2165 2273 2282 2289 2299
## 3 1977 2105 2249 2000 2350 2357 2428 2522 2608
## ROK1977 ROK1978 ROK1979 ROK1980 ROK1981 ROK1982 ROK1983 ROK1984 ROK1985
## 1 669 704 689 690 764 833 863 847 819
## 2 2309 2319 2331 2347 2360 2373 2387 2400 2413
## 3 2759 3019 3192 3152 3131 3228 3289 3363 3431
## ROK1986 ROK1987 ROK1988 ROK1989 ROK1990 ROK1991 ROK1992 ROK1993 ROK1994
## 1 878 726 656 640 604.000 601.000 553.000 476.000 426.000
## 2 2428 2443 2459 2477 2499.400 1835.706 1764.004 1936.949 2067.467
## 3 3301 3192 3043 3067 2946.866 2839.856 2812.582 2686.412 2604.330
## ROK1995 ROK1996 ROK1997 ROK1998 ROK1999 ROK2000 ROK2001 ROK2002
## 1 512.000 526.000 541.000 556.000 571.000 565.000 507.000 619.000
## 2 2307.584 2481.856 2197.912 2405.345 2751.885 2962.279 3228.523 3397.684
## 3 2650.756 2702.261 2687.203 2781.525 2829.099 2849.066 2884.634 2977.440
## ROK2003 ROK2004 ROK2005 ROK2006 ROK2007 ROK2008 ROK2009 ROK2010
## 1 668.000 685.000 758.000 790.000 863.000 869.000 NA NA
## 2 3627.058 3864.394 4116.776 4367.438 4647.314 5010.032 5178.867 5374.991
## 3 3137.920 3252.728 3370.147 3385.772 3427.712 3447.419 3466.543 3512.581
tail(udajeG,2) # výpis posledných 2 riadkov
## country.name ROK1870 ROK1871 ROK1872 ROK1873 ROK1874 ROK1875 ROK1876
## 197 Zambia NA NA NA NA NA NA NA
## 198 Zimbabwe NA NA NA NA NA NA NA
## ROK1877 ROK1878 ROK1879 ROK1880 ROK1881 ROK1882 ROK1883 ROK1884 ROK1885
## 197 NA NA NA NA NA NA NA NA NA
## 198 NA NA NA NA NA NA NA NA NA
## ROK1886 ROK1887 ROK1888 ROK1889 ROK1890 ROK1891 ROK1892 ROK1893 ROK1894
## 197 NA NA NA NA NA NA NA NA NA
## 198 NA NA NA NA NA NA NA NA NA
## ROK1895 ROK1896 ROK1897 ROK1898 ROK1899 ROK1900 ROK1901 ROK1902 ROK1903
## 197 NA NA NA NA NA NA NA NA NA
## 198 NA NA NA NA NA NA NA NA NA
## ROK1904 ROK1905 ROK1906 ROK1907 ROK1908 ROK1909 ROK1910 ROK1911 ROK1912
## 197 NA NA NA NA NA NA NA NA NA
## 198 NA NA NA NA NA NA NA NA NA
## ROK1913 ROK1914 ROK1915 ROK1916 ROK1917 ROK1918 ROK1919 ROK1920 ROK1921
## 197 NA NA NA NA NA NA NA NA NA
## 198 NA NA NA NA NA NA NA NA NA
## ROK1922 ROK1923 ROK1924 ROK1925 ROK1926 ROK1927 ROK1928 ROK1929 ROK1930
## 197 NA NA NA NA NA NA NA NA NA
## 198 NA NA NA NA NA NA NA NA NA
## ROK1931 ROK1932 ROK1933 ROK1934 ROK1935 ROK1936 ROK1937 ROK1938 ROK1939
## 197 NA NA NA NA NA NA NA NA NA
## 198 NA NA NA NA NA NA NA NA NA
## ROK1940 ROK1941 ROK1942 ROK1943 ROK1944 ROK1945 ROK1946 ROK1947 ROK1948
## 197 NA NA NA NA NA NA NA NA NA
## 198 NA NA NA NA NA NA NA NA NA
## ROK1949 ROK1950 ROK1951 ROK1952 ROK1953 ROK1954 ROK1955 ROK1956 ROK1957
## 197 NA 661 688 715 743 772 736 803 817
## 198 NA 701 722 724 760 772 808 892 924
## ROK1958 ROK1959 ROK1960 ROK1961 ROK1962 ROK1963 ROK1964 ROK1965 ROK1966
## 197 776 915 960 938 905 902 996 1147 1056
## 198 906 925 938 956 939 901 953 984 967
## ROK1967 ROK1968 ROK1969 ROK1970 ROK1971 ROK1972 ROK1973 ROK1974 ROK1975
## 197 1107 1092 1056 1073 1042 1105 1062 1114 1041
## 198 1015 999 1086 1282 1353 1423 1432 1427 1402
## ROK1976 ROK1977 ROK1978 ROK1979 ROK1980 ROK1981 ROK1982 ROK1983 ROK1984
## 197 1071 990 967 910 911 936 877 828 796
## 198 1357 1221 1232 1211 1295 1407 1405 1374 1297
## ROK1985 ROK1986 ROK1987 ROK1988 ROK1989 ROK1990 ROK1991 ROK1992
## 197 784 762 755 777 762 806.2474 778.9117 773.401
## 198 1335 1322 1257 1326 1368 1355.4496 1412.6892 1259.719
## ROK1993 ROK1994 ROK1995 ROK1996 ROK1997 ROK1998 ROK1999
## 197 752.4368 635.6229 602.1362 627.6837 630.4408 601.7004 598.3341
## 198 1256.3343 1315.9172 1309.6728 1416.9489 1417.1512 1401.5992 1337.0462
## ROK2000 ROK2001 ROK2002 ROK2003 ROK2004 ROK2005 ROK2006 ROK2007
## 197 601.6444 612.6382 616.5487 632.4973 650.5411 668.1623 691.1682 714.2594
## 198 1231.0036 1248.1610 1128.1078 941.7800 891.5412 849.2912 826.7981 802.6494
## ROK2008 ROK2009 ROK2010
## 197 734.2203 760.2575 795.3689
## 198 660.7354 699.5602 749.7979
Znázornime krabicové grafy pre HDP na obyvateľa pre roky 1870, 1880, 1890 a 1900 do jedného obrázku. Krabicové grafy majú byť zvislé (horizontal = FALSE). Do krabicových grafov vyznačme priemer hodnôt pomocou plného kruhu (pch=16) červenej farby (col=“red”). Jeho veľkosť určená pomocou parametra cex.
Ako sme videli z ukážky obsahu datovej tabuľky, niektoré údaje nie sú dostupné. Preto nastavíme hodnotu parametra na.rm ako na.rm = TRUE.
boxplot(udajeG$ROK1870,udajeG$ROK1880, udajeG$ROK1890, udajeG$ROK1900,
main = "HDP v rokoch 1870 - 1900 (range = 1,5)",
at = c(1,2,3,4),
range=1.5,
names = c("1870", "1880","1890","1900"),
col = c("blue1","yellow","red3","green1"),
border = "black"
)
a=mean(udajeG$ROK1870, na.rm = TRUE)
b=mean(udajeG$ROK1880, na.rm = TRUE)
c=mean(udajeG$ROK1890, na.rm = TRUE)
d=mean(udajeG$ROK1900, na.rm = TRUE)
points(c(a,b,c,d), col="red",pch=16, cex=1)
Prehľad čísiel pre jednotlivé znaky (parameter pch) nájdeme na stránkach:
https://stat.ethz.ch/R-manual/R-patched/library/graphics/html/points.html
http://www.sthda.com/english/wiki/r-plot-pch-symbols-the-different-point-shapes-available-in-r
Pre interpretáciu, ktorej uvedieme aj hodnoty, si vypočítame základné popisné štatistiky. V kompaktnejšej forme získame výsledky pomocou nasledujúcich príkazov
library ("stargazer")
## Warning: package 'stargazer' was built under R version 4.0.3
##
## Please cite as:
## Hlavac, Marek (2018). stargazer: Well-Formatted Regression and Summary Statistics Tables.
## R package version 5.2.2. https://CRAN.R-project.org/package=stargazer
udaje= data.frame(udajeG)
cols <- c('ROK1870', 'ROK1880', 'ROK1890', 'ROK1900')
stargazer(
udaje[, cols], type = "text",
summary.stat = c("min", "p25", "median", "p75", "max", "mean")
)
##
## ===================================================================
## Statistic Min Pctl(25) Median Pctl(75) Max Mean
## -------------------------------------------------------------------
## ROK1870 337.273 633.000 840.000 1,467.611 3,273.000 1,155.149
## ROK1880 411.241 926.000 1,596.661 2,135.250 4,285.000 1,787.172
## ROK1890 483.066 976.230 1,473.000 2,416.450 4,830.000 1,795.852
## ROK1900 545.000 1,140.000 1,668.000 2,882.000 5,899.000 2,019.170
## -------------------------------------------------------------------
Rovnako, ako v Príklade 1, zostrojíme jadrovú funkciu hustoty pre jednotlivé roky.Budeme potrebovať knižnicu lattice (library(“lattice”)). Jadrovú funkciu hustoty zostrojíme pre stĺpce ROK1870, ROK1880, ROK1890, ROK1900. Údaje sú v datovej tabuľke s menom udajeG. Body nechceme znázorniť (plot.points=FALSE). Pomocou auto.key =TRUE získame zobrazenie legendy.Farby sú vyberaé automaticky.
library(lattice)
densityplot(~ ROK1870+ROK1880+ROK1890+ROK1900, data= udajeG,
main = "HDP v rokoch 1870 - 1990",
xlab = "HDP na obyvateľa v USD ",
auto.key = TRUE,
plot.points=FALSE
)
Teraz už môžeme pristúpiť k interpreetácii výsledov
Minimálna aj maximálna hodnota HDP na obyvateľa v hodnotených tridsiatich rokoch postupne rástla – z hodnoty 337,72 na 545,00(resp. z 3273,00 na 5899,00). Vzrástlo aj variačné rozpätie, ale tiž kvartilové rozpätie.V roku 1870 sme zaznamenali 5 extrémne vysokých hodnôt.V ďalších troch hodnotených rokoch sme zaznamenali každý rok iba jednu extrémnu hodnotu. Rovnako rástol aj priemer a to z hodnoty 1155,15 na 2019,17 USD. Medián vzrástol v roku 1880 oproti roku 1870 (z 840,00 na 1596,66 USD). Rovnako vzrástol v roku 1890 oproti roku 1900 z hodnoty 1795,85 na 2019,17. V roku 1890 a medián poklesol oproti predchádzajúcemu roku z hodnoty 1596,66 na hodnotu 1473,00. Funkcia hustoty bola v rokoch 1870 a 1880 dvojvrcholová, vnasledujúcich jednovrcholová a zošikmená do prava.
Je potrebné uporozniť, že naše závery bez znázornenia funkcie hustoty by nemuseli byť správne
Literatúra:
R Core Team (2020). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.
Podporné balíčky
Adrian Dragulescu and Cole Arendt (2020). xlsx: Read, Write, Format Excel 2007 and Excel 97/2000/XP/2003 Files. R package version 0.6.3. https://CRAN.R-project.org/package=xlsx
Hlavac, Marek (2018). stargazer: Well-Formatted Regression and Summary Statistics Tables. R package version 5.2.1. https://CRAN.R-project.org/package=stargazer
Sarkar, Deepayan (2008) Lattice: Multivariate Data Visualization with R. Springer, New York. ISBN 978-0-387-75968-5
Údaje
Bolt, J. , Zanden, J. L. (2015). GDP per Capita.[online]. [cit. 01.01.2021]. Dostupné na internete: http://hdl.handle.net/10622/8FCYOX, accessed via the Clio Infra website. Data downloaded from https://www.clio-infra.eu/data/GDPperCapita_Broad.xlsx
Leeuwen, B., Leeuwen, J. L. (2015). Average Years of Education.[online]. [cit. 01.01.2021]. Dostupné na internete: http://hdl.handle.net/10622/KCBMKI, accessed via the Clio Infra website.Data downloaded from https://www.clio-infra.eu/data/AverageYearsofEducation_Compact.xlsx
Iné
STEHLÍKOVÁ, B. 2020. Krabicový graf - príklad. [online]. 2020. RPubs [cit. 01.01.2021]. Dostupné na internete: https://rpubs.com/BeaSte/707716
Paneurópska vysoká škola v Bratislave
GA/2/2019 “Využitie informačných technológií pri rozvoji aplikačných možností kvantitatívnych metód v ekonómii”