V ďaľšom uvedieme dva príklady s reálnymi dátami pre rôzne usporiadané vstupné údaje.

PRÍKLAD 1

Údaje o priemernom počte rokov vzdelávania (Leeuwen, Leeuwen, 2015) za jednotlivé krajiny sveta. Budeme pracovať s údajmi iba za roky 1950, 2000 a 2010 sú v excelovskom súbore názvom edu.xlsx, na hárku 1. Súbor je v adresári c:/bs. Každý záznam (riadok) obshuje tri hodnoty : štát, priemerný počet rokov vzdelávania a rok,za ktorý je údaj o priemernom počte rokov vzdelávania.

  1. Na načítanie údajov potrebujeme knižnicu xlsx (library(xlsx)). Keď ju nemáme nainštalovanú, nainštalujeme ju pomocou príkazu install.packages(“xlsx”)
  2. Údaje načítame do datovej tabuľky (data frame) udajeE. Datová tabuľka je dvojrozmerné pole, které obsahuje v každom stĺpci prvky rovnakého typu údajov, ale jednotlivé stĺpce môžu byť odlišného typu. Je výhodné v prípade datovej tabuľky použiť funkciu attach(), ktorá umožňuje vypisovanie priamo bez uvedenia názvu objektu.
library(xlsx)
udajeE= read.xlsx("c:/bs/edu.xlsx",1) 
attach(udajeE)


Vypíšme názvy stĺpcov. Ako ukážku obsahu datovej tabuľky udajeE vypíšme prvých 10 a posledných 5 riadkov.

colnames(udajeE)  # výpis názvov stĺpcov          
## [1] "country" "pocet"   "rok"
head(udajeE, 10)  # výpis prvých 10 riadkov
##        country    pocet  rok
## 1  Afghanistan  2.50700 2000
## 2      Algeria  6.45000 2000
## 3       Angola  2.39000 2000
## 4    Argentina  8.37000 2000
## 5      Armenia 10.60200 2000
## 6    Australia 12.99000 2000
## 7      Austria 11.24000 2000
## 8   Azerbaijan 10.62945 2000
## 9   Bangladesh  4.42000 2000
## 10    Barbados  9.17398 2000
tail(udajeE,5)    # výpis posledných 5 riadkov
##       country    pocet  rok
## 384   Uruguay 4.910000 1950
## 385 Venezuela 2.530000 1950
## 386   Vietnam 2.781742 1950
## 387    Zambia 2.551758 1950
## 388  Zimbabwe 2.000407 1950

Iný spôsob vypísania obmien znaku rok môžeme získať pomocou príkazu

levels(factor(udajeE$rok))
## [1] "1950" "2000" "2010"


Úsečky vychádzajúce z krabice (niekedy nazývané fúzy) znázorňujú minimum a maximum údajov (range=0). Keď je hodnota range iné kladné číslo k,potom dĺžka úsečiek je k-násobkom kvartilového rozpätia (range=k). Presnejšie povedané dĺžka dolného “fúzu” je min (min; k násobok kvartilového rozpätia), dĺžka horného “fúzu” je min(max, k násobok kvartilového rozpätia). Za hodnotu k sa obvykle volí hodnota 1,5. Hodnoty väčšie ako horný kvartil + 1,5 násobok kvartilového rozpätia sa považujú za extrémne väľké. Hodnoty menšie ako dolný kvartil - 1,5 násobok kvartilového rozpätia za extrémne malé. V závislosti od riešeného probému môžeme za hodnotu k voliť vhodné číslo.


Znázorníme krabicové grafy pre priemerný počet rokov vzdelania pre roky 1950, 2000 a 2010 do jedného obrázku.Krabicové grafy nech sú v horizontálne.


Na nasledujúcom obrázku sú krabicové grafy pre k=0 a všetky tri analyzované roky. Horná a dolná hranica úsečiek zodpovedajú maximálnej a minimálnej hodnote. Krabicové grafy sú horizontálne (horizontal=TRUE). Parameter las nadobúda hodnotu 2 (las=2), tj. popis osi y bude na ňu kolmý.

boxplot(pocet ~ rok,  
main = " Priemerný počet rokov vzdelávania (range=0)",
xlab = "Priemerný počet rokov ",
ylab = "Rok",
range=0, 
las=2 ,  
at = c(1,2,3), 
names = c("1950", "2000","2010"), 
col = c("green3","blue2","yellow"), 
border = "black",  
horizontal = TRUE 
)


Pomôžme si aj hodnotami. Vypíšme popísné štatistiky (FUN =summary) pre druhú premennú v datovej tabuľke uudajeE (udajeE[,2]) pre jednotlivé skupiny (by=list(udajeE$rok))

agg=aggregate(udajeE[,2],by=list(udajeE$rok),FUN =summary)
agg
##   Group.1     x.Min.  x.1st Qu.   x.Median     x.Mean  x.3rd Qu.     x.Max.
## 1    1950  0.0400000  1.1500000  2.5350000  3.2348116  5.0375000  9.6100000
## 2    2000  0.8840623  4.8486137  7.3900000  7.3619255 10.1547032 13.0700000
## 3    2010  1.3100000  5.6775000  8.0320000  7.9525510 10.5702887 13.6100000


Z grafu vidíme, že minimálny priemerný počet rokov vzdelávania 0,04 v roku 1950 sa postupne zvýšil na 0,88 (v roku 2000) a následne na hodnotu 1,31 v roku 2010. Vidíme, že dolný kvartil v roku 1950 je nižší ako minimálna hodnota v roku 2010. Rovnako sa zvyšovala aj maximálna hodnota – z hodnoty 9,61 v roku 1950 na 13,61 v roku 2010. Horný kvartil v rokoch 2000 aj 2010 je vyšší ako maximálna hodnota 9,61 v roku 1950. Medián sa tiež postupne zvyšoval (z hodnoty 2,53 na hodnotu 8,03). Kým pravdepodobnostné rozdelenie v roku 1950 je zošikmené doprava (ľavý zelený obdĺžnik je užší ako pravý; pre úplnosť dodajme, že v každom je rovnaký počet pozorovaní, čiže v prvom obdĺžniku sú hustejšie), v rokoch 2000 a 2010 je medián v strede krabice, t.j. oba obdĺžniky sú približne rovnaké, čo indikuje symetrické rozdelenie. Toto tvrdenie podporuje aj skutočnosť, že priemer sa v oboch rokoch približne rovná mediánu (2,53 a 3,24; 7,39 a 7,36). Toto tvrdenie je pravdivé, keď sa jedná o jednovrcholové pravdepodobnostné rozdelenie. Krabicový graf, ani základné popisné štatistiky však informáciu o tvare funkcie hustoty nedávajú.

Preto pre úplnosť musíme zostrojiť jadrovú funkciu hustoty pre jednotlivé roky. Budeme potrebovať knižnicu lattice (library(“lattice”)). Jadrovú funkciu hustoty zostrojíme pre stĺpec (premennú) pocet v data frame s názvom udajeE. Skupiny sú tvorené na základe hodnôt rok. Body nechceme znázorniť (plot.points=FALSE). Pomocou auto.key =TRUE získame zobrazenie legendy.


library("lattice")
densityplot(~pocet,data=udajeE,
       groups=rok,
       xlab="priemerný počet rokov vzdelávania",
       main="Priemerný počet rokov vzdelávania vo vybraných rokoch",
       plot.points=FALSE,
       auto.key =TRUE)


Jadrove funkcie hustoty pre priemerný počet rokov vzdelávania nie sú dvojvrcholové, takže náš komentár je úplne v poriadku.

Zostrojme krabicové grafy pre hodnotu parametra range=1,5, aby sme zistili, či existujú extrémne hodnoty. Farbu výplne krabicových grafov zadáme ako hexadecimálne číslo.


Farbu si môžeme vybrať napríklad na webovej stránke https://www.rapidtables.com/web/color/RGB_Color.html

boxplot(pocet ~ rok,  
main = " Priemerný počet rokov vzdelávania (range = 1,5)",
xlab = "Priemerný počet rokov ",
ylab = "Rok",
range=1.5, 
las=2,  
at = c(1,2,3), 
names = c("1950", "2000","2010"), 
col = c("#C0FFC0","#00C3FF","#F3F390"), 
border = "black",  
horizontal = TRUE 
)


Z obrázku vidíme, že neexistujú extrémne nízke ani extrémne vysoké hodnoty.

Zostrojme krabicový graf pre range = 0,5, t.j. guličkou budú označené všetky hodnoty, ktoré sú od dolného kvartilu vzdialenejšie ako 0,5 násobok kvartilového rozpätia a hodnoty, ktoré sú od horného kvartilu vzdialenejšie ako 0,5 násobok kvartilového rozpätia.

boxplot(pocet ~ rok,  
main = " Priemerný počet rokov vzdelávania (range = 0,5)",
xlab = "Priemerný počet rokov ",
ylab = "Rok",
range=0.5, 
las=2,  
at = c(1,2,3), 
names = c("1950", "2000","2010"), 
col = c("#C0FFC0","#00C3FF","#F3F390"), 
border = "black",  
horizontal = TRUE 
)



PRÍKLAD 2

Údaje o HDP na obyvateľa (Bolt a Zanden, 2015) za jednotlivé krajiny sveta. Budeme pracovať s údajmi iba za roky 1870, 1880, 1890 a 1900. Excelovský súbor obsahuje časť údajov, ktoré sú dostupné od Bolta a Zandena (2015) a to od roku 1870 do roku 2010. Sú v excelovskom súbore názvom gdp.xlsx, na hárku 1. Súbor je v adresári c:/bs.


  1. Na načítanie údajov potrebujeme knižnicu xlsx (library(xlsx)). Keď ju nemáme nainštalovanú, nainštalujeme ju pomocou príkazu install.packages(“xlsx”)
  2. Údaje načítame do datovej tabuľky (data frame) udajeG.
library(xlsx)
udajeG= read.xlsx("c:/bs/gdp.xlsx",1) 
attach(udajeG)


Vypíšme názvy stĺpcov.

Ako ukážku obsahu datovej tabuľky udajeG vypíšme prvé 3 a posledné 2 riadky.

colnames(udajeG)  # výpis názvov stĺpcov          
##   [1] "country.name" "ROK1870"      "ROK1871"      "ROK1872"      "ROK1873"     
##   [6] "ROK1874"      "ROK1875"      "ROK1876"      "ROK1877"      "ROK1878"     
##  [11] "ROK1879"      "ROK1880"      "ROK1881"      "ROK1882"      "ROK1883"     
##  [16] "ROK1884"      "ROK1885"      "ROK1886"      "ROK1887"      "ROK1888"     
##  [21] "ROK1889"      "ROK1890"      "ROK1891"      "ROK1892"      "ROK1893"     
##  [26] "ROK1894"      "ROK1895"      "ROK1896"      "ROK1897"      "ROK1898"     
##  [31] "ROK1899"      "ROK1900"      "ROK1901"      "ROK1902"      "ROK1903"     
##  [36] "ROK1904"      "ROK1905"      "ROK1906"      "ROK1907"      "ROK1908"     
##  [41] "ROK1909"      "ROK1910"      "ROK1911"      "ROK1912"      "ROK1913"     
##  [46] "ROK1914"      "ROK1915"      "ROK1916"      "ROK1917"      "ROK1918"     
##  [51] "ROK1919"      "ROK1920"      "ROK1921"      "ROK1922"      "ROK1923"     
##  [56] "ROK1924"      "ROK1925"      "ROK1926"      "ROK1927"      "ROK1928"     
##  [61] "ROK1929"      "ROK1930"      "ROK1931"      "ROK1932"      "ROK1933"     
##  [66] "ROK1934"      "ROK1935"      "ROK1936"      "ROK1937"      "ROK1938"     
##  [71] "ROK1939"      "ROK1940"      "ROK1941"      "ROK1942"      "ROK1943"     
##  [76] "ROK1944"      "ROK1945"      "ROK1946"      "ROK1947"      "ROK1948"     
##  [81] "ROK1949"      "ROK1950"      "ROK1951"      "ROK1952"      "ROK1953"     
##  [86] "ROK1954"      "ROK1955"      "ROK1956"      "ROK1957"      "ROK1958"     
##  [91] "ROK1959"      "ROK1960"      "ROK1961"      "ROK1962"      "ROK1963"     
##  [96] "ROK1964"      "ROK1965"      "ROK1966"      "ROK1967"      "ROK1968"     
## [101] "ROK1969"      "ROK1970"      "ROK1971"      "ROK1972"      "ROK1973"     
## [106] "ROK1974"      "ROK1975"      "ROK1976"      "ROK1977"      "ROK1978"     
## [111] "ROK1979"      "ROK1980"      "ROK1981"      "ROK1982"      "ROK1983"     
## [116] "ROK1984"      "ROK1985"      "ROK1986"      "ROK1987"      "ROK1988"     
## [121] "ROK1989"      "ROK1990"      "ROK1991"      "ROK1992"      "ROK1993"     
## [126] "ROK1994"      "ROK1995"      "ROK1996"      "ROK1997"      "ROK1998"     
## [131] "ROK1999"      "ROK2000"      "ROK2001"      "ROK2002"      "ROK2003"     
## [136] "ROK2004"      "ROK2005"      "ROK2006"      "ROK2007"      "ROK2008"     
## [141] "ROK2009"      "ROK2010"
head(udajeG,3)  # výpis prvých 3 riadkov
##   country.name ROK1870 ROK1871 ROK1872 ROK1873 ROK1874 ROK1875 ROK1876 ROK1877
## 1  Afghanistan      NA      NA      NA      NA      NA      NA      NA      NA
## 2      Albania     446      NA      NA      NA      NA      NA      NA      NA
## 3      Algeria     715      NA      NA      NA      NA      NA      NA      NA
##   ROK1878 ROK1879 ROK1880 ROK1881 ROK1882 ROK1883 ROK1884 ROK1885 ROK1886
## 1      NA      NA      NA      NA      NA      NA      NA      NA      NA
## 2      NA      NA      NA      NA      NA      NA      NA      NA      NA
## 3      NA      NA      NA      NA      NA      NA      NA      NA      NA
##   ROK1887 ROK1888 ROK1889 ROK1890 ROK1891 ROK1892 ROK1893 ROK1894 ROK1895
## 1      NA      NA      NA      NA      NA      NA      NA      NA      NA
## 2      NA      NA      NA     598      NA      NA      NA      NA      NA
## 3      NA      NA      NA      NA      NA      NA      NA      NA      NA
##   ROK1896 ROK1897 ROK1898 ROK1899 ROK1900 ROK1901 ROK1902 ROK1903 ROK1904
## 1      NA      NA      NA      NA      NA      NA      NA      NA      NA
## 2      NA      NA      NA      NA     685      NA      NA      NA      NA
## 3      NA      NA      NA      NA      NA      NA      NA      NA      NA
##   ROK1905 ROK1906 ROK1907 ROK1908 ROK1909 ROK1910 ROK1911 ROK1912 ROK1913
## 1      NA      NA      NA      NA      NA      NA      NA      NA      NA
## 2      NA      NA      NA      NA      NA     780      NA      NA     811
## 3      NA      NA      NA      NA      NA      NA      NA      NA    1163
##   ROK1914 ROK1915 ROK1916 ROK1917 ROK1918 ROK1919 ROK1920 ROK1921 ROK1922
## 1      NA      NA      NA      NA      NA      NA      NA      NA      NA
## 2      NA      NA      NA      NA      NA      NA      NA      NA      NA
## 3      NA      NA      NA      NA      NA      NA      NA      NA      NA
##   ROK1923 ROK1924 ROK1925 ROK1926 ROK1927 ROK1928 ROK1929 ROK1930 ROK1931
## 1      NA      NA      NA      NA      NA      NA      NA      NA      NA
## 2      NA      NA      NA      NA      NA      NA     926      NA      NA
## 3      NA      NA      NA      NA      NA      NA      NA      NA      NA
##   ROK1932 ROK1933 ROK1934 ROK1935 ROK1936 ROK1937 ROK1938 ROK1939 ROK1940
## 1      NA      NA      NA      NA      NA      NA      NA      NA      NA
## 2      NA      NA      NA      NA      NA      NA      NA      NA      NA
## 3      NA      NA      NA      NA      NA      NA      NA      NA      NA
##   ROK1941 ROK1942 ROK1943 ROK1944 ROK1945 ROK1946 ROK1947 ROK1948 ROK1949
## 1      NA      NA      NA      NA      NA      NA      NA      NA      NA
## 2      NA      NA      NA      NA      NA      NA      NA      NA      NA
## 3      NA      NA      NA      NA      NA      NA      NA      NA      NA
##   ROK1950 ROK1951 ROK1952 ROK1953 ROK1954 ROK1955 ROK1956 ROK1957 ROK1958
## 1     645     653     664     692     694     695     713     699     723
## 2    1001    1045    1046    1089    1120    1181    1193    1269    1326
## 3    1365    1347    1376    1369    1437    1445    1553    1693    1719
##   ROK1959 ROK1960 ROK1961 ROK1962 ROK1963 ROK1964 ROK1965 ROK1966 ROK1967
## 1     729     739     730     726     723     720     720     710     712
## 2    1381    1451    1463    1511    1563    1616    1675    1738    1804
## 3    1994    2088    1799    1433    1768    1806    1870    1725    1824
##   ROK1968 ROK1969 ROK1970 ROK1971 ROK1972 ROK1973 ROK1974 ROK1975 ROK1976
## 1     719     713     709     659     630     684     703     721     737
## 2    1869    1932    2004    2084    2165    2273    2282    2289    2299
## 3    1977    2105    2249    2000    2350    2357    2428    2522    2608
##   ROK1977 ROK1978 ROK1979 ROK1980 ROK1981 ROK1982 ROK1983 ROK1984 ROK1985
## 1     669     704     689     690     764     833     863     847     819
## 2    2309    2319    2331    2347    2360    2373    2387    2400    2413
## 3    2759    3019    3192    3152    3131    3228    3289    3363    3431
##   ROK1986 ROK1987 ROK1988 ROK1989  ROK1990  ROK1991  ROK1992  ROK1993  ROK1994
## 1     878     726     656     640  604.000  601.000  553.000  476.000  426.000
## 2    2428    2443    2459    2477 2499.400 1835.706 1764.004 1936.949 2067.467
## 3    3301    3192    3043    3067 2946.866 2839.856 2812.582 2686.412 2604.330
##    ROK1995  ROK1996  ROK1997  ROK1998  ROK1999  ROK2000  ROK2001  ROK2002
## 1  512.000  526.000  541.000  556.000  571.000  565.000  507.000  619.000
## 2 2307.584 2481.856 2197.912 2405.345 2751.885 2962.279 3228.523 3397.684
## 3 2650.756 2702.261 2687.203 2781.525 2829.099 2849.066 2884.634 2977.440
##    ROK2003  ROK2004  ROK2005  ROK2006  ROK2007  ROK2008  ROK2009  ROK2010
## 1  668.000  685.000  758.000  790.000  863.000  869.000       NA       NA
## 2 3627.058 3864.394 4116.776 4367.438 4647.314 5010.032 5178.867 5374.991
## 3 3137.920 3252.728 3370.147 3385.772 3427.712 3447.419 3466.543 3512.581
tail(udajeG,2)    # výpis posledných 2 riadkov
##     country.name ROK1870 ROK1871 ROK1872 ROK1873 ROK1874 ROK1875 ROK1876
## 197       Zambia      NA      NA      NA      NA      NA      NA      NA
## 198     Zimbabwe      NA      NA      NA      NA      NA      NA      NA
##     ROK1877 ROK1878 ROK1879 ROK1880 ROK1881 ROK1882 ROK1883 ROK1884 ROK1885
## 197      NA      NA      NA      NA      NA      NA      NA      NA      NA
## 198      NA      NA      NA      NA      NA      NA      NA      NA      NA
##     ROK1886 ROK1887 ROK1888 ROK1889 ROK1890 ROK1891 ROK1892 ROK1893 ROK1894
## 197      NA      NA      NA      NA      NA      NA      NA      NA      NA
## 198      NA      NA      NA      NA      NA      NA      NA      NA      NA
##     ROK1895 ROK1896 ROK1897 ROK1898 ROK1899 ROK1900 ROK1901 ROK1902 ROK1903
## 197      NA      NA      NA      NA      NA      NA      NA      NA      NA
## 198      NA      NA      NA      NA      NA      NA      NA      NA      NA
##     ROK1904 ROK1905 ROK1906 ROK1907 ROK1908 ROK1909 ROK1910 ROK1911 ROK1912
## 197      NA      NA      NA      NA      NA      NA      NA      NA      NA
## 198      NA      NA      NA      NA      NA      NA      NA      NA      NA
##     ROK1913 ROK1914 ROK1915 ROK1916 ROK1917 ROK1918 ROK1919 ROK1920 ROK1921
## 197      NA      NA      NA      NA      NA      NA      NA      NA      NA
## 198      NA      NA      NA      NA      NA      NA      NA      NA      NA
##     ROK1922 ROK1923 ROK1924 ROK1925 ROK1926 ROK1927 ROK1928 ROK1929 ROK1930
## 197      NA      NA      NA      NA      NA      NA      NA      NA      NA
## 198      NA      NA      NA      NA      NA      NA      NA      NA      NA
##     ROK1931 ROK1932 ROK1933 ROK1934 ROK1935 ROK1936 ROK1937 ROK1938 ROK1939
## 197      NA      NA      NA      NA      NA      NA      NA      NA      NA
## 198      NA      NA      NA      NA      NA      NA      NA      NA      NA
##     ROK1940 ROK1941 ROK1942 ROK1943 ROK1944 ROK1945 ROK1946 ROK1947 ROK1948
## 197      NA      NA      NA      NA      NA      NA      NA      NA      NA
## 198      NA      NA      NA      NA      NA      NA      NA      NA      NA
##     ROK1949 ROK1950 ROK1951 ROK1952 ROK1953 ROK1954 ROK1955 ROK1956 ROK1957
## 197      NA     661     688     715     743     772     736     803     817
## 198      NA     701     722     724     760     772     808     892     924
##     ROK1958 ROK1959 ROK1960 ROK1961 ROK1962 ROK1963 ROK1964 ROK1965 ROK1966
## 197     776     915     960     938     905     902     996    1147    1056
## 198     906     925     938     956     939     901     953     984     967
##     ROK1967 ROK1968 ROK1969 ROK1970 ROK1971 ROK1972 ROK1973 ROK1974 ROK1975
## 197    1107    1092    1056    1073    1042    1105    1062    1114    1041
## 198    1015     999    1086    1282    1353    1423    1432    1427    1402
##     ROK1976 ROK1977 ROK1978 ROK1979 ROK1980 ROK1981 ROK1982 ROK1983 ROK1984
## 197    1071     990     967     910     911     936     877     828     796
## 198    1357    1221    1232    1211    1295    1407    1405    1374    1297
##     ROK1985 ROK1986 ROK1987 ROK1988 ROK1989   ROK1990   ROK1991  ROK1992
## 197     784     762     755     777     762  806.2474  778.9117  773.401
## 198    1335    1322    1257    1326    1368 1355.4496 1412.6892 1259.719
##       ROK1993   ROK1994   ROK1995   ROK1996   ROK1997   ROK1998   ROK1999
## 197  752.4368  635.6229  602.1362  627.6837  630.4408  601.7004  598.3341
## 198 1256.3343 1315.9172 1309.6728 1416.9489 1417.1512 1401.5992 1337.0462
##       ROK2000   ROK2001   ROK2002  ROK2003  ROK2004  ROK2005  ROK2006  ROK2007
## 197  601.6444  612.6382  616.5487 632.4973 650.5411 668.1623 691.1682 714.2594
## 198 1231.0036 1248.1610 1128.1078 941.7800 891.5412 849.2912 826.7981 802.6494
##      ROK2008  ROK2009  ROK2010
## 197 734.2203 760.2575 795.3689
## 198 660.7354 699.5602 749.7979


Znázornime krabicové grafy pre HDP na obyvateľa pre roky 1870, 1880, 1890 a 1900 do jedného obrázku. Krabicové grafy majú byť zvislé (horizontal = FALSE). Do krabicových grafov vyznačme priemer hodnôt pomocou plného kruhu (pch=16) červenej farby (col=“red”). Jeho veľkosť určená pomocou parametra cex.
Ako sme videli z ukážky obsahu datovej tabuľky, niektoré údaje nie sú dostupné. Preto nastavíme hodnotu parametra na.rm ako na.rm = TRUE.

boxplot(udajeG$ROK1870,udajeG$ROK1880, udajeG$ROK1890, udajeG$ROK1900,
main = "HDP v rokoch 1870 - 1900 (range = 1,5)",
at = c(1,2,3,4),
range=1.5,
names = c("1870", "1880","1890","1900"),
col = c("blue1","yellow","red3","green1"),
border = "black"
)
a=mean(udajeG$ROK1870, na.rm = TRUE)
b=mean(udajeG$ROK1880, na.rm = TRUE)
c=mean(udajeG$ROK1890, na.rm = TRUE)
d=mean(udajeG$ROK1900, na.rm = TRUE)
points(c(a,b,c,d), col="red",pch=16, cex=1)


Prehľad čísiel pre jednotlivé znaky (parameter pch) nájdeme na stránkach:
https://stat.ethz.ch/R-manual/R-patched/library/graphics/html/points.html
http://www.sthda.com/english/wiki/r-plot-pch-symbols-the-different-point-shapes-available-in-r

Pre interpretáciu, ktorej uvedieme aj hodnoty, si vypočítame základné popisné štatistiky. V kompaktnejšej forme získame výsledky pomocou nasledujúcich príkazov

library ("stargazer")
## Warning: package 'stargazer' was built under R version 4.0.3
## 
## Please cite as:
##  Hlavac, Marek (2018). stargazer: Well-Formatted Regression and Summary Statistics Tables.
##  R package version 5.2.2. https://CRAN.R-project.org/package=stargazer
udaje= data.frame(udajeG)
cols <- c('ROK1870', 'ROK1880', 'ROK1890', 'ROK1900')
stargazer(
    udaje[, cols], type = "text", 
    summary.stat = c("min", "p25", "median", "p75", "max", "mean")
)
## 
## ===================================================================
## Statistic   Min   Pctl(25)   Median   Pctl(75)     Max      Mean   
## -------------------------------------------------------------------
## ROK1870   337.273  633.000   840.000  1,467.611 3,273.000 1,155.149
## ROK1880   411.241  926.000  1,596.661 2,135.250 4,285.000 1,787.172
## ROK1890   483.066  976.230  1,473.000 2,416.450 4,830.000 1,795.852
## ROK1900   545.000 1,140.000 1,668.000 2,882.000 5,899.000 2,019.170
## -------------------------------------------------------------------


Rovnako, ako v Príklade 1, zostrojíme jadrovú funkciu hustoty pre jednotlivé roky.Budeme potrebovať knižnicu lattice (library(“lattice”)). Jadrovú funkciu hustoty zostrojíme pre stĺpce ROK1870, ROK1880, ROK1890, ROK1900. Údaje sú v datovej tabuľke s menom udajeG. Body nechceme znázorniť (plot.points=FALSE). Pomocou auto.key =TRUE získame zobrazenie legendy.Farby sú vyberaé automaticky.

library(lattice)
densityplot(~ ROK1870+ROK1880+ROK1890+ROK1900, data= udajeG, 
      main = "HDP v rokoch 1870 - 1990",
      xlab = "HDP na obyvateľa v USD ",
      auto.key = TRUE, 
      plot.points=FALSE
      )


Teraz už môžeme pristúpiť k interpreetácii výsledov

Minimálna aj maximálna hodnota HDP na obyvateľa v hodnotených tridsiatich rokoch postupne rástla – z hodnoty 337,72 na 545,00(resp. z 3273,00 na 5899,00). Vzrástlo aj variačné rozpätie, ale tiž kvartilové rozpätie.V roku 1870 sme zaznamenali 5 extrémne vysokých hodnôt.V ďalších troch hodnotených rokoch sme zaznamenali každý rok iba jednu extrémnu hodnotu. Rovnako rástol aj priemer a to z hodnoty 1155,15 na 2019,17 USD. Medián vzrástol v roku 1880 oproti roku 1870 (z 840,00 na 1596,66 USD). Rovnako vzrástol v roku 1890 oproti roku 1900 z hodnoty 1795,85 na 2019,17. V roku 1890 a medián poklesol oproti predchádzajúcemu roku z hodnoty 1596,66 na hodnotu 1473,00. Funkcia hustoty bola v rokoch 1870 a 1880 dvojvrcholová, vnasledujúcich jednovrcholová a zošikmená do prava.

Je potrebné uporozniť, že naše závery bez znázornenia funkcie hustoty by nemuseli byť správne


Literatúra:
R Core Team (2020). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.
Podporné balíčky
Adrian Dragulescu and Cole Arendt (2020). xlsx: Read, Write, Format Excel 2007 and Excel 97/2000/XP/2003 Files. R package version 0.6.3. https://CRAN.R-project.org/package=xlsx
Hlavac, Marek (2018). stargazer: Well-Formatted Regression and Summary Statistics Tables. R package version 5.2.1. https://CRAN.R-project.org/package=stargazer
Sarkar, Deepayan (2008) Lattice: Multivariate Data Visualization with R. Springer, New York. ISBN 978-0-387-75968-5
Údaje
Bolt, J. , Zanden, J. L. (2015). GDP per Capita.[online]. [cit. 01.01.2021]. Dostupné na internete: http://hdl.handle.net/10622/8FCYOX, accessed via the Clio Infra website. Data downloaded from https://www.clio-infra.eu/data/GDPperCapita_Broad.xlsx
Leeuwen, B., Leeuwen, J. L. (2015). Average Years of Education.[online]. [cit. 01.01.2021]. Dostupné na internete: http://hdl.handle.net/10622/KCBMKI, accessed via the Clio Infra website.Data downloaded from https://www.clio-infra.eu/data/AverageYearsofEducation_Compact.xlsx
Iné
STEHLÍKOVÁ, B. 2020. Krabicový graf - príklad. [online]. 2020. RPubs [cit. 01.01.2021]. Dostupné na internete: https://rpubs.com/BeaSte/707716


Paneurópska vysoká škola v Bratislave
GA/2/2019 “Využitie informačných technológií pri rozvoji aplikačných možností kvantitatívnych metód v ekonómii”