1 Úvod do Normálneho Rozdelenia

    Normálna distribúcia, tiež známa ako Gaussova distribúcia, je pravdepodobnostná distribúcia, ktorá je symetrická podľa priemeru, čo ukazuje, že údaje blízko priemeru sa vyskytujú častejšie ako údaje ďaleko od priemeru. Je to jedno z najdôležitejších rozdelení pravdepodobnosti v štatistike kvôli jeho početným aplikáciám v oblastiach, ako sú prírodné vedy, spoločenské vedy a inžinierstvo. Normálne rozdelenie sa bežne používa pri testovaní hypotéz, určovaní pravdepodobností a modelovaní údajov

2 Najprv prečo je normálne rozdelenie užitočné?

3 Definície

3.1 Všeobecný tvar funkcie hustoty pravdepodobnosti

    Funkcia hustoty pravdepodobnosti je: \[ \varphi(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \tag{3.1} \]

    Kde:
- \(\mu\) je stredná alebo očakávaná distribúcia;
- \(\sigma\) je štandardná odchýlka, ktorá meria rozptyl alebo šírku distribúcie

Viac v kapitoly 4 v Tabuľka vlastnosti

3.2 Štandardné normálne rozdelenie

    Najjednoduchší prípad normálneho rozdelenia je známy ako štandardné normálne rozdelenie alebo jednotkové normálne rozdelenie. Ide o špeciálny prípad, kedy \(\mu = 0\) a \(\sigma^2 = 1\), a je opísaná touto funkciou hustoty pravdepodobnosti (alebo hustoty):

\[ \varphi(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \tag{3.2} \]

    Premenná z má priemer 0 a rozptyl a štandardnú odchýlku 1. Hoci vyššie uvedená hustota je najčastejšie známa ako štandardná normálna hodnota, niekoľko autorov použilo tento termín na opis iných verzií normálneho rozdelenia. Carl Friedrich Gauss[7] napríklad raz definoval štandardný normálny ako:

\[ \varphi(x) = \frac{1}{\sqrt{\pi}} e^{-{x^2}} \tag{3.3} \]

ktorý má rozptyl 1/2, a Stephen Stigler[7] kedysi definoval štandardný normál ako:

\[ \varphi(x) = e^{-{\pi x^2}} \tag{3.4} \]

ktorý má jednoduchú funkčnú formu a rozptyl \(\sigma^2 = \frac{1}{2\pi}\)

3.3 Všeobecné normálne rozdelenie

    Každé normálne rozdelenie je verziou štandardného normálneho rozdelenia(Stand. formula (3.2)), ktorého doména bola natiahnutá faktorom \(\sigma\) (štandardná odchýlka) a potom preložená \(\mu\) (stredná hodnota): \[ f(x | \mu, \sigma^2) = \frac{1}{\sigma} \varphi\left(\frac{x - \mu}{\sigma}\right) \tag{3.5} \]     Hustota pravdepodobnosti musí byť zmenšená o \(\frac{1}{\sigma}\) tak, aby integrál bol stále 1.

    Ak je \(Z\) štandardná normálna odchýlka, potom \(X = \sigma Z + \mu\) bude mať normálne rozdelenie s očakávanou hodnotou \(\mu\) a štandardnou odchýlkou \(\sigma\). To je ekvivalentné tvrdeniu, že štandardné normálne rozdelenie \(Z\) možno zmenšiť/roztiahnuť faktorom \(\sigma\) a posunúť o \(\mu\), aby sa získalo iné normálne rozdelenie, tzv. \(X\). Naopak, ak \(X\) je normálna odchýlka s parametrami \(\mu\) a \(\sigma^2\), potom je možné túto distribúciu \(X\) zmeniť. a posunuté pomocou vzorca \(Z = ( X − \mu ) / \sigma\), aby sa previedlo na štandardné normálne rozdelenie. Táto variácia sa tiež nazýva štandardizovaná forma \(X\).

3.4 Takže všetky vzorce:

4 Vlastnosti normálneho rozdelenia

    Normálna distribúcia má niekoľko kľúčových vlastností:

Tabuľka vlastnosti
Vlastnosť Popis
Priemer (\(\mu\))[7] Priemer je stredná hodnota, okolo ktorej je rozdelenie symetrické.
Štandardná odchýlka (\(\sigma\))[7] Meria šírenie distribúcie.
Symetria Normálne rozdelenie je symetrické okolo priemeru.
Krivka v tvare zvona[4] Predstavte si symetrický zvon, kde stred je najvyšší bod a chvosty sa zužujú na oboch stranách. To je základný tvar normálneho rozdelenia. Väčšina údajových bodov sa zhlukuje okolo stredu a ako sa od stredu vzďaľujete, údajové body sú menej časté.
Asymptoticka Konce distribúcie sa približujú k horizontálnej osi, ale nikdy sa jej nedotýkajú.
Empirical Rule[7] známe aj ako pravidlo 68-95-99,7, platí pre normálne rozdelenie. Podľa tohto pravidla 68 % údajov spadá do jednej štandardnej odchýlky od priemeru, 95 % spadá do dvoch štandardných odchýlok a 99,7 % spadá do troch štandardných odchýlok.
Centrálna tendencia Stred zvonovej krivky predstavuje centrálnu tendenciu údajov, čo znamená, že ukazuje, kde je sústredená väčšina hodnôt. Môže to byť priemer, medián alebo režim v závislosti od konkrétneho súboru údajov.

5 Grafy a vizualizácie

    Táto časť ukazuje, ako sa mení tvar normálneho rozdelenia s rôznymi priemermi a štandardnými odchýlkami.

     1) Zakladny graf (Figure [5.1])
     2) Graf rozdielu medzi priemeramy a odchýlkami (Figure [5.2])
         2.1) Graf rozdielu medzi priemeramy a odchýlkami na internete (Figure [5.3])
     3) Graf na súbore údajov iris(Figure [5.4])

    Tvar normálneho rozdelenia sa mení s rôznymi priemermi a štandardnými odchýlkami. Vyššia smerodajná odchýlka vedie k širšej a plochejšej krivke, zatiaľ čo nižšia smerodajná odchýlka vedie k užšej a strmšej krivke. Priemer posúva krivku pozdĺž osi x.

5.1 Základný graf normálneho rozloženia

library(ggplot2)

ggplot(data.frame(x = c(-4, 4)), aes(x)) + 
  stat_function(fun = dnorm, args = list(mean = 0, sd = 1)) +
  ggtitle("Základný graf normálneho rozloženia") +
  xlab("X") + ylab("Hustota")
Základný graf normálneho rozloženia.

Figure 5.1: Základný graf normálneho rozloženia.

5.2 Rozdiel medzi priemeramy a odchýlkami

ggplot(data.frame(x = c(-10, 10)), aes(x)) + 
  stat_function(fun = dnorm, args = list(mean = 0, sd = 1), colour = "blue") +
  stat_function(fun = dnorm, args = list(mean = 0, sd = 2), colour = "red") +
  stat_function(fun = dnorm, args = list(mean = 2, sd = 1), colour = "green") +
  ggtitle("Normálne distribúcie s rôznymi priemeramy a SD") +
  xlab("X") + ylab("Hustota")
Rozdiel medzi priemeramy a odchýlkami

Figure 5.2: Rozdiel medzi priemeramy a odchýlkami

    Toto znázornenie normálneho rozdelenia možno nájsť na internete[1]:

 Vizuálne znázornenie Gaussovho rozdelenia.
Vizuálne znázornenie Gaussovho rozdelenia.


5.3 Graf na súbore údajov iris

    Histogramový graf súboru údajov Iris môže efektívne vizualizovať distribúciu špecifického atribútu medzi rôznymi druhmi zahrnutými v súbore údajov. Tu je podrobnejší popis toho, ako môže takýto histogram vyzerať, najmä ak sa zameriate na atribút, ako je dĺžka okvetného lístka, ktorá vykazuje významné rozdiely medzi druhmi:

  • Iris setosa: Tento druh zvyčajne vykazuje kratšie okvetné lístky, ktoré sú zoskupené v dolnom rozsahu histogramu. Stĺpce predstavujúce Iris setosa prevažne v ľavej časti histogramu.
  • Iris versicolor: Tento druh má zvyčajne strednú dĺžku okvetných lístkov, ktorú predstavujú pruhy v strednom rozsahu histogramu. Distribúcia viac rozptýlená v porovnaní s Iris setosa.
  • Iris virginica: Často charakterizované najdlhšími dĺžkami okvetných lístkov, pruhy pre Iris virginica zaberajú pravú časť histogramu, čo naznačuje väčšie dĺžky okvetných lístkov.
library(dplyr)
library(plotly)
library(orca)

plot_petal_length <- plot_ly(data = iris, x = ~Petal.Length,
                             color = ~Species, type = 'histogram', 
                             marker = list(line = 
                                list(color = 'black', width = 1))) %>%
  layout(title = "Histogram dĺžok okvetných lístkov",
         xaxis = list(title = "Dĺžka okvetného lístka"),
         barmode = 'overlay',
         barnorm = 'percent'
         )
# Save the plot as an image using Orca
# (BECAUSE EVERYTHING IS NOT OK WITH PLOTLY AND PDF)
orca(plot_petal_length, file = "plot_petal_length.png")
 Graf na súbore údajov iris
Graf na súbore údajov iris


    Prieskumný graf vygenerovaný zo súboru údajov Iris ilustruje rôznorodosť údajov, s ktorými sa možno stretnúť v prírodných štúdiách. Aj keď samotné údaje o dúhovke nemusia dokonale sledovať normálnu distribúciu - príkladom sú rôzne merania okvetných lístkov a sepalov medzi druhmi - podčiarkujú dôležitosť normálnej distribúcie ako základného nástroja v štatistickej analýze.

6 Aplikácie normálnej distribúcie

    Normálne rozdelenie sa používa v rôznych oblastiach na modelovanie správania náhodných premenných. Niektoré z jeho aplikácií sú nasledovné(na základe kapitoly 2):

(Pozri tiez[5])

7 Záver

    Pochopenie normálneho rozdelenia je kľúčové v štatistickej analýze a vede o údajoch. Poskytuje základ pre pochopenie zložitejších štatistických pojmov. Jeho vlastnosti a aplikácie z neho robia výkonný nástroj na analýzu dát.

    Tu je citát Sira Francisa Galtona[7], anglického viktoriánskeho štatistika a sociológa:

“No other law of nature has been established on a broader foundation of observation, nor more rigorously proved by measurement, than that from which the law of frequency of error is derived.”

Tento citát zdôrazňuje dôležitosť a všadeprítomnosť normálneho rozdelenia v prírode a štatistike.

Literatúra

[1] ABHISHEK PARBHAKAR [online].[s.l.]: Towards Data Science, 2018. Dostupné na internete: <https://towardsdatascience.com/why-data-scientists-love-gaussian-6e7a7b726859>.
[2] BACIGÁL, T. Úvod do analýzy údajov pomocou R [online]. [s.l.]: Spektrum STU, 2022.
[3] BERMAN H.B. [online].2024. Dostupné na internete: <https://stattrek.com/probability-distributions/normal>.
[4] DAVID M. LANE [online]. Dostupné na internete: <https://onlinestatbook.com/2/normal_distribution/intro.html>.
[5] GALE ENCYCLOPEDIA OF PSYCHOLOGY [online]. Dostupné na internete: <https://www.encyclopedia.com/science-and-technology/mathematics/mathematics/normal-distribution#3>.
[6] RICHARD WILLIAMS [online].[s.l.]: University of Notre Dame, 2004. Dostupné na internete: <https://www3.nd.edu/~rwilliam/stats1/x21.pdf>.
[7] WIKIPEDIA [online]. Dostupné na internete: <https://en.wikipedia.org/wiki/Normal_distribution>.
[8] WOLFRAM [online]. Dostupné na internete: <https://mathworld.wolfram.com/NormalDistribution.html>.