Normálna distribúcia, tiež známa ako Gaussova distribúcia, je pravdepodobnostná distribúcia, ktorá je symetrická podľa priemeru, čo ukazuje, že údaje blízko priemeru sa vyskytujú častejšie ako údaje ďaleko od priemeru. Je to jedno z najdôležitejších rozdelení pravdepodobnosti v štatistike kvôli jeho početným aplikáciám v oblastiach, ako sú prírodné vedy, spoločenské vedy a inžinierstvo. Normálne rozdelenie sa bežne používa pri testovaní hypotéz, určovaní pravdepodobností a modelovaní údajov
Veľa vecí je v skutočnosti distribuovaných normálne alebo veľmi blízko tomu. Napríklad výška a inteligencia sú približne normálne rozdelené; chyby merania tiež často majú normálne rozdelenie
S normálnym rozdelením sa matematicky ľahko pracuje. V mnohých praktických prípadoch metódy vyvinuté pomocou normálnej teórie fungujú celkom dobre, aj keď je rozdelenie nenormálne.
Existuje veľmi silné spojenie medzi veľkosťou vzorky N a rozsahom distribúcia vzoriek sa blíži k normálnej forme. Mnoho vzorkovacích distribúcií založených na veľkom N možno aproximovať normálnym rozdelením aj keď popul samotná distribúcia určite nie je normálna.
Funkcia hustoty pravdepodobnosti je: \[ \varphi(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \tag{3.1} \]
Kde:
- \(\mu\) je stredná alebo očakávaná distribúcia;
- \(\sigma\) je štandardná odchýlka, ktorá meria rozptyl alebo šírku distribúcie
Viac v kapitoly 4 v Tabuľka vlastnosti
Najjednoduchší prípad normálneho rozdelenia je známy ako štandardné normálne rozdelenie alebo jednotkové normálne rozdelenie. Ide o špeciálny prípad, kedy \(\mu = 0\) a \(\sigma^2 = 1\), a je opísaná touto funkciou hustoty pravdepodobnosti (alebo hustoty):
\[ \varphi(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \tag{3.2} \]
Premenná z má priemer 0 a rozptyl a štandardnú odchýlku 1. Hoci vyššie uvedená hustota je najčastejšie známa ako štandardná normálna hodnota, niekoľko autorov použilo tento termín na opis iných verzií normálneho rozdelenia. Carl Friedrich Gauss[7] napríklad raz definoval štandardný normálny ako:
\[ \varphi(x) = \frac{1}{\sqrt{\pi}} e^{-{x^2}} \tag{3.3} \]
ktorý má rozptyl 1/2, a Stephen Stigler[7] kedysi definoval štandardný normál ako:
\[ \varphi(x) = e^{-{\pi x^2}} \tag{3.4} \]
ktorý má jednoduchú funkčnú formu a rozptyl \(\sigma^2 = \frac{1}{2\pi}\)
Každé normálne rozdelenie je verziou štandardného normálneho rozdelenia(Stand. formula (3.2)), ktorého doména bola natiahnutá faktorom \(\sigma\) (štandardná odchýlka) a potom preložená \(\mu\) (stredná hodnota): \[ f(x | \mu, \sigma^2) = \frac{1}{\sigma} \varphi\left(\frac{x - \mu}{\sigma}\right) \tag{3.5} \] Hustota pravdepodobnosti musí byť zmenšená o \(\frac{1}{\sigma}\) tak, aby integrál bol stále 1.
Ak je \(Z\) štandardná normálna odchýlka, potom \(X = \sigma Z + \mu\) bude mať normálne rozdelenie s očakávanou hodnotou \(\mu\) a štandardnou odchýlkou \(\sigma\). To je ekvivalentné tvrdeniu, že štandardné normálne rozdelenie \(Z\) možno zmenšiť/roztiahnuť faktorom \(\sigma\) a posunúť o \(\mu\), aby sa získalo iné normálne rozdelenie, tzv. \(X\). Naopak, ak \(X\) je normálna odchýlka s parametrami \(\mu\) a \(\sigma^2\), potom je možné túto distribúciu \(X\) zmeniť. a posunuté pomocou vzorca \(Z = ( X − \mu ) / \sigma\), aby sa previedlo na štandardné normálne rozdelenie. Táto variácia sa tiež nazýva štandardizovaná forma \(X\).
Normálna distribúcia má niekoľko kľúčových vlastností:
Vlastnosť | Popis |
---|---|
Priemer (\(\mu\))[7] | Priemer je stredná hodnota, okolo ktorej je rozdelenie symetrické. |
Štandardná odchýlka (\(\sigma\))[7] | Meria šírenie distribúcie. |
Symetria | Normálne rozdelenie je symetrické okolo priemeru. |
Krivka v tvare zvona[4] | Predstavte si symetrický zvon, kde stred je najvyšší bod a chvosty sa zužujú na oboch stranách. To je základný tvar normálneho rozdelenia. Väčšina údajových bodov sa zhlukuje okolo stredu a ako sa od stredu vzďaľujete, údajové body sú menej časté. |
Asymptoticka | Konce distribúcie sa približujú k horizontálnej osi, ale nikdy sa jej nedotýkajú. |
Empirical Rule[7] | známe aj ako pravidlo 68-95-99,7, platí pre normálne rozdelenie. Podľa tohto pravidla 68 % údajov spadá do jednej štandardnej odchýlky od priemeru, 95 % spadá do dvoch štandardných odchýlok a 99,7 % spadá do troch štandardných odchýlok. |
Centrálna tendencia | Stred zvonovej krivky predstavuje centrálnu tendenciu údajov, čo znamená, že ukazuje, kde je sústredená väčšina hodnôt. Môže to byť priemer, medián alebo režim v závislosti od konkrétneho súboru údajov. |
Táto časť ukazuje, ako sa mení tvar normálneho rozdelenia s rôznymi priemermi a štandardnými odchýlkami.
1) Zakladny graf (Figure [5.1])
2) Graf rozdielu medzi priemeramy a odchýlkami (Figure [5.2])
2.1) Graf rozdielu medzi priemeramy a odchýlkami na internete (Figure [5.3])
3) Graf na súbore údajov iris(Figure [5.4])
Tvar normálneho rozdelenia sa mení s rôznymi priemermi a štandardnými odchýlkami. Vyššia smerodajná odchýlka vedie k širšej a plochejšej krivke, zatiaľ čo nižšia smerodajná odchýlka vedie k užšej a strmšej krivke. Priemer posúva krivku pozdĺž osi x.
library(ggplot2)
ggplot(data.frame(x = c(-4, 4)), aes(x)) +
stat_function(fun = dnorm, args = list(mean = 0, sd = 1)) +
ggtitle("Základný graf normálneho rozloženia") +
xlab("X") + ylab("Hustota")
Figure 5.1: Základný graf normálneho rozloženia.
ggplot(data.frame(x = c(-10, 10)), aes(x)) +
stat_function(fun = dnorm, args = list(mean = 0, sd = 1), colour = "blue") +
stat_function(fun = dnorm, args = list(mean = 0, sd = 2), colour = "red") +
stat_function(fun = dnorm, args = list(mean = 2, sd = 1), colour = "green") +
ggtitle("Normálne distribúcie s rôznymi priemeramy a SD") +
xlab("X") + ylab("Hustota")
Figure 5.2: Rozdiel medzi priemeramy a odchýlkami
Toto znázornenie normálneho rozdelenia možno nájsť na internete[1]:
Histogramový graf súboru údajov Iris môže efektívne vizualizovať distribúciu špecifického atribútu medzi rôznymi druhmi zahrnutými v súbore údajov. Tu je podrobnejší popis toho, ako môže takýto histogram vyzerať, najmä ak sa zameriate na atribút, ako je dĺžka okvetného lístka, ktorá vykazuje významné rozdiely medzi druhmi:
library(dplyr)
library(plotly)
library(orca)
plot_petal_length <- plot_ly(data = iris, x = ~Petal.Length,
color = ~Species, type = 'histogram',
marker = list(line =
list(color = 'black', width = 1))) %>%
layout(title = "Histogram dĺžok okvetných lístkov",
xaxis = list(title = "Dĺžka okvetného lístka"),
barmode = 'overlay',
barnorm = 'percent'
)
# Save the plot as an image using Orca
# (BECAUSE EVERYTHING IS NOT OK WITH PLOTLY AND PDF)
orca(plot_petal_length, file = "plot_petal_length.png")
Prieskumný graf vygenerovaný zo súboru údajov Iris ilustruje rôznorodosť údajov, s ktorými sa možno stretnúť v prírodných štúdiách. Aj keď samotné údaje o dúhovke nemusia dokonale sledovať normálnu distribúciu - príkladom sú rôzne merania okvetných lístkov a sepalov medzi druhmi - podčiarkujú dôležitosť normálnej distribúcie ako základného nástroja v štatistickej analýze.
Normálne rozdelenie sa používa v rôznych oblastiach na modelovanie správania náhodných premenných. Niektoré z jeho aplikácií sú nasledovné(na základe kapitoly 2):
Kontrola kvality: Mnoho výrobných procesov má normálnu distribúciu a spoločnosti môžu používať techniky štatistickej kontroly procesov na monitorovanie kvality svojich produktov. Meraním priemeru a štandardnej odchýlky procesu môžu spoločnosti nastaviť kontrolné limity, aby zabezpečili, že proces zostane v prijateľných medziach.
Prognóza predaja: Spoločnosti môžu použiť historické údaje o predaji na odhad budúceho predaja pomocou normálneho rozdelenia. Odhadom priemeru a štandardnej odchýlky tržieb môžu spoločnosti vypočítať pravdepodobnosť dosiahnutia rôznych úrovní predaja a podľa toho stanoviť ciele predaja.
Finančná analýza: Mnoho finančných premenných, ako sú ceny akcií a výnosy, tiež sleduje normálne rozdelenie. Finanční analytici môžu použiť normálne rozdelenie na odhad očakávaného výnosu a rizika rôznych investícií.
Analýza správania zákazníkov: Spoločnosti môžu použiť normálnu distribúciu na modelovanie správania zákazníkov, ako je množstvo času stráveného na webovej stránke alebo počet nákupov uskutočnených v danom období. Pochopením rozloženia správania zákazníkov môžu spoločnosti optimalizovať svoje marketingové a predajné stratégie.
Hodnotenie výkonnosti zamestnancov: Spoločnosti môžu použiť normálnu distribúciu na vyhodnotenie výkonnosti zamestnancov porovnaním ich výkonnostných metrík, ako je predaj alebo produktivita, s distribúciou svojich kolegov. To môže pomôcť identifikovať zamestnancov s vysokou a nízkou výkonnosťou a poskytnúť informácie o stratégiách na zlepšenie výkonnosti.
(Pozri tiez[5])
Pochopenie normálneho rozdelenia je kľúčové v štatistickej analýze a vede o údajoch. Poskytuje základ pre pochopenie zložitejších štatistických pojmov. Jeho vlastnosti a aplikácie z neho robia výkonný nástroj na analýzu dát.
Tu je citát Sira Francisa Galtona[7], anglického viktoriánskeho štatistika a sociológa:
“No other law of nature has been established on a broader foundation of observation, nor more rigorously proved by measurement, than that from which the law of frequency of error is derived.”
Tento citát zdôrazňuje dôležitosť a všadeprítomnosť normálneho rozdelenia v prírode a štatistike.