1 Krótkie wprowadzenie teoretyczne

Kernel Density Estimation (KDE), czyli estymacja jądrowa gęstości, jest nieparametryczną metodą oszacowania funkcji gęstości rozkładu zmiennej losowej na podstawie dostępnych danych. W przeciwieństwie do metod parametrycznych, takich jak estymacja rozkładu normalnego, KDE nie wymaga przyjęcia konkretnej formy rozkładu danych. Zamiast tego, KDE buduje estymację funkcji gęstości w sposób gładki, opierając się na rzeczywistych obserwacjach z próby. Dla każdego punktu danych umieszczana jest funkcja jądrowa (kernel), najczęściej o kształcie zbliżonym do krzywej dzwonowej, np. rozkładu Gaussa, której zadaniem jest przypisanie “wagi” obserwacjom w pobliżu danego punktu. Szerokość pasma (bandwidth) kontroluje stopień wygładzenia całkowitej funkcji gęstości.

2 Ćwiczenie 1.

Uruchom demo estymatora funkcji gęstości kernel. Zmieniaj zarówno dane wejściowe, jak i opcje estymatora - szerokość pasma oraz rodzaj funkcji jądrowej. Czy widzisz istotne różnice w oszacowaniu?

#install.packages("remotes") #tylko raz! potem #
#remotes::install_github("hericks/KDE") #tylko raz! potem #
#library(KDE)
#shiny_kde() 

Kilka wniosków:

-Małe pasmo (wąska szerokość): Gdy szerokość pasma jest bardzo mała, estymacja gęstości staje się bardzo szczegółowa i dokładnie dopasowuje się do poszczególnych obserwacji, co powoduje, że estymator jest podatny na lokalne wahania i “szumy” w danych.

-Duże pasmo (szeroka szerokość): Przy dużym paśmie estymator gęstości jest wygładzony, co sprawia, że lokalne szczegóły są mniej widoczne, ale za to lepiej oddaje ogólny kształt rozkładu danych. Przy zbyt dużym paśmie może jednak dojść do nadmiernego wygładzenia (underfitting), gdzie szczegóły rozkładu są zupełnie zgubione, a estymator przestaje odzwierciedlać realne zmiany w danych.

-Przy mniejszej liczbie danych estymator KDE jest bardziej wrażliwy na dobór szerokości pasma i rodzaju jądra. Przy małych próbach każde jądro ma duży wpływ na wynik, a małe pasmo generuje wyraźny szum.

-Przy większej liczbie obserwacji KDE działa bardziej stabilnie. Większe próby lepiej odzwierciedlają rzeczywisty rozkład danych, a estymacja staje się bardziej precyzyjna. Dobór szerokości pasma i jądra ma mniejszy wpływ na wynik przy dużej liczbie danych.

-Użycie walidacji krzyżowej (cross-validation) do doboru szerokości pasma okazało się skuteczne w uzyskaniu dobrze zbalansowanego estymatora, który zachowuje kształt rozkładu bez nadmiernego wygładzania.

-Jądro Gaussowskie daje chyba najbardziej intuicyjne i gładkie estymacje.

3 Ćwiczenie 2.

Wykorzystując dowolną funkcję R do estymacji funkcji gęstości oszacuj jej przebieg dla wynagrodzeń (zbiór danych salaries) strażaków w San Francisco. Wykorzystaj metody graficzne dostępne w pakiecie ggplot2. Mile widziane przekroje oraz odpowiedzi na pytania badawcze zadane na wstępie.

salaries <- read.csv("https://github.com/kflisikowski/ds/raw/master/Salaries.csv")

3.1 Histogram

firefighter_salaries <- subset(salaries, JobTitle == "Firefighter")

hist(firefighter_salaries$TotalPay, 
     main = "Total Pay for Firefighters", 
     xlab = "Pay (in dollars)", 
     col = "lightblue", 
     border = "black")

abline(v = mean(firefighter_salaries$TotalPay, na.rm = TRUE), col = "red", lty = "dashed")
abline(v = median(firefighter_salaries$TotalPay, na.rm = TRUE), col = "blue", lty = "solid")
legend("topright", 
       legend = c("Mediana", "Średnia"), 
       col = c("blue", "red"), 
       lty = c("solid", "dashed"))

Większość strażaków zarabia w przedziale około 100,000 - 175,000 dolarów rocznie, co stanowi największe skupisko wartości na wykresie. Rozkład ten jest względnie symetryczny, co sugeruje, że wartości wynagrodzeń są równomiernie rozłożone wokół centralnej wartości. Z tego wykresu wynika, że mediana i średnia są bardzo zbliżone do siebie, co sugeruje, że w rozkładzie nie występują duże wartości odstające, które mogłyby znacząco zniekształcić średnią.

firefighter_salaries <- subset(salaries, JobTitle == "Firefighter")
par(mfrow = c(2, 2))
hist(firefighter_salaries$TotalPay, 
     main = "Total Pay for Firefighters, default breaks", 
     xlab = "Pay (in dollars)", 
     col = "lightblue", 
     border = "black")
hist(firefighter_salaries$TotalPay, 
     main = "Total Pay for Firefighters, breaks=100", 
     xlab = "Pay (in dollars)", 
     breaks = 100, 
     col = "lightblue", 
     border = "black")
hist(firefighter_salaries$TotalPay, 
     main = "Total Pay for Firefighters, breaks=1000", 
     xlab = "Pay (in dollars)", 
     breaks = 1000, 
     col = "lightblue", 
     border = "black")

3.2 Wykres pudełkowy

firefighter_salaries <- subset(salaries, JobTitle == "Firefighter")

boxplot(firefighter_salaries$TotalPay, 
        main = "Total Pay for Firefighters", 
        ylab = "Pay (in dollars)", 
        col = "lightblue", 
        border = "black")

abline(h = median(firefighter_salaries$TotalPay, na.rm = TRUE), col = "blue", lty = "dashed")
abline(h = mean(firefighter_salaries$TotalPay, na.rm = TRUE), col = "red", lty = "dotted")
legend("topright", 
       legend = c("Mediana", "Średnia"), 
       col = c("blue", "red"), 
       lty = c("dashed", "dotted"))

3.3 Wykres ggplot

firefighter_salaries <- subset(salaries, JobTitle == "Firefighter")

ggplot(firefighter_salaries, aes(x = TotalPay)) +
  geom_density(fill = "skyblue", alpha = 0.5, color = "darkblue") +
  geom_vline(xintercept = median(firefighter_salaries$TotalPay, na.rm = TRUE), color = "blue", linetype = "dashed", linewidth = 1) +
  geom_vline(xintercept = mean(firefighter_salaries$TotalPay, na.rm = TRUE), color = "red", linetype = "dotted", linewidth = 1) +
  labs(title = "Distribution of Total Pay for Firefighters",
       x = "Pay (in dollars)", y = "Density") +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 14, face = "bold"),
    axis.title = element_text(size = 12)
  ) 

Rozkład wynagrodzeń strażaków jest względnie symetryczny, z głównym skupiskiem w okolicach 150,000 dolarów. Dodatkowy szczyt przy niższych wartościach może wynikać z różnych poziomów doświadczenia lub stanowisk w grupie strażaków.

3.4 Estymacja nieliniowej zależności

Poniżej wykorzystano metodę locpoly() z pakietu KernSmooth do estymacji nieliniowej zależności.

firefighter_salaries <- subset(salaries, JobTitle == "Firefighter")

fit <- locpoly(x = firefighter_salaries$TotalPay, 
               degree = 0, 
               bandwidth = 10000) %>% as_tibble()

ggplot(firefighter_salaries, aes(x = TotalPay)) +
  geom_histogram(aes(y = after_stat(density)), bins = 30, fill = "lightblue", color = "black", alpha = 0.5) +
  geom_line(data = fit, aes(x = x, y = y), color = "purple", linewidth = 1) +
  labs(
    title = "Kernel Density Estimation of Total Pay for Firefighters",
    x = "Total Pay (in dollars)", 
    y = "Density"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 14, face = "bold"),
    axis.title = element_text(size = 12)
  )

3.5 Modyfikacje - estymacja nieliniowej zależności

firefighter_salaries <- subset(salaries, JobTitle == "Firefighter")

fit_1 <- locpoly(firefighter_salaries$TotalPay, bandwidth = 5000, degree = 0) %>% as_tibble()
fit_2 <- locpoly(firefighter_salaries$TotalPay, bandwidth = 10000, degree = 1) %>% as_tibble()
fit_3 <- locpoly(firefighter_salaries$TotalPay, bandwidth = 20000, degree = 2) %>% as_tibble()

ggplot(firefighter_salaries, aes(x = TotalPay)) +
  geom_histogram(aes(y = after_stat(density)), bins = 30, fill = "lightblue", color = "black", alpha = 0.5) +
  geom_line(data = fit_1, aes(x = x, y = y), color = "purple", linewidth = 1, linetype = "solid", show.legend = TRUE) +
  geom_line(data = fit_2, aes(x = x, y = y), color = "red", linewidth = 1, linetype = "dashed", show.legend = TRUE) +
  geom_line(data = fit_3, aes(x = x, y = y), color = "blue", linewidth = 1, linetype = "dotdash", show.legend = TRUE) +
  labs(
    title = "Comparison of Kernel Density Estimation",
    x = "Total Pay (in dollars)", 
    y = "Density"
  ) +
  scale_color_manual(
    name = "Bandwidth and Degree",
    values = c("purple", "red", "blue"),
    labels = c("Bandwidth=5000, Degree=0", "Bandwidth=10000, Degree=1", "Bandwidth=20000, Degree=2")
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 14, face = "bold"),
    axis.title = element_text(size = 12)
  )

4 Wprowadzenie - raport 2

Cel: wyznaczenie obszaru ufności dla dystrybuanty nieznanego rozkładu, a nie tylko oszacowania parametrów, od jakich zależą jej wartości.

  • Brzegi tego obszaru są wykresami funkcji „przedziałami stałych” (funkcji schodkowych).

  • Jeżeli przy wyznaczaniu pasma ufności dla dystrybuanty otrzymamy lewy kraniec przedziału będący liczbą ujemną, to zastępujemy ją przez zero.

  • Jeżeli otrzymamy prawy kraniec przedziału większy od jedności, to przyjmujemy, że jest on równy jeden.

  • Określenie obszaru ufności dla dystrybuanty w przedstawiony sposób polega na wyznaczeniu przedziałowego oszacowania dla każdej wartości dystrybuanty.

4.1 Funkcja CDF

Funkcja w programie R odpowiedzialna za estymację to np. CDF z pakietu spatstat. CDF jest metodą ogólną, z metodą dla klasy “gęstość”.

Oblicza ona skumulowaną funkcję rozkładu, której gęstość prawdopodobieństwa została oszacowana i zapisana w obiekcie f. Obiekt f musi należeć do klasy “gęstość” i zazwyczaj zostałby uzyskany z wywołania funkcji gęstość.

4.2 Funkcja kde

Pakiet R o nazwie snpar zawiera kilka uzupełniających metod statystyki nieparametrycznej, w tym test kwantylowy, test trendu Coxa-Stuarta, test przebiegów, test normalnego wyniku, estymację jądra PDF i CDF, estymację regresji jądra i test jądra Kołmogorowa-Smirnowa.

Funkcja kde zawiera obliczanie zarówno nieparametrycznego estymatora jądra funkcji gęstości prawdopodobieństwa (PDF) jak i funkcji rozkładu skumulowanego (CDF).

4.3 Zadanie 1

Posłużymy się zbiorem danych diagnozy społecznej.

Na jego podstawie Twoim zadaniem jest oszacowanie rozkładu “p64 Pana/Pani wlasny (osobisty) dochod miesieczny netto (na reke)” według województw/płci. Postaraj się oszacować zarówno rozkład gęstości jak i skumulowanej gęstości (dystrybuanty).

data("diagnoza")
data("diagnozaDict")

dane <- data.frame(dochod=diagnoza$gp64, 
                   plec=diagnoza$plec, 
                   woj=diagnoza$wojewodztwo)

dane <- dane %>% 
  drop_na(dochod, woj, plec)

dane$dochod <- as.numeric(dane$dochod)

Histogram rozkładu dochodu według płci

ggplot(dane, aes(x = dochod, fill = plec)) +
  geom_histogram(position = "identity", alpha = 0.5, bins = 30) + 
  labs(
    title = "Rozkład dochodów miesięcznych netto według płci",
    x = "Dochód netto (PLN)",
    y = "Liczba osób"
  ) +
  facet_wrap(~ plec) + 
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 16, face = "bold"),
    axis.title.x = element_text(size = 12),
    axis.title.y = element_text(size = 12),
    legend.position = "none" 
  )

4.3.1 Rozkład gęstości

4.3.1.1 **Typ jądra

Poniżej wykonano estymację jądrową gęstości (Kernel Density Estimation - KDE) dla zmiennej dochod z wykorzystaniem różnych funkcji jądrowych (kernels) oraz tej samej szerokości pasma (bandwidth = 3). Wykorzystano trzy różne typy jąder: Gaussa (domyślne), Epanechnikova oraz prostokątne (rectangular). Wybór jądra wpływa na gładkość i dokładność estymacji. Jądro Gaussa daje najbardziej gładką estymację, podczas gdy jądro prostokątne jest bardziej sztywne i mniej wygładza dane.

d_gaussian <- density(dane$dochod, kernel = "gaussian", bw = 3)
d_epanechnikov <- density(dane$dochod, kernel = "epanechnikov", bw = 3)
d_rectangular <- density(dane$dochod, kernel = "rectangular", bw = 3)
par(mfrow = c(3, 1))
plot(d_gaussian,main = "Default")
plot(d_epanechnikov, main = "Epanechnikov")
plot(d_rectangular, main = "Rectangular")

Z rozróżnieniem na płeć:

plot_g <- ggplot(dane, aes(x=dochod, fill=plec))+
  stat_density()+
  labs(title="Estymacja gęstości z jądrem Gaussa")+
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 16, face = "bold"),
    axis.title.x = element_text(size = 12),
    axis.title.y = element_text(size = 12),
    legend.position = "none" 
  )
plot_g

plot_e <- ggplot(dane, aes(x=dochod, fill=plec))+
  stat_density(kernel = "epanechnikov")+
  labs(title="Estymacja gęstości z jądrem Epanechnikova")+
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 16, face = "bold"),
    axis.title.x = element_text(size = 12),
    axis.title.y = element_text(size = 12),
    legend.position = "none" 
  )
plot_e

plot_t <- ggplot(dane, aes(x=dochod, fill=plec))+
  stat_density(kernel = "rectangular")+
  labs(title="Estymacja gęstości z jądrem prostokątnym")+
    theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 16, face = "bold"),
    axis.title.x = element_text(size = 12),
    axis.title.y = element_text(size = 12),
    legend.position = "none" 
  )
plot_t

Wniosek: Ponieważ różne typy jąder dają podobne wyniki, do dalszej analizy można użyć domyślnego jądra Gaussowskiego. Wybór ten upraszcza obliczenia, jednocześnie zapewniając stabilne i dokładne estymacje rozkładów dochodów według województw i płci.

par(mfrow = c(2, 2))
d_0 <- density(dane$dochod, bw = "nrd0")
plot(d_0, main = "Pasmo nrd0", col="red")

d_scott <- density(dane$dochod, bw = "nrd")
plot(d_scott, main = "Pasmo Scotta", col='yellow')

d_ucv <- density(dane$dochod, bw = "ucv")
## Warning in bw.ucv(x): minimum occurred at one end of the range
plot(d_ucv, main = "Pasmo UCV", col="green")

d_SJ <- density(dane$dochod, bw = "SJ")
plot(d_SJ, main = "Pasmo Sheathera & Jonesa", col="blue")

Wnioski:

Pasmo UCV i Pasmo Sheathera & Jonesa (SJ) ujawniają najwięcej szczegółów i lokalnych wariacji w rozkładzie dochodów, ale mogą wprowadzać „szum”, który utrudnia ogólną interpretację danych. Są one odpowiednie, jeśli potrzebujemy szczegółowej analizy lokalnych zmian w rozkładzie.

Pasmo nrd0 i Pasmo Scotta zapewniają gładszy obraz rozkładu, który jest bardziej odporny na szum i fluktuacje lokalne, co jest korzystne, gdy interesuje nas bardziej ogólny kształt rozkładu. Pasmo Scotta daje najbardziej wygładzony wynik, idealny dla dużych zestawów danych.

ggplot(dane, aes(x=dochod, fill=plec))+
  stat_density(bw = "nrd")+
  labs(title="Estymacja gęstości z pasmem Scotta z podziałem na płeć")

4.3.2 Oszacowanie skumulowanej gęstości

Dystrybuanta to funkcja, która opisuje prawdopodobieństwo, że zmienna losowa przyjmie wartość mniejszą lub równą danej wartości x.

4.3.2.1 Typ jądra

dystrybuanta_g <- approxfun(d_gaussian$x,
                          cumsum(d_gaussian$y)/sum(d_gaussian$y))

dystrybuanta_e <- approxfun(d_epanechnikov$x,
                          cumsum(d_epanechnikov$y)/sum(d_epanechnikov$y))

dystrybuanta_r <- approxfun(d_rectangular$x,
                          cumsum(d_rectangular$y)/sum(d_rectangular$y))

x_vals <- seq(min(dane$dochod), max(dane$dochod), length.out = 100)
par(mfrow = c(3, 1))
plot(x_vals, dystrybuanta_g(x_vals), pch=1,
     main = "CDF dla jądra Gaussowskiego", 
     xlab = "Dochód", ylab = "Dystrybuanta")
plot(x_vals, dystrybuanta_e(x_vals), pch=1,
     main = "CDF dla jądra Epanechnikova", 
     xlab = "Dochód", ylab = "Dystrybuanta")
plot(x_vals, dystrybuanta_r(x_vals), pch=1,
     main = "CDF dla jądra prostokątnego", 
     xlab = "Dochód", ylab = "Dystrybuanta")

Wszystkie trzy dystrybuanty (dla różnych jąder) mają bardzo podobny kształt. Każdy z wykresów pokazuje, że większość wartości dochodów znajduje się w dolnym zakresie, co powoduje szybki wzrost dystrybuanty na początku, a następnie wypłaszczenie. Oznacza to, że dla większości populacji dochody są stosunkowo niskie.

4.3.2.2 Selekcja pasma

dystrybuanta_0 <- approxfun(d_0$x,
                          cumsum(d_0$y)/sum(d_0$y))

dystrybuanta_s <- approxfun(d_scott$x,
                          cumsum(d_scott$y)/sum(d_scott$y))

dystrybuanta_ucv <- approxfun(d_ucv$x,
                          cumsum(d_ucv$y)/sum(d_ucv$y))

dystrybuanta_SJ <- approxfun(d_SJ$x,
                          cumsum(d_SJ$y)/sum(d_SJ$y))

x_vals <- seq(min(dane$dochod), max(dane$dochod), length.out = 100)
plot(x_vals, dystrybuanta_0(x_vals), pch=1, 
     main = "CDF dla pasma nrd0", 
     xlab = "Dochód", ylab = "Dystrybuanta", 
     col = "red", lwd = 2)

Szerokość pasma ma ograniczony wpływ na wyniki estymacji dystrybuanty, co obserwujemy na wykresach, gdzie krzywe CDF dla różnych pasm i jąder są do siebie zbliżone. Zarówno estymacja gęstości, jak i skumulowanej gęstości są wartościowymi narzędziami w analizie rozkładu danych, pozwalając na dokładniejsze zrozumienie struktury danych. Różne jądra i metody wyboru pasma mogą jednak przynieść subtelne różnice w wynikach, co podkreśla znaczenie przemyślanego doboru tych parametrów, szczególnie w analizach statystycznych, gdzie precyzja ma kluczowe znaczenie.

---
title: "Nieklasyczne metody statystyki"
subtitle: "Nieparametryczna estymacja gęstości/dystrybuanty - Raport 1 + 2"
author: "Małgorzata Dudanowicz, Ewa Breza"
output:
  html_document:
    theme: cerulean
    highlight: textmate
    fontsize: 8pt
    toc: true
    number_sections: true
    code_download: true
    toc_float:
      collapsed: false
editor_options: 
  markdown: 
    wrap: 72
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
library(dplyr)
#if (!require("devtools"))
#install.packages("devtools")
#devtools::install_github("debinqiu/snpar")
library(tidyr)
library(PogromcyDanych)
library(ggplot2)
library(KernSmooth)
library(ggplot2)
library(dplyr)
```

# Krótkie wprowadzenie teoretyczne

Kernel Density Estimation (KDE), czyli estymacja jądrowa gęstości, jest
nieparametryczną metodą oszacowania funkcji gęstości rozkładu zmiennej
losowej na podstawie dostępnych danych. W przeciwieństwie do metod
parametrycznych, takich jak estymacja rozkładu normalnego, KDE nie
wymaga przyjęcia konkretnej formy rozkładu danych. Zamiast tego, KDE
buduje estymację funkcji gęstości w sposób gładki, opierając się na
rzeczywistych obserwacjach z próby. Dla każdego punktu danych
umieszczana jest funkcja jądrowa (kernel), najczęściej o kształcie
zbliżonym do krzywej dzwonowej, np. rozkładu Gaussa, której zadaniem
jest przypisanie "wagi" obserwacjom w pobliżu danego punktu. Szerokość
pasma (bandwidth) kontroluje stopień wygładzenia całkowitej funkcji
gęstości.

# Ćwiczenie 1.

Uruchom demo estymatora funkcji gęstości kernel. Zmieniaj zarówno dane
wejściowe, jak i opcje estymatora - szerokość pasma oraz rodzaj funkcji
jądrowej. Czy widzisz istotne różnice w oszacowaniu?

```{r cwiczenie1}
#install.packages("remotes") #tylko raz! potem #
#remotes::install_github("hericks/KDE") #tylko raz! potem #
#library(KDE)
#shiny_kde() 
```

Kilka wniosków:

-Małe pasmo (wąska szerokość): Gdy szerokość pasma jest bardzo mała,
estymacja gęstości staje się bardzo szczegółowa i dokładnie dopasowuje
się do poszczególnych obserwacji, co powoduje, że estymator jest podatny
na lokalne wahania i "szumy" w danych.

-Duże pasmo (szeroka szerokość): Przy dużym paśmie estymator gęstości
jest wygładzony, co sprawia, że lokalne szczegóły są mniej widoczne, ale
za to lepiej oddaje ogólny kształt rozkładu danych. Przy zbyt dużym
paśmie może jednak dojść do nadmiernego wygładzenia (underfitting),
gdzie szczegóły rozkładu są zupełnie zgubione, a estymator przestaje
odzwierciedlać realne zmiany w danych.

-Przy mniejszej liczbie danych estymator KDE jest bardziej wrażliwy na
dobór szerokości pasma i rodzaju jądra. Przy małych próbach każde jądro
ma duży wpływ na wynik, a małe pasmo generuje wyraźny szum.

-Przy większej liczbie obserwacji KDE działa bardziej stabilnie. Większe
próby lepiej odzwierciedlają rzeczywisty rozkład danych, a estymacja
staje się bardziej precyzyjna. Dobór szerokości pasma i jądra ma
mniejszy wpływ na wynik przy dużej liczbie danych.

-Użycie walidacji krzyżowej (cross-validation) do doboru szerokości
pasma okazało się skuteczne w uzyskaniu dobrze zbalansowanego
estymatora, który zachowuje kształt rozkładu bez nadmiernego
wygładzania.

-Jądro Gaussowskie daje chyba najbardziej intuicyjne i gładkie
estymacje.

# Ćwiczenie 2.

Wykorzystując dowolną funkcję R do estymacji funkcji gęstości oszacuj
jej przebieg dla wynagrodzeń (zbiór danych salaries) strażaków w San
Francisco. Wykorzystaj metody graficzne dostępne w pakiecie ggplot2.
Mile widziane przekroje oraz odpowiedzi na pytania badawcze zadane na
wstępie.

```{r}
salaries <- read.csv("https://github.com/kflisikowski/ds/raw/master/Salaries.csv")
```

## Histogram

```{r}
firefighter_salaries <- subset(salaries, JobTitle == "Firefighter")

hist(firefighter_salaries$TotalPay, 
     main = "Total Pay for Firefighters", 
     xlab = "Pay (in dollars)", 
     col = "lightblue", 
     border = "black")

abline(v = mean(firefighter_salaries$TotalPay, na.rm = TRUE), col = "red", lty = "dashed")
abline(v = median(firefighter_salaries$TotalPay, na.rm = TRUE), col = "blue", lty = "solid")
legend("topright", 
       legend = c("Mediana", "Średnia"), 
       col = c("blue", "red"), 
       lty = c("solid", "dashed"))
```

Większość strażaków zarabia w przedziale około 100,000 - 175,000 dolarów
rocznie, co stanowi największe skupisko wartości na wykresie. Rozkład
ten jest względnie symetryczny, co sugeruje, że wartości wynagrodzeń są
równomiernie rozłożone wokół centralnej wartości. Z tego wykresu wynika,
że mediana i średnia są bardzo zbliżone do siebie, co sugeruje, że w
rozkładzie nie występują duże wartości odstające, które mogłyby znacząco
zniekształcić średnią.

```{r}
firefighter_salaries <- subset(salaries, JobTitle == "Firefighter")
par(mfrow = c(2, 2))
hist(firefighter_salaries$TotalPay, 
     main = "Total Pay for Firefighters, default breaks", 
     xlab = "Pay (in dollars)", 
     col = "lightblue", 
     border = "black")
hist(firefighter_salaries$TotalPay, 
     main = "Total Pay for Firefighters, breaks=100", 
     xlab = "Pay (in dollars)", 
     breaks = 100, 
     col = "lightblue", 
     border = "black")
hist(firefighter_salaries$TotalPay, 
     main = "Total Pay for Firefighters, breaks=1000", 
     xlab = "Pay (in dollars)", 
     breaks = 1000, 
     col = "lightblue", 
     border = "black")
```

## Wykres pudełkowy

```{r}
firefighter_salaries <- subset(salaries, JobTitle == "Firefighter")

boxplot(firefighter_salaries$TotalPay, 
        main = "Total Pay for Firefighters", 
        ylab = "Pay (in dollars)", 
        col = "lightblue", 
        border = "black")

abline(h = median(firefighter_salaries$TotalPay, na.rm = TRUE), col = "blue", lty = "dashed")
abline(h = mean(firefighter_salaries$TotalPay, na.rm = TRUE), col = "red", lty = "dotted")
legend("topright", 
       legend = c("Mediana", "Średnia"), 
       col = c("blue", "red"), 
       lty = c("dashed", "dotted"))
```

## Wykres ggplot

```{r}

firefighter_salaries <- subset(salaries, JobTitle == "Firefighter")

ggplot(firefighter_salaries, aes(x = TotalPay)) +
  geom_density(fill = "skyblue", alpha = 0.5, color = "darkblue") +
  geom_vline(xintercept = median(firefighter_salaries$TotalPay, na.rm = TRUE), color = "blue", linetype = "dashed", linewidth = 1) +
  geom_vline(xintercept = mean(firefighter_salaries$TotalPay, na.rm = TRUE), color = "red", linetype = "dotted", linewidth = 1) +
  labs(title = "Distribution of Total Pay for Firefighters",
       x = "Pay (in dollars)", y = "Density") +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 14, face = "bold"),
    axis.title = element_text(size = 12)
  ) 
```

Rozkład wynagrodzeń strażaków jest względnie symetryczny, z głównym
skupiskiem w okolicach 150,000 dolarów. Dodatkowy szczyt przy niższych
wartościach może wynikać z różnych poziomów doświadczenia lub stanowisk
w grupie strażaków.

## Estymacja nieliniowej zależności

Poniżej wykorzystano metodę locpoly() z pakietu KernSmooth do estymacji
nieliniowej zależności.

```{r}

firefighter_salaries <- subset(salaries, JobTitle == "Firefighter")

fit <- locpoly(x = firefighter_salaries$TotalPay, 
               degree = 0, 
               bandwidth = 10000) %>% as_tibble()

ggplot(firefighter_salaries, aes(x = TotalPay)) +
  geom_histogram(aes(y = after_stat(density)), bins = 30, fill = "lightblue", color = "black", alpha = 0.5) +
  geom_line(data = fit, aes(x = x, y = y), color = "purple", linewidth = 1) +
  labs(
    title = "Kernel Density Estimation of Total Pay for Firefighters",
    x = "Total Pay (in dollars)", 
    y = "Density"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 14, face = "bold"),
    axis.title = element_text(size = 12)
  )
```

## Modyfikacje - estymacja nieliniowej zależności

```{r}
firefighter_salaries <- subset(salaries, JobTitle == "Firefighter")

fit_1 <- locpoly(firefighter_salaries$TotalPay, bandwidth = 5000, degree = 0) %>% as_tibble()
fit_2 <- locpoly(firefighter_salaries$TotalPay, bandwidth = 10000, degree = 1) %>% as_tibble()
fit_3 <- locpoly(firefighter_salaries$TotalPay, bandwidth = 20000, degree = 2) %>% as_tibble()

ggplot(firefighter_salaries, aes(x = TotalPay)) +
  geom_histogram(aes(y = after_stat(density)), bins = 30, fill = "lightblue", color = "black", alpha = 0.5) +
  geom_line(data = fit_1, aes(x = x, y = y), color = "purple", linewidth = 1, linetype = "solid", show.legend = TRUE) +
  geom_line(data = fit_2, aes(x = x, y = y), color = "red", linewidth = 1, linetype = "dashed", show.legend = TRUE) +
  geom_line(data = fit_3, aes(x = x, y = y), color = "blue", linewidth = 1, linetype = "dotdash", show.legend = TRUE) +
  labs(
    title = "Comparison of Kernel Density Estimation",
    x = "Total Pay (in dollars)", 
    y = "Density"
  ) +
  scale_color_manual(
    name = "Bandwidth and Degree",
    values = c("purple", "red", "blue"),
    labels = c("Bandwidth=5000, Degree=0", "Bandwidth=10000, Degree=1", "Bandwidth=20000, Degree=2")
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 14, face = "bold"),
    axis.title = element_text(size = 12)
  )
```

# Wprowadzenie - raport 2

Cel: wyznaczenie obszaru ufności dla dystrybuanty nieznanego rozkładu, a
nie tylko oszacowania parametrów, od jakich zależą jej wartości.

-   Brzegi tego obszaru są wykresami funkcji „przedziałami stałych"
    (funkcji schodkowych).

-   Jeżeli przy wyznaczaniu pasma ufności dla dystrybuanty otrzymamy
    lewy kraniec przedziału będący liczbą ujemną, to zastępujemy ją
    przez zero.

-   Jeżeli otrzymamy prawy kraniec przedziału większy od jedności, to
    przyjmujemy, że jest on równy jeden.

-   Określenie obszaru ufności dla dystrybuanty w przedstawiony sposób
    polega na wyznaczeniu przedziałowego oszacowania dla każdej wartości
    dystrybuanty.

## Funkcja CDF

Funkcja w programie R odpowiedzialna za estymację to np. CDF z pakietu
spatstat. CDF jest metodą ogólną, z metodą dla klasy "gęstość".

Oblicza ona skumulowaną funkcję rozkładu, której gęstość
prawdopodobieństwa została oszacowana i zapisana w obiekcie f. Obiekt f
musi należeć do klasy "gęstość" i zazwyczaj zostałby uzyskany z
wywołania funkcji gęstość.

## Funkcja kde

Pakiet R o nazwie snpar zawiera kilka uzupełniających metod statystyki
nieparametrycznej, w tym test kwantylowy, test trendu Coxa-Stuarta, test
przebiegów, test normalnego wyniku, estymację jądra PDF i CDF, estymację
regresji jądra i test jądra Kołmogorowa-Smirnowa.

Funkcja kde zawiera obliczanie zarówno nieparametrycznego estymatora
jądra funkcji gęstości prawdopodobieństwa (PDF) jak i funkcji rozkładu
skumulowanego (CDF).

## Zadanie 1

Posłużymy się zbiorem danych diagnozy społecznej.

Na jego podstawie Twoim zadaniem jest oszacowanie rozkładu "p64
Pana/Pani wlasny (osobisty) dochod miesieczny netto (na reke)" według
województw/płci. Postaraj się oszacować zarówno rozkład gęstości jak i
skumulowanej gęstości (dystrybuanty).

```{r zadanie}
data("diagnoza")
data("diagnozaDict")

dane <- data.frame(dochod=diagnoza$gp64, 
                   plec=diagnoza$plec, 
                   woj=diagnoza$wojewodztwo)

dane <- dane %>% 
  drop_na(dochod, woj, plec)

dane$dochod <- as.numeric(dane$dochod)
```

**Histogram rozkładu dochodu według płci**

```{r}
ggplot(dane, aes(x = dochod, fill = plec)) +
  geom_histogram(position = "identity", alpha = 0.5, bins = 30) + 
  labs(
    title = "Rozkład dochodów miesięcznych netto według płci",
    x = "Dochód netto (PLN)",
    y = "Liczba osób"
  ) +
  facet_wrap(~ plec) + 
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 16, face = "bold"),
    axis.title.x = element_text(size = 12),
    axis.title.y = element_text(size = 12),
    legend.position = "none" 
  )

```

### Rozkład gęstości

#### \*\*Typ jądra

Poniżej wykonano estymację jądrową gęstości (Kernel Density Estimation -
KDE) dla zmiennej dochod z wykorzystaniem różnych funkcji jądrowych
(kernels) oraz tej samej szerokości pasma (bandwidth = 3). Wykorzystano
trzy różne typy jąder: Gaussa (domyślne), Epanechnikova oraz prostokątne
(rectangular). Wybór jądra wpływa na gładkość i dokładność estymacji.
Jądro Gaussa daje najbardziej gładką estymację, podczas gdy jądro
prostokątne jest bardziej sztywne i mniej wygładza dane.

```{r}
d_gaussian <- density(dane$dochod, kernel = "gaussian", bw = 3)
d_epanechnikov <- density(dane$dochod, kernel = "epanechnikov", bw = 3)
d_rectangular <- density(dane$dochod, kernel = "rectangular", bw = 3)
```

```{r}
par(mfrow = c(3, 1))
plot(d_gaussian,main = "Default")
plot(d_epanechnikov, main = "Epanechnikov")
plot(d_rectangular, main = "Rectangular")

```

Z rozróżnieniem na płeć:

```{r}
plot_g <- ggplot(dane, aes(x=dochod, fill=plec))+
  stat_density()+
  labs(title="Estymacja gęstości z jądrem Gaussa")+
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 16, face = "bold"),
    axis.title.x = element_text(size = 12),
    axis.title.y = element_text(size = 12),
    legend.position = "none" 
  )
plot_g
```

```{r}
plot_e <- ggplot(dane, aes(x=dochod, fill=plec))+
  stat_density(kernel = "epanechnikov")+
  labs(title="Estymacja gęstości z jądrem Epanechnikova")+
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 16, face = "bold"),
    axis.title.x = element_text(size = 12),
    axis.title.y = element_text(size = 12),
    legend.position = "none" 
  )
plot_e
```

```{r}
plot_t <- ggplot(dane, aes(x=dochod, fill=plec))+
  stat_density(kernel = "rectangular")+
  labs(title="Estymacja gęstości z jądrem prostokątnym")+
    theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 16, face = "bold"),
    axis.title.x = element_text(size = 12),
    axis.title.y = element_text(size = 12),
    legend.position = "none" 
  )
plot_t
```

**Wniosek**: Ponieważ różne typy jąder dają podobne wyniki, do dalszej
analizy można użyć domyślnego jądra Gaussowskiego. Wybór ten upraszcza
obliczenia, jednocześnie zapewniając stabilne i dokładne estymacje
rozkładów dochodów według województw i płci.

```{r}
par(mfrow = c(2, 2))
d_0 <- density(dane$dochod, bw = "nrd0")
plot(d_0, main = "Pasmo nrd0", col="red")

d_scott <- density(dane$dochod, bw = "nrd")
plot(d_scott, main = "Pasmo Scotta", col='yellow')

d_ucv <- density(dane$dochod, bw = "ucv")
plot(d_ucv, main = "Pasmo UCV", col="green")

d_SJ <- density(dane$dochod, bw = "SJ")
plot(d_SJ, main = "Pasmo Sheathera & Jonesa", col="blue")
```

Wnioski:

Pasmo UCV i Pasmo Sheathera & Jonesa (SJ) ujawniają najwięcej szczegółów
i lokalnych wariacji w rozkładzie dochodów, ale mogą wprowadzać „szum",
który utrudnia ogólną interpretację danych. Są one odpowiednie, jeśli
potrzebujemy szczegółowej analizy lokalnych zmian w rozkładzie.

Pasmo nrd0 i Pasmo Scotta zapewniają gładszy obraz rozkładu, który jest
bardziej odporny na szum i fluktuacje lokalne, co jest korzystne, gdy
interesuje nas bardziej ogólny kształt rozkładu. Pasmo Scotta daje
najbardziej wygładzony wynik, idealny dla dużych zestawów danych.

```{r}
ggplot(dane, aes(x=dochod, fill=plec))+
  stat_density(bw = "nrd")+
  labs(title="Estymacja gęstości z pasmem Scotta z podziałem na płeć")
```

### Oszacowanie skumulowanej gęstości

Dystrybuanta to funkcja, która opisuje prawdopodobieństwo, że zmienna
losowa przyjmie wartość mniejszą lub równą danej wartości x.

#### **Typ jądra**

```{r}
dystrybuanta_g <- approxfun(d_gaussian$x,
                          cumsum(d_gaussian$y)/sum(d_gaussian$y))

dystrybuanta_e <- approxfun(d_epanechnikov$x,
                          cumsum(d_epanechnikov$y)/sum(d_epanechnikov$y))

dystrybuanta_r <- approxfun(d_rectangular$x,
                          cumsum(d_rectangular$y)/sum(d_rectangular$y))

x_vals <- seq(min(dane$dochod), max(dane$dochod), length.out = 100)
```

```{r}

par(mfrow = c(3, 1))
plot(x_vals, dystrybuanta_g(x_vals), pch=1,
     main = "CDF dla jądra Gaussowskiego", 
     xlab = "Dochód", ylab = "Dystrybuanta")
plot(x_vals, dystrybuanta_e(x_vals), pch=1,
     main = "CDF dla jądra Epanechnikova", 
     xlab = "Dochód", ylab = "Dystrybuanta")
plot(x_vals, dystrybuanta_r(x_vals), pch=1,
     main = "CDF dla jądra prostokątnego", 
     xlab = "Dochód", ylab = "Dystrybuanta")
```

Wszystkie trzy dystrybuanty (dla różnych jąder) mają bardzo podobny
kształt. Każdy z wykresów pokazuje, że większość wartości dochodów
znajduje się w dolnym zakresie, co powoduje szybki wzrost dystrybuanty
na początku, a następnie wypłaszczenie. Oznacza to, że dla większości
populacji dochody są stosunkowo niskie.

#### Selekcja pasma

```{r}
dystrybuanta_0 <- approxfun(d_0$x,
                          cumsum(d_0$y)/sum(d_0$y))

dystrybuanta_s <- approxfun(d_scott$x,
                          cumsum(d_scott$y)/sum(d_scott$y))

dystrybuanta_ucv <- approxfun(d_ucv$x,
                          cumsum(d_ucv$y)/sum(d_ucv$y))

dystrybuanta_SJ <- approxfun(d_SJ$x,
                          cumsum(d_SJ$y)/sum(d_SJ$y))

x_vals <- seq(min(dane$dochod), max(dane$dochod), length.out = 100)

```

```{r}

plot(x_vals, dystrybuanta_0(x_vals), pch=1, 
     main = "CDF dla pasma nrd0", 
     xlab = "Dochód", ylab = "Dystrybuanta", 
     col = "red", lwd = 2)

```

Szerokość pasma ma ograniczony wpływ na wyniki estymacji dystrybuanty,
co obserwujemy na wykresach, gdzie krzywe CDF dla różnych pasm i jąder
są do siebie zbliżone. Zarówno estymacja gęstości, jak i skumulowanej
gęstości są wartościowymi narzędziami w analizie rozkładu danych,
pozwalając na dokładniejsze zrozumienie struktury danych. Różne jądra i
metody wyboru pasma mogą jednak przynieść subtelne różnice w wynikach,
co podkreśla znaczenie przemyślanego doboru tych parametrów, szczególnie
w analizach statystycznych, gdzie precyzja ma kluczowe znaczenie.
