library(car)
library(KernSmooth)
library(tidyverse)
library(ggplot2)
library(splines)
library(MASS)

1 Zadanie 1

Zestaw danych “Prestige” (z pakietu “car”) zawiera dane nt. prestiżu n=102 Kanadyjskich zawodów z 1971 roku, a także średni dochód w danym zawodzie. Do zbadania zależności między prestiżem a dochodem wykorzystaj metody regresji nieparametrycznej.

Najpierw załaduj dane i zwizualizuj relację pomiędzy dochodem (X) a prestiżem (Y).

Prestige$income <- as.numeric(Prestige$income)
Prestige$prestige <- as.numeric(Prestige$prestige)
ggplot(Prestige)+
  geom_point(aes(x=income, y=prestige),colour='red')

Patrząc na wykres powiązania pomiędzy income a prestige widzim że kropki układają w sposób sugerujący że związek tych czynników jest nieliniowy. Dla zawodów, które zarabiają mniej niż $10K,widzimy , że wartości zależności pomiędzy dochodem a prestiżem układają się nieliniowo. W przypadku zawodów, które zarabiają od 10 do 25 tysięcy dolarów, związek ten ma znacznie inne nachylenie.

1.1 Metoda lokalnego wygładzania-Local polynomial regression (locpoly)

Główne parametry, takie jak degree i bandwidth, mają kluczowy wpływ na sposób, w jaki wygładzana jest zależność. Parametr degree określa stopień wielomianu użytego do lokalnej aproksymacji. Parametr bandwidth określa szerokość pasma, które jest używane do wygładzania.

Degree=0 ->lokalna średnich (regresja najbliższych sąsiadów)

Degree=1 -> lokalnej regresja liniowa

Degree=2 ->lokalna regresja kwadratowa

1.1.1 Porównanie różnych bandwidth

fit1a <- locpoly(income,prestige, 
        degree=0, bandwidth=800,gridsize = 100000) %>% as.tibble

ggplot(Prestige) +
  geom_point(aes(x=income,y=prestige)) +
  geom_line(data=fit1a, aes(x=x,y=y), col='blue')+
  ggtitle("Szerokość pasma równa 800")+
  labs(subtitle = "Kernel Smothing")

Zwiększam szerokość pasma do 5

fit1b <- locpoly(income,prestige,
        degree=0, bandwidth=1000,gridsize = 260000) %>% as.tibble

ggplot(Prestige) +
  geom_point(aes(x=income,y=prestige)) +
  geom_line(data=fit1b, aes(x=x,y=y), col='red')+
  ggtitle("Szerokość pasma równa 1000")+
  labs(subtitle = "Kernel Smothing")

Porównanie:

Niebieska linia: szerokość pasma 1 Czerwona linia: szerokość pasma 5

ggplot(Prestige) +
  geom_point(aes(x=income,y=prestige)) +
  geom_line(data=fit1a, aes(x=x,y=y), col='blue')+
  geom_line(data=fit1b, aes(x=x,y=y), col='red')+
  ggtitle("Porówananie dwóch szerokości pasm")+
  labs(subtitle = "Kernel Smothing")

Aby dopasować szerokośc pasma - cross validation

dopasowana <- dpill(income,prestige)
fit1d <- locpoly(income,prestige,
        degree=0, bandwidth=dopasowana) %>% as.tibble

ggplot(Prestige) +
  geom_point(aes(x=income, y=prestige))+
  geom_line(data=fit1d, aes(x=x,y=y), col='lightgreen',size=1)+
ggtitle("Dopasowana szerokość pasma wynosi:", round(dopasowana, 4))

1.1.2 Porównanie różnych degree (stopień wielomianu)

fit2a <- locpoly(income,prestige,
        degree=0, bandwidth=dopasowana) %>% as.tibble
fit2b <- locpoly(income,prestige,
        degree=1, bandwidth=dopasowana) %>% as.tibble
fit2c <- locpoly(income,prestige,
        degree=2, bandwidth=dopasowana) %>% as.tibble

ggplot(Prestige) +
  geom_point(aes(income,prestige)) +
  geom_line(data=fit2a, aes(x=x,y=y), col='darkblue',size=0.8)+
  geom_line(data=fit2b, aes(x=x,y=y), col='hotpink',size=0.8)+
  geom_line(data=fit2c, aes(x=x,y=y), col='darkgoldenrod2',size=0.8)+
  ggtitle("Porówananie trzech stopni wielomianu")

Można zauważyć, że wybór degree wpływa na funkcję gęstości na wykresie. W przypadku degree=0 występuje underfitting. Lepszym wyborem byłoby degree równe 1 lub 2.

1.2 Lokalnie kwadratowy-Loess

smr1 <- loess (prestige~income,span=0.75, degree=1,
               family="gaussian")

ggplot(Prestige) +
  geom_point(aes(x=income,y=prestige))+
  geom_line(aes(x=income,y=fitted(smr1)), col='blueviolet',size=1)

smr2 <- loess (prestige~income,span=0.75, degree=2,
               family="gaussian")

ggplot(Prestige) +
  geom_point(aes(x=income,y=prestige))+
  geom_line(aes(x=income,y=fitted(smr2)), col='darkgoldenrod',size=1)

ggplot(Prestige) +
  geom_point(x=income,y=prestige)+
  geom_smooth(aes(x=income,y=prestige),method='loess',span=0.22)

1.3 Sploty interpolujące - smooth.spline

1.3.1 Zmienianie parametru ‘spar’

fit3a <-smooth.spline(income,prestige,spar=0.2) 
smr3a <- data.frame(x=fit3a$x,y=fit3a$y)

fit3b <-smooth.spline(income,prestige, spar=0.8) 
smr3b <- data.frame(x=fit3b$x,y=fit3b$y)

ggplot(Prestige) +
  geom_point(aes(x=income,y=prestige)) +
  geom_line(data=smr3a, aes(x=x,y=y), col='lawngreen',size=0.8)+
  geom_line(data=smr3b, aes(x=x,y=y), col='plum3',size=0.8)+
  ggtitle("Porównanie różnych wartości parametru 'spar'")+
  labs(subtitle = "Sploty interpolujące")

Aby automatycznie wybrać szerokośc pasma można zastosować cross validation

1.3.2 Zastosowanie cross validation (CV=TRUE)

smr3d <- smooth.spline(income,prestige,cv=TRUE)
lambda_value <- smr3d$lambda
smr3d <- data.frame(x=smr3d$x,y=smr3d$y)


ggplot(Prestige) +
  geom_point(aes(x=income,y=prestige)) +
  ggtitle("Sploty interpolujące, lambda wybrana przez CV:", round(lambda_value, 4)) +
  geom_line(data=smr3d, aes(x=x, y=y), col='darkgoldenrod2')

1.4 Porównanie funkcji locpoly i smooth.spline

Fioletowa linia - locpoly Różowa linia - smooth.spline

FIT <- locpoly(income,prestige,
        degree=1, bandwidth=dopasowana) %>% as.tibble

SMR <- smooth.spline(income,prestige,cv=TRUE)
SMR <- data.frame(x=SMR$x,y=SMR$y)

ggplot(Prestige) +
  geom_point(aes(x=income,y=prestige)) +
  geom_line(data=FIT, aes(x=x,y=y), col='blueviolet')+
  geom_line(data=SMR, aes(x=x,y=y), col='hotpink')+
ggtitle("Porównanie funkcji locpoly i smooth.spline") + 
scale_color_manual(values = c("locpoly" = "blueviolet", "smooth.spline" = "hotpink"), 
                   labels = c("locpoly", "smooth.spline")) + labs(color = "Function")

1.5 Naturalne sploty

Naturalne sploty, 6 df oznaczone kolorem niebieskim
10 df oznaczone kolorem fioletowym 12 df oznaczone kolorem zielonym

Fit1 <-lm(prestige~ns(income,df=6),Prestige)
Fit2 <-lm(prestige~ns(income,df=10),Prestige)
Fit3 <-lm(prestige~ns(income,df=12),Prestige)

ggplot(Prestige)+
  geom_point(aes(x=income,y=prestige))+
  ggtitle("Naturalne sploty")+
  geom_line(aes(x=income,y=fitted(Fit1)),col='darkblue')+
  geom_line(aes(x=income,y=fitted(Fit2)),col='darkmagenta')+
  geom_line(aes(x=income,y=fitted(Fit3)),col='darkgreen')

1.6 Sploty oraz geom_smooth()

ggplot(Prestige) +
    geom_point(aes(x=income,y=prestige)) +
    geom_smooth(aes(x=income,y=fitted(Fit1)), method='gam',
      formula = y ~ s(x,k=12), se=TRUE)

Predykcjia z przedziałem ufności 0,1

fit4 <- lm(prestige ~ ns(income, df = 6), Prestige)
pred_fit4 <- data.frame(income = Prestige$income,
                   predict(fit4, interval = "confidence"))
ggplot(Prestige, aes(x=income,y=prestige)) +
    geom_point() +
    geom_line(data = pred_fit4, aes(y = fit), color = "darkblue") +
    geom_ribbon(data = pred_fit4, aes(ymin = lwr, ymax = upr), alpha = 0.1)

2 Zadanie 2

Zbiór danych “mcycle” (z pakietu MASS) zawiera n=133 pary punktów czasowych (w ms) i obserwowanych przyspieszeń głowy (w g), które zostały zarejestrowane w symulowanym wypadku motocyklowym.

Do zbadania zależności między czasem a przyspieszeniem wykorzystaj metody regresji nieparametrycznej.

Najpierw wczytaj dane i zwizualizuj zależność między czasem (X) a przyspieszeniem (Y).

Zależność wygląda na nieliniową.

Przyspieszenie jest

-stabilne od 0-15 ms

-spada gwałtownie od ok. 15-20 ms

-rośnie szybko od 20-30 ms

-spada ponownie od 30-40 ms,

-zaczyna się stabilizować

2.1 Metoda lokalnego wygładzania-Local polynomial regression (locpoly)

2.1.1 Porównanie różnych bandwidth

fit_1 <- locpoly(times, accel,
        degree=0, bandwidth=1,gridsize = 100) %>% as.tibble

ggplot(mcycle) +
  geom_point(aes(x=times,y=accel)) +
  geom_line(data=fit_1-1, aes(x=x,y=y), col='hotpink')+
  ggtitle("Szerokość pasma równa 1")+
  labs(subtitle = "Kernel Smothing")

Zwiększam szerokość pasma do 5

fit_2 <- locpoly(times, accel,
        degree=0, bandwidth=5,gridsize = 1000) %>% as.tibble

ggplot(mcycle) +
  geom_point(aes(x=times,y=accel)) +
  geom_line(data=fit_2, aes(x=x,y=y), col='darkblue')+
  ggtitle("Szerokość pasma równa 5")+
  labs(subtitle = "Kernel Smothing")

Porównanie:

Różowa linia: szerokość pasma 1

Niebieska linia: szerokość pasma 5

ggplot(mcycle) +
  geom_point(aes(x=times,y=accel)) +
  geom_line(data=fit_1, aes(x=x,y=y), col='hotpink')+
  geom_line(data=fit_2, aes(x=x,y=y), col='darkblue')+
  ggtitle("Porówananie dwóch szerokości pasm")+
  labs(subtitle = "Kernel smoothing")

2.1.2 Cross validation

dopasowana_2 <- dpill(times, accel)
fit_3 <- locpoly(times, accel,
        degree=0, bandwidth=dopasowana_2) %>% as.tibble

paste("Dopasowana szerokość pasma wynosi:", round(dopasowana_2, 4))
## [1] "Dopasowana szerokość pasma wynosi: 1.4453"
ggplot(mcycle) +
  geom_point(aes(x=times,y=accel))+
  geom_line(data=fit_3, aes(x=x,y=y), col='darkmagenta',size=1)

2.1.3 Porównanie różnych degree (stopień wielomianu)

fit_1a<- locpoly(times, accel,
        degree=0, bandwidth=dopasowana_2) %>% as.tibble
fit_2a <- locpoly(times, accel,,
        degree=1, bandwidth=dopasowana_2) %>% as.tibble
fit_3a <- locpoly(times, accel,
        degree=2, bandwidth=dopasowana_2) %>% as.tibble

ggplot(mcycle) +
  geom_point(aes(x=times,y=accel)) +
  geom_line(data=fit_1a, aes(x=x,y=y), col='darkblue',size=0.8)+
  geom_line(data=fit_2a, aes(x=x,y=y), col='hotpink',size=0.8)+
  geom_line(data=fit_3a, aes(x=x,y=y), col='darkmagenta',size=0.8)+
  ggtitle("Porówananie trzech stopni wielomianu")+
  labs(subtitle = "Kernel Smothing")

2.2 Loess - lokalnie kwadratowy

smr_1 <- loess (accel~times,span=0.75, degree=2,
               family="gaussian")

ggplot(mcycle) +
  geom_point(aes(x=times,y=accel))+
  geom_line(aes(x=times,y=fitted(smr_1)), col='darkgoldenrod2',size=1)

ggplot(mcycle) +
  geom_point(aes(x=times,y=accel))+
  geom_smooth(aes(x=times,y=accel),method='loess',span=0.22)

2.3 Sploty interpolujące - smooth.spline

2.3.1 Zmienianie parametru ‘spar’

fit_4 <-smooth.spline(times, accel, spar=0.2) 
smr_4<- data.frame(x=fit_4$x,y=fit_4$y)

fit_5 <-smooth.spline(times, accel,, spar=0.8) 
smr_5 <- data.frame(x=fit_5$x,y=fit_5$y)

ggplot(mcycle) +
  geom_point(aes(x=times,y=accel)) +
  geom_line(data=smr_4, aes(x=x,y=y), col='blueviolet',size=0.8)+
  geom_line(data=smr_5, aes(x=x,y=y), col='darkgoldenrod2',size=0.8)+
  ggtitle("Porównanie różnych wartości parametru 'spar'")+
  labs(subtitle = "Sploty interpolujące")

Aby automatycznie wybrać szerokośc pasma można zastosować cross validation

2.3.2 Zastosowanie cross validation (CV=TRUE)

Smr_2 <- smooth.spline(times,accel,cv=TRUE)
lambda_value2<- Smr_2$lambda
Smr_2 <- data.frame(x=Smr_2$x,y=Smr_2$y)
ggplot(mcycle) +
  geom_point(aes(x=times,y=accel)) +
  ggtitle("Sploty interpolujące, lambda wybrana przez CV", round(lambda_value2, 4))+
  geom_line(data=Smr_2, aes(x=x, y=y), col='darkblue')

2.4 Porównanie funkcji locpoly i smooth.spline

fit_6 <- locpoly(times, accel,
        degree=2, bandwidth=dopasowana) %>% as.tibble

smr_6 <- smooth.spline(times,accel,cv=TRUE)
smr_6 <- data.frame(x=smr_6$x,y=smr_6$y)

ggplot(mcycle) +
  geom_point(aes(x=times,y=accel)) +
  geom_line(data=fit_6, aes(x=x,y=y), col='skyblue')+
  geom_line(data=smr_6, aes(x=x,y=y), col='hotpink')+
  ggtitle("Porównanie funkcji locpoly i smooth.spline")

2.5 Naturalne sploty

fit_7 <-lm(accel~ns(times,df=6),mcycle)
fit_7b <-lm(accel~ns(times,df=12),mcycle)
fit_7c <-lm(accel~ns(times,df=12),mcycle)

ggplot(mcycle)+
  geom_point(aes(x=times,y=accel))+
  ggtitle("Naturalne sploty")+
  labs(subtitle = "6 kolor różowy, 10 kolor fioletowy,12 kolor granatowy")+
  geom_line(aes(x=times,y=fitted(fit_7)),col='hotpink')+
  geom_line(aes(x=times,y=fitted(fit_7b)),col='darkmagenta')+
  geom_line(aes(x=times,y=fitted(fit_7c)),col='darkblue')

2.6 Sploty oraz geom_smooth()

ggplot(mcycle) +
    geom_point(aes(x=times,y=accel)) +
    geom_smooth(aes(x=times,y=fitted(fit_7)), method='gam',
      formula = y ~ s(x,k=12), se=TRUE)

fit_8 <- lm(accel ~ ns(times, df = 6), data = mcycle)
pred_8 <- data.frame(times = mcycle$times,
                     predict(fit_8, interval = "confidence"))
colnames(pred_8) <- c("times", "fit_8", "lwr", "upr")

ggplot(mcycle, aes(x = times, y = accel)) +
  geom_point() +
  geom_line(data = pred_8, aes(x = times, y = fit_8), color = "blueviolet") +
  geom_ribbon(data = pred_8, aes(x = times, ymin = lwr, ymax = upr), alpha = 0.1) 

---
title: "Raport 3"
subtitle: "Regresja nieparametryczna"
author: "Paulina Fereniec"
date: "`r Sys.Date()`"
output:
  html_document:
    theme: cerulean
    highlight: textmate
    fontsize: 8pt
    toc: true
    number_sections: true
    code_download: true
    toc_float:
      collapsed: false
editor_options: 
  markdown: 
    wrap: 72
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```


```{r,message=FALSE,warning=FALSE}
library(car)
library(KernSmooth)
library(tidyverse)
library(ggplot2)
library(splines)
library(MASS)
```

# Zadanie 1 

Zestaw danych “Prestige” (z pakietu “car”) zawiera dane nt. prestiżu n=102 Kanadyjskich zawodów z 1971 roku, a także średni dochód w danym zawodzie. Do zbadania zależności między prestiżem a dochodem wykorzystaj metody regresji nieparametrycznej.

Najpierw załaduj dane i zwizualizuj relację pomiędzy dochodem (X) a prestiżem (Y).

```{r,echo=FALSE,warning=FALSE,include=FALSE}
data("Prestige")
attach(Prestige)
```

```{r}
Prestige$income <- as.numeric(Prestige$income)
Prestige$prestige <- as.numeric(Prestige$prestige)
```

```{r}
ggplot(Prestige)+
  geom_point(aes(x=income, y=prestige),colour='red')
```
Patrząc na wykres powiązania pomiędzy income a prestige widzim że kropki układają w sposób sugerujący że związek tych czynników jest  nieliniowy. 
Dla zawodów, które zarabiają mniej niż $10K,widzimy , że wartości zależności pomiędzy dochodem a prestiżem układają się nieliniowo. 
W przypadku zawodów, które zarabiają od 10 do 25 tysięcy dolarów, związek ten ma znacznie inne nachylenie.



## Metoda lokalnego wygładzania-Local polynomial regression (locpoly) 

Główne parametry, takie jak degree i bandwidth, mają kluczowy wpływ na sposób, w jaki wygładzana jest zależność.
Parametr degree określa stopień wielomianu użytego do lokalnej aproksymacji. 
Parametr bandwidth określa szerokość pasma, które jest używane do wygładzania.

Degree=0 ->lokalna średnich (regresja najbliższych sąsiadów) 

Degree=1 -> lokalnej regresja liniowa 

Degree=2 ->lokalna regresja kwadratowa


### Porównanie różnych bandwidth

```{r warning=FALSE}
fit1a <- locpoly(income,prestige, 
        degree=0, bandwidth=800,gridsize = 100000) %>% as.tibble

ggplot(Prestige) +
  geom_point(aes(x=income,y=prestige)) +
  geom_line(data=fit1a, aes(x=x,y=y), col='blue')+
  ggtitle("Szerokość pasma równa 800")+
  labs(subtitle = "Kernel Smothing")
```

Zwiększam szerokość pasma do 5
  
```{r}
fit1b <- locpoly(income,prestige,
        degree=0, bandwidth=1000,gridsize = 260000) %>% as.tibble

ggplot(Prestige) +
  geom_point(aes(x=income,y=prestige)) +
  geom_line(data=fit1b, aes(x=x,y=y), col='red')+
  ggtitle("Szerokość pasma równa 1000")+
  labs(subtitle = "Kernel Smothing")
```
Porównanie:

Niebieska linia: szerokość pasma 1
Czerwona linia: szerokość pasma 5

```{r}
ggplot(Prestige) +
  geom_point(aes(x=income,y=prestige)) +
  geom_line(data=fit1a, aes(x=x,y=y), col='blue')+
  geom_line(data=fit1b, aes(x=x,y=y), col='red')+
  ggtitle("Porówananie dwóch szerokości pasm")+
  labs(subtitle = "Kernel Smothing")
```



Aby dopasować szerokośc pasma - cross validation

```{r warning=FALSE}

dopasowana <- dpill(income,prestige)
fit1d <- locpoly(income,prestige,
        degree=0, bandwidth=dopasowana) %>% as.tibble

ggplot(Prestige) +
  geom_point(aes(x=income, y=prestige))+
  geom_line(data=fit1d, aes(x=x,y=y), col='lightgreen',size=1)+
ggtitle("Dopasowana szerokość pasma wynosi:", round(dopasowana, 4))
```

### Porównanie różnych degree (stopień wielomianu)

```{r}
fit2a <- locpoly(income,prestige,
        degree=0, bandwidth=dopasowana) %>% as.tibble
fit2b <- locpoly(income,prestige,
        degree=1, bandwidth=dopasowana) %>% as.tibble
fit2c <- locpoly(income,prestige,
        degree=2, bandwidth=dopasowana) %>% as.tibble

ggplot(Prestige) +
  geom_point(aes(income,prestige)) +
  geom_line(data=fit2a, aes(x=x,y=y), col='darkblue',size=0.8)+
  geom_line(data=fit2b, aes(x=x,y=y), col='hotpink',size=0.8)+
  geom_line(data=fit2c, aes(x=x,y=y), col='darkgoldenrod2',size=0.8)+
  ggtitle("Porówananie trzech stopni wielomianu")
```

Można zauważyć, że wybór degree wpływa na funkcję gęstości na wykresie. W przypadku degree=0 występuje underfitting. Lepszym wyborem byłoby degree równe 1 lub 2.

## Lokalnie kwadratowy-Loess

```{r}
smr1 <- loess (prestige~income,span=0.75, degree=1,
               family="gaussian")

ggplot(Prestige) +
  geom_point(aes(x=income,y=prestige))+
  geom_line(aes(x=income,y=fitted(smr1)), col='blueviolet',size=1)
```
```{r}
smr2 <- loess (prestige~income,span=0.75, degree=2,
               family="gaussian")

ggplot(Prestige) +
  geom_point(aes(x=income,y=prestige))+
  geom_line(aes(x=income,y=fitted(smr2)), col='darkgoldenrod',size=1)
```

```{r,message=FALSE,warning=FALSE}
ggplot(Prestige) +
  geom_point(x=income,y=prestige)+
  geom_smooth(aes(x=income,y=prestige),method='loess',span=0.22)
```

## Sploty interpolujące - smooth.spline

### Zmienianie parametru 'spar'

```{r}

fit3a <-smooth.spline(income,prestige,spar=0.2) 
smr3a <- data.frame(x=fit3a$x,y=fit3a$y)

fit3b <-smooth.spline(income,prestige, spar=0.8) 
smr3b <- data.frame(x=fit3b$x,y=fit3b$y)

ggplot(Prestige) +
  geom_point(aes(x=income,y=prestige)) +
  geom_line(data=smr3a, aes(x=x,y=y), col='lawngreen',size=0.8)+
  geom_line(data=smr3b, aes(x=x,y=y), col='plum3',size=0.8)+
  ggtitle("Porównanie różnych wartości parametru 'spar'")+
  labs(subtitle = "Sploty interpolujące")
```

Aby automatycznie wybrać szerokośc pasma można zastosować cross validation

### Zastosowanie cross validation (CV=TRUE)

```{r warning=FALSE}
smr3d <- smooth.spline(income,prestige,cv=TRUE)
lambda_value <- smr3d$lambda
smr3d <- data.frame(x=smr3d$x,y=smr3d$y)


ggplot(Prestige) +
  geom_point(aes(x=income,y=prestige)) +
  ggtitle("Sploty interpolujące, lambda wybrana przez CV:", round(lambda_value, 4)) +
  geom_line(data=smr3d, aes(x=x, y=y), col='darkgoldenrod2')
```

## Porównanie funkcji locpoly i smooth.spline

Fioletowa linia - locpoly
Różowa linia - smooth.spline

```{r,warning=FALSE}
FIT <- locpoly(income,prestige,
        degree=1, bandwidth=dopasowana) %>% as.tibble

SMR <- smooth.spline(income,prestige,cv=TRUE)
SMR <- data.frame(x=SMR$x,y=SMR$y)

ggplot(Prestige) +
  geom_point(aes(x=income,y=prestige)) +
  geom_line(data=FIT, aes(x=x,y=y), col='blueviolet')+
  geom_line(data=SMR, aes(x=x,y=y), col='hotpink')+
ggtitle("Porównanie funkcji locpoly i smooth.spline") + 
scale_color_manual(values = c("locpoly" = "blueviolet", "smooth.spline" = "hotpink"), 
                   labels = c("locpoly", "smooth.spline")) + labs(color = "Function")

```

## Naturalne sploty

Naturalne sploty, 
6 df oznaczone kolorem niebieskim  
10 df oznaczone kolorem fioletowym
12 df oznaczone kolorem zielonym

```{r}
Fit1 <-lm(prestige~ns(income,df=6),Prestige)
Fit2 <-lm(prestige~ns(income,df=10),Prestige)
Fit3 <-lm(prestige~ns(income,df=12),Prestige)

ggplot(Prestige)+
  geom_point(aes(x=income,y=prestige))+
  ggtitle("Naturalne sploty")+
  geom_line(aes(x=income,y=fitted(Fit1)),col='darkblue')+
  geom_line(aes(x=income,y=fitted(Fit2)),col='darkmagenta')+
  geom_line(aes(x=income,y=fitted(Fit3)),col='darkgreen')
```

## Sploty oraz geom_smooth()

```{r}
ggplot(Prestige) +
    geom_point(aes(x=income,y=prestige)) +
    geom_smooth(aes(x=income,y=fitted(Fit1)), method='gam',
      formula = y ~ s(x,k=12), se=TRUE)
```
 Predykcjia z przedziałem ufności 0,1
 
```{r}
fit4 <- lm(prestige ~ ns(income, df = 6), Prestige)
pred_fit4 <- data.frame(income = Prestige$income,
                   predict(fit4, interval = "confidence"))
ggplot(Prestige, aes(x=income,y=prestige)) +
    geom_point() +
    geom_line(data = pred_fit4, aes(y = fit), color = "darkblue") +
    geom_ribbon(data = pred_fit4, aes(ymin = lwr, ymax = upr), alpha = 0.1)
```

# Zadanie 2 

Zbiór danych “mcycle” (z pakietu MASS) zawiera n=133 pary punktów czasowych (w ms) i obserwowanych przyspieszeń głowy (w g), które zostały zarejestrowane w symulowanym wypadku motocyklowym.

Do zbadania zależności między czasem a przyspieszeniem wykorzystaj metody regresji nieparametrycznej.

Najpierw wczytaj dane i zwizualizuj zależność między czasem (X) a przyspieszeniem (Y).

```{r, echo=FALSE,wARNING=FALSE,}
data("mcycle")
attach(mcycle)

ggplot(mcycle)+
  geom_point(aes(x=times,y=accel))
```
Zależność wygląda na nieliniową.

Przyspieszenie jest 

-stabilne od 0-15 ms

-spada gwałtownie od ok. 15-20 ms

-rośnie szybko od 20-30 ms

-spada ponownie od 30-40 ms, 

-zaczyna się stabilizować


## Metoda lokalnego wygładzania-Local polynomial regression (locpoly)

### Porównanie różnych bandwidth

```{r}
fit_1 <- locpoly(times, accel,
        degree=0, bandwidth=1,gridsize = 100) %>% as.tibble

ggplot(mcycle) +
  geom_point(aes(x=times,y=accel)) +
  geom_line(data=fit_1-1, aes(x=x,y=y), col='hotpink')+
  ggtitle("Szerokość pasma równa 1")+
  labs(subtitle = "Kernel Smothing")
  
```

Zwiększam szerokość pasma do 5
  
```{r}
fit_2 <- locpoly(times, accel,
        degree=0, bandwidth=5,gridsize = 1000) %>% as.tibble

ggplot(mcycle) +
  geom_point(aes(x=times,y=accel)) +
  geom_line(data=fit_2, aes(x=x,y=y), col='darkblue')+
  ggtitle("Szerokość pasma równa 5")+
  labs(subtitle = "Kernel Smothing")
```
Porównanie:

Różowa linia: szerokość pasma 1

Niebieska linia: szerokość pasma 5

```{r}
ggplot(mcycle) +
  geom_point(aes(x=times,y=accel)) +
  geom_line(data=fit_1, aes(x=x,y=y), col='hotpink')+
  geom_line(data=fit_2, aes(x=x,y=y), col='darkblue')+
  ggtitle("Porówananie dwóch szerokości pasm")+
  labs(subtitle = "Kernel smoothing")
```


### Cross validation

```{r}

dopasowana_2 <- dpill(times, accel)
fit_3 <- locpoly(times, accel,
        degree=0, bandwidth=dopasowana_2) %>% as.tibble

paste("Dopasowana szerokość pasma wynosi:", round(dopasowana_2, 4))

ggplot(mcycle) +
  geom_point(aes(x=times,y=accel))+
  geom_line(data=fit_3, aes(x=x,y=y), col='darkmagenta',size=1)
```

### Porównanie różnych degree (stopień wielomianu)

```{r}
fit_1a<- locpoly(times, accel,
        degree=0, bandwidth=dopasowana_2) %>% as.tibble
fit_2a <- locpoly(times, accel,,
        degree=1, bandwidth=dopasowana_2) %>% as.tibble
fit_3a <- locpoly(times, accel,
        degree=2, bandwidth=dopasowana_2) %>% as.tibble

ggplot(mcycle) +
  geom_point(aes(x=times,y=accel)) +
  geom_line(data=fit_1a, aes(x=x,y=y), col='darkblue',size=0.8)+
  geom_line(data=fit_2a, aes(x=x,y=y), col='hotpink',size=0.8)+
  geom_line(data=fit_3a, aes(x=x,y=y), col='darkmagenta',size=0.8)+
  ggtitle("Porówananie trzech stopni wielomianu")+
  labs(subtitle = "Kernel Smothing")
```

## Loess - lokalnie kwadratowy

```{r}
smr_1 <- loess (accel~times,span=0.75, degree=2,
               family="gaussian")

ggplot(mcycle) +
  geom_point(aes(x=times,y=accel))+
  geom_line(aes(x=times,y=fitted(smr_1)), col='darkgoldenrod2',size=1)
```

```{r,message=FALSE}
ggplot(mcycle) +
  geom_point(aes(x=times,y=accel))+
  geom_smooth(aes(x=times,y=accel),method='loess',span=0.22)
```

## Sploty interpolujące - smooth.spline

### Zmienianie parametru ‘spar’

```{r}
fit_4 <-smooth.spline(times, accel, spar=0.2) 
smr_4<- data.frame(x=fit_4$x,y=fit_4$y)

fit_5 <-smooth.spline(times, accel,, spar=0.8) 
smr_5 <- data.frame(x=fit_5$x,y=fit_5$y)

ggplot(mcycle) +
  geom_point(aes(x=times,y=accel)) +
  geom_line(data=smr_4, aes(x=x,y=y), col='blueviolet',size=0.8)+
  geom_line(data=smr_5, aes(x=x,y=y), col='darkgoldenrod2',size=0.8)+
  ggtitle("Porównanie różnych wartości parametru 'spar'")+
  labs(subtitle = "Sploty interpolujące")
```

Aby automatycznie wybrać szerokośc pasma można zastosować cross validation

### Zastosowanie cross validation (CV=TRUE)

```{r warning=FALSE}
Smr_2 <- smooth.spline(times,accel,cv=TRUE)
lambda_value2<- Smr_2$lambda
Smr_2 <- data.frame(x=Smr_2$x,y=Smr_2$y)
ggplot(mcycle) +
  geom_point(aes(x=times,y=accel)) +
  ggtitle("Sploty interpolujące, lambda wybrana przez CV", round(lambda_value2, 4))+
  geom_line(data=Smr_2, aes(x=x, y=y), col='darkblue')
```

## Porównanie funkcji locpoly i smooth.spline

```{r warning=FALSE}
fit_6 <- locpoly(times, accel,
        degree=2, bandwidth=dopasowana) %>% as.tibble

smr_6 <- smooth.spline(times,accel,cv=TRUE)
smr_6 <- data.frame(x=smr_6$x,y=smr_6$y)

ggplot(mcycle) +
  geom_point(aes(x=times,y=accel)) +
  geom_line(data=fit_6, aes(x=x,y=y), col='skyblue')+
  geom_line(data=smr_6, aes(x=x,y=y), col='hotpink')+
  ggtitle("Porównanie funkcji locpoly i smooth.spline")
```

## Naturalne sploty


```{r}
fit_7 <-lm(accel~ns(times,df=6),mcycle)
fit_7b <-lm(accel~ns(times,df=12),mcycle)
fit_7c <-lm(accel~ns(times,df=12),mcycle)

ggplot(mcycle)+
  geom_point(aes(x=times,y=accel))+
  ggtitle("Naturalne sploty")+
  labs(subtitle = "6 kolor różowy, 10 kolor fioletowy,12 kolor granatowy")+
  geom_line(aes(x=times,y=fitted(fit_7)),col='hotpink')+
  geom_line(aes(x=times,y=fitted(fit_7b)),col='darkmagenta')+
  geom_line(aes(x=times,y=fitted(fit_7c)),col='darkblue')
```

## Sploty oraz geom_smooth()

```{r}
ggplot(mcycle) +
    geom_point(aes(x=times,y=accel)) +
    geom_smooth(aes(x=times,y=fitted(fit_7)), method='gam',
      formula = y ~ s(x,k=12), se=TRUE)
```



```{r}
fit_8 <- lm(accel ~ ns(times, df = 6), data = mcycle)
pred_8 <- data.frame(times = mcycle$times,
                     predict(fit_8, interval = "confidence"))
colnames(pred_8) <- c("times", "fit_8", "lwr", "upr")

ggplot(mcycle, aes(x = times, y = accel)) +
  geom_point() +
  geom_line(data = pred_8, aes(x = times, y = fit_8), color = "blueviolet") +
  geom_ribbon(data = pred_8, aes(x = times, ymin = lwr, ymax = upr), alpha = 0.1) 



```

