Informacje o raporcie

Cel raportu

Celem naszego raportu jest wykonanie prognozy wielkości zarejestrowanych bezrobotnych na Pomorzu w 2023 roku na podstawie wybranych zmiennych. Zakresem danych każdej zmiennej w naszym zbiorze danych jest 2004 do 2022 roku. Dane do naszego zbioru danych zostały pobrane ze strony https://bdl.stat.gov.pl/bdl/dane/podgrup/temat.

Wyjaśnienie zmiennych

Bezrobotni_zarejestrowani (zmienna objaśniająca) - bezrobotni zarejestrowani na Pomorzu

Okres - zakres lat między pierwszą, a ostatnią obserwacją w zbiorze (2004-2022),

Absolwenci_uczelni [10 tys.] - absolwenci uczelni na Pomorzu, wybraliśmy tą zmienną ponieważ powinno to wpływać na bardziej wykwalifikowaną siłę roboczą a więc również na poziom bezrobocia

Oferty_pracy - oferty pracy na Pomorzu, zmienna została wybrana ponieważ ilość ofert pracy jest zagadnieniem bliskim dla bezrobocia

Prz_mie_wydatki_na_1_osobę - przeciętne miesięczne wydatki na 1 osobę na Pomorzu, wybór tej zmiennej uzasadniliśmy powiązaniem bezrobocia z poziomem życia, a więc z m. in. przeciętnymi wydatkami

Prz_mie_dochód_rozp_na_1_osobę - przeciętny miesięczny dochód rozporządzalny na 1 osobę na Pomorzu, wybrany z tego samego powodu co przeciętne wydatki

Prz_mie_wyn_brutto - przeciętne miesięczne wynagrodzenie brutto na Pomorzu, wybrane z tego samego powodu co dwie poprzednie zmienne

Stwierdzone_choroby_zawodowe - stwierdzone choroby zawodowe na Pomorzu, zmienna wybrana ponieważ choroby zawodowe mogą wpływać na zdolności pracowników do pracy

Inflacja - odnotowany poziom inflacji na Pomorzu

Wydatki_na_Oświata_i_wychowanie - wydatki na oświatę i wychowanie na Pomorzu, w celu zbadania czy takie wydatki wpływają pozytywnie na stopę bezrobocia

Analiza istotności zmiennych objaśniających

Aby wykonać wspomnianą prognozę wpierw utworzyliśmy pierwszy podstawowy model, aby określić nasze dalsze kroki. Przy tworzeniu modelu oraz weryfikacji hipotez statystycznych zostanie zastotsowany poziom istotności wynoszący 0,05.

Wstępny model

Zlogarytmowanie wybranych zmiennych

Uznaliśmy następnie, że wszystkie nasze zmienne należy zlogarytmować, z uwagi na to, że pierwotna postać modelu liniowego wskazuje na istotność statystyczną tylko jednej ze zmiennych, a model opracowany przy wykorzystaniu logarytmów często cechuje się większą dokładnością oraz może pozwolić na uwzględnienie w modelu większej ilości zmiennych.

Model ze zlogarytmowanymi zmiennymi

Usuwanie nieistotnych zmiennych z modelu

W pierwotnej postaci modelu tylko jedna ze zmiennych objaśniających cechowała się istotnością statystyczną przy przyjętym poziomie istotności. Z tego powodu z naszego modelu utworzonego na podstawie zmiennych zlogarytmowanych usuwaliśmy po kolei zmienne nieistotne których wartośc p była największa, aby określić, które z nich mają istotny wpływ na zmienną objaśnianą.

W finalnej wersji modelu objaśniającego kształtowanie się liczby zarejestrowanych osób bezrobotnych na Pomorzu znalazły się następujące zmienne objaśniające: -Oferty_pracy -Prz_mie_dochód_rozp_na_1_osobę -Inflacja -Wydatki_na_Oświata_i_wychowanie

Testy statystyczne

Test na nieliniowość (kwadraty):

Hipoteza zerowa dla testu na nieliniowość kwadratów mówi, że w danych nie występuje nieliniowość, która może zostać wykryta przy dodaniu kwadratów do modelu. Natomiast hipoteza alternatywna mówi, że dodanie kwadratów do modelu istotnie wpłynie na detekcję nieliniowości dotyczącą modelu. Wartość p-value, wynosząca około 0,07, jest nieznacznie wyższa od przyjętego poziomu istotności wynoszącego około 0,05, co nie pozwala na odrzucenie hipotezy zerowej.

Test na nieliniowość (logarytmy):

Wybrane testy statystyczne

Poniżej zostały przedstawione wyniki różnych testów statystycznych stosowanych w celu badania różnych właściwości statystycznych modeli.

Otrzymane wyniki należy interpretować następująco: Test Durbina Watsona służy do weryfikacji występowania autokorelacji reszt. Jego hipoteza zerowa mówi, że autokorelacja reszt nie występuje, natomiast hipoteza alternatywna wskazuje na jej występowanie. Wartość p-value dla tego modelu, wynosząca około 0.014 oraz niższa od przyjętego poziomu istotności, nie pozwala na odrzucenie hipotezy alternatywnej. Test Breuscha-Pagana służy do wykrywania tego, czy w modelu dochodzi do heteroskedastyczności, czyli sytuacji, w której wariancja reszt dotycząca modelu nie jest stała. Hipoteza zerowa tego testu mówi, że heteroskedastycznośc reszt nie występuje, a więc występuje homoskedastyczność. Na podstawie wartości p-value dla tego testu, wynoszącej 0.8723, nie można odrzucić hipotezy zerowej. Test Breuscha-Godfreya jest kolejnym testem służącym do wykrywania występowania autokorelacji reszt, jednak w przeciwieństwie do testu Durbina Watsona badającego wyłącznie autokorelację pierwszego rzędu, ten test bada również występowanie autokorelacji wyższych rzędów. Jego hipoteza zerowa, której nie można odrzucić na podstawie otrzymanej wartości p-value nie można odrzucić, mówi o braku występowania autokorelacji w analizowanym zakresie. Test RESET służy do sprawdzenia poprawności specyfikacji modelu. Jego hipoteza zerowa, której przy przyjętym poziomie istotności nie można odrzucić, mowi, że specyfikacja modelu jest poprawna. Test Shapiro-Wilka sprawdza, czy wykorzystywane dane cechują się rozkładem zgodnym z rozkładem normalnym. Hipoteza zerowa mówi, że rozkład danych jest normalny. Przy przyjętym poziomie istotności nie można jej odrzucić, ale wartośc p-value wynosząca około 0.07 jest nieznacznie wyższa od przyjętego poziomu istotności wynoszącego 0.05, co można uzasadnić tym tym, że wykorzystywane dane są wartościami zlogarytmowanymi. Test Jarque Bery, podobnie jak test Shapiro Wilka, weryfikuje normalność rozkładu dotyczącą wykorzystanych danych, ale jest często stosowany dla szerszego zakresu danych. Jego hipotezy zerowej, zgodnej z hipotezą zerową dla testu Shapiro Wilka oraz mówiącej, że wykorzystywana próbka jest zgodna z rozkłądem normalnym, nie można odrzucić.

Wizualizacja wykresów zmiennych

Korelacja

Kolejnym krokiem będzie utworzenie macierzy korelacji dotyczącej wykorzystywanych zmiennych.

Współliniowość

Prognozowanie zmiennych objaśniających

Utworzenie z istotnych statystycznie zmiennych szeregi czasowe

W celu wykonania prognozy dla liczby zarejestrowanych osób bezrobotnych na Pomorzu w roku 2023 najpierw należało wykonać prognozy dla zmiennych objaśniających które znalazły się w naszym finalnym modelu.

Prognozowanie - trend liniowy

Prognozowanie - trend kwadratowy

Prognozowanie - Ruchoma zmienna ważona

Prognozowanie - metoda Holta (pierwszy sposób)

Prognozowanie - metoda Holta (drugie podejście)

Prognozowanie - ARIMA

Prognozowanie zmiennej objaśniającej

Wydobycie wyników RMSPE z każdej prognozy zmiennych objaśniających

Na podstawie otrzymanych wartości błędu RMSPE wybraliśmy prognozowane wartości zmiennych objaśniających do finalnej prognozy zmiennej objaśnianej czyli liczby zarejestrowanych osób bezrobotnych na Pomorzu w roku 2023.

Dla zmiennej Oferty Pracy najmniejszy błąd RMSPE wynoszący 5,04% miała druga prognoza metodą Holta.

Dla zmiennej Przeciętny Miesięczny Dochód Rozporządzalny na 1 osobę najmniejszy błąd RMSPE również miała druga prognoza metodą Holta,wartość tego błędu wyniosła 0,57%

Dla zmiennej Inflacja również najlepsza okazała się druga prognoza metodą Holta, w tym przypadku błąd RMSPE wyniósł 0,46%

Dla zmiennej Wydatki na Oświatę i Wychowanie najmniejszą wartość błędu RMSPE miała prognoza metodą ARIMA. Błąd ten wyniósł 0,25%

Utworzenie zbioru danych przeznaczonego do zaprognozowania zmiennej objaśnianej

Prognozowanie zmiennej objaśnianej (Bezrobocie zarejestrowane) - metoda Holta

Średnia oczekiwana wartość otrzymana na podstawie prognozy wynosi 10.61372. Jest to wartość zlogarytmowana, co oznacza, że po odlogarytmowaniu wartość wyniesie około 40689. Oznacza to, że przewidywana wartość liczby osób bezrobotnych w 2023 roku na Pomorzu wyniesie około 40689 osób- wartość tą otrzymano przy użyciu funkcji exp umożliwiającej odlogarytmowanie wartości. Pozostałe przedstawione w powyższej tabeli wartości logarytmiczne oznaczają odpowiednio: Low80- 20% obserwacji jest równych tej wartości lub mniejszych, Hi80- 20% obserwacji jest równych tej wartości lub większych, Low95- 5% obserwacji jest rónych tej wartości lub mniejszych, Hi95- 5% obserwacji jest równych tej wartości lub większych.

Zaprognozowanie ilości zarejestrowanych osób bezrobotnych na Pomorzu w roku 2023 wymagało na początku wybrania zmiennych które potencjalnie mogły wpływać na kształtowanie się tej zmiennej. Ostatecznie nasza grupa wybrała w tym celu 8 różnych zmiennych. Podczas tworzenia modelu ostatecznie statystycznie istotne okazały się 4 zmienne: Oferty pracy na Pomorzu, przeciętny miesięczny dochód rozporządzalny na 1 osobę na Pomorzu, odnotowany poziom inflacji na Pomorzu oraz wydatki na oświatę i wychowanie na Pomorzu. Następnie należało wykonać testy statystyczne w celu sprawdzenia poprawności zbudowanego modelu. Kolejnym etapem pracy były prognozy zmiennych objaśniających na rok 2023 potrzebne do zaprognozowania liczby zarejestrowanych osób bezrobotnych w tym roku. W celu uzyskania jak najlepszych wyników każdą z czterech zmiennych objaśniających zaprognozowaliśmy za pomocą 6 różnych metod. Kolejnym krokiem było porównanie błędów RMSPE dla każdej zaprognozowanej zmiennej objaśniającej. Na tej podstawie wybrane zostały wartości tych zmiennych do ostatecznej prognozy. Prognozowana wartość ilości zarejestrowanych osób bezrobotnych na Pomorzu w roku 2023 wyniosła 40 689 osób.

Prognozowanie i symulacje - raport z projektu

Bukowska, Fleks, Mogielnicki, Pek

2024-06-13