Typy pytań w analizie danych

A. M. Machno
10.10.2015

Rodzaje pytań

W kolejności z rosnącą trudnością:

  • Opisowe (descriptive)
  • Rozpoznawcze (exploratory)
  • Wnioskujące (inferential)
  • Prognozujące (predictive)
  • Przyczynowe (causal)
  • Mechanistyczne (mechanistic)

O pytaniach opisowych

Cel: Opisanie zbioru danych

  • Pierwsza analiza danych, którą się wykonuje na zbiorze danych
  • Powszechnie używana przy spisie ludności
  • Opis i interpretacja są osobnymi krokami analizy
  • Opis z reguły nie może być uogólniony bez dodatkowego modelowania statystycznego

Opisowa: przykład

O pytaniach rozpoznawczych

Cel: Znalezienie nieznancyh zależności.

  • Modele rozpoznawcze są dobrym narzędziem na znajdowanie połączeń
  • Są dobre do definiowania przyszłych badań
  • Badania rozpoznawcze przeważnie nie są końcowym badaniem
  • Badania rozpoznawcze nie powinny być używane do uogólnień ani prognoz
  • Korelacja nie pociąga za sobą przyczynowości

Błędne rozumienie korelacji

Dla dwóch skorelowanych zjawisk A i B możliwe są poniższe relacje:

  • A powoduje B (bezpośrednia przyczynowość)
  • B powoduje A (odwrotna przyczynowość)
  • A oraz B są skutkiem współnej przyczyny, ale wzajemnie się nie powodują
  • A powoduje B oraz B powoduje A (cykliczna przyczynowść)
  • A powoduje C oraz C pwooduje B (pośrednia przyczynowość)
  • A i B nie są ze sobą związane, a korelacja jest dziełem przypadku

Źródło: wikipedia

Wnioskowanie statystyczne

Cel: Przy użyciu stosunkowo małej ilości danych powiedzenie czegoś na temat większej populacji.

  • Wnioskowanie jest powrzechnym celem analizy danych
  • Wnioskowanie składa się z wyznaczenia interesujących wartości oraz niepwności na temat estymacji
  • Wnioskowanie mocno zależy od populacji oraz od procedury doboru próby (losowania)

Przykłady: wnioskowanie

Najczęstszą metodą używaną we wnioskowaniu jest testowanie hipotez

  • Efekt zanieczyszczenia powietrza na oczekiwana długość życia
  • Efekt wydarzeń na giełdzie amerykańskiej na notowania polskich spółek
  • Związek między pojemnością silnika, a spalaniem samochodu

Prognoza

Cel: Użycie danych dla pewnych obiektów aby przewidzieć wartość innego obiektu

  • Jeżeli X przewiduje Y, to niekoniecznie X powoduje Y
  • Dokładność prognozy mocno zależy od wyboru zmiennych w modelu
  • Jest wiele bardzo zaawansowanych modeli predykcyjnych, aczkolwiek więcej danych i proste modele przeważnie spisują się dobrze
  • Prognoza nie zawsze odnosi się do przyszłości (prediction, forecasting)

Przykłady: prognoza

Dobrze zaprojektowany algorytm potrafi wykorzystać wiele zmiennych do prognozy,

  • Prognoza ilości kliknięć w reklamę na stronie internetowej
  • Prognoza prawdopodobieństwa zakupu produktu
  • prognoza jutrzejszej ceny akcji

Przyczynowość

Cel: Zbadanie co się stanie z interesującą zmienną jeżeli zmieniona zostanie wartość innej zmiennej.

  • Przeważnie potrzebna jest randomizacja
  • Podejścia, które badają przyczynowość w niezrandomizowanych próbach są skomplikowane i bardzo wrażliwe na założenia
  • Zależność przyczynowa jest przeważnie rozumiana jako uśredniony efekt i nie musi być prawdziwa dla wszystkich jednostek
  • Zależbności przyczynowe są przeważnie najwyższym standardem

Przykłady: przyczynowość

Większość standardowych badań przyczynowości jest z dziedziny medycyny

  • Działanie leków
  • Wpływ diety na zdrowie
  • Wpływ wydarzeń w USA na WIG

Związki mechanistyczne

Cel: Zrozumienie dokładnych zmian jakie powoduje zmiana wielkości jednej zmiennej w wielkości innej zmiennej dla konkretnego obiektu.

  • Poza prostymi przykładami, niewiarygodnie trudne do osiągnięcia
  • Przeważnie opisane deterministycznymi róWnaniami (fizyka/nauki inżynierskie)
  • Ogólnie, losowy składnik danych jest błędem pomiaru
  • Jeżeli róWnania są znane, ale parametry nie, mogą być wyznaczone dzięki analizie danych