Typy pytań w analizie danych

A. M. Machno
22.10.2016

Rodzaje pytań

W kolejności z rosnącą trudnością:

  • Opisowe (descriptive)
  • Rozpoznawcze (exploratory)
  • Wnioskujące (inferential)
  • Prognozujące (predictive)
  • Przyczynowe (causal)
  • Mechanistyczne (mechanistic)

O pytaniach opisowych

Cel: Opisanie zbioru danych

  • Pierwsza analiza danych, którą się wykonuje na zbiorze danych
  • Powszechnie używana przy spisie ludności
  • Opis i interpretacja są osobnymi krokami analizy
  • Opis z reguły nie może być uogólniony bez dodatkowego modelowania statystycznego

Opisowa: przykład

O pytaniach rozpoznawczych

Cel: Znalezienie nieznancyh zależności.

  • Modele rozpoznawcze są dobrym narzędziem na znajdowanie połączeń
  • Są dobre do definiowania przyszłych badań
  • Badania rozpoznawcze przeważnie nie są końcowym badaniem

- Badania rozpoznawcze nie powinny być używane do uogólnień ani prognoz

  • Korelacja nie pociąga za sobą przyczynowości

Błędne rozumienie korelacji

Dla dwóch skorelowanych zjawisk A i B możliwe są poniższe relacje:

  • A powoduje B (bezpośrednia przyczynowość)
  • B powoduje A (odwrotna przyczynowość)
  • A oraz B są skutkiem współnej przyczyny, ale wzajemnie się nie powodują
  • A powoduje B oraz B powoduje A (cykliczna przyczynowść)
  • A powoduje C oraz C pwooduje B (pośrednia przyczynowość)
  • A i B nie są ze sobą związane, a korelacja jest dziełem przypadku

Źródło: wikipedia

Wnioskowanie statystyczne

Cel: Przy użyciu stosunkowo małej ilości danych powiedzenie czegoś na temat większej populacji.

  • Wnioskowanie jest powrzechnym celem analizy danych
  • Wnioskowanie składa się z wyznaczenia interesujących wartości oraz niepeności na temat estymacji
  • Wnioskowanie mocno zależy od populacji oraz od procedury doboru próby (losowania)

Przykładowe zagadnienia wnioskowania statystycznego

  • Estymacja punktowa
  • Estymacja przedziałowa
  • Testowanie hipotez
  • Grupowanie oraz klasyfikacja danych

Prognoza

Cel: Użycie danych dla pewnych obiektów aby przewidzieć wartość innego obiektu

  • Jeżeli X przewiduje Y, to niekoniecznie X powoduje Y
  • Dokładność prognozy mocno zależy od wyboru zmiennych w modelu
  • Jest wiele bardzo zaawansowanych modeli predykcyjnych, aczkolwiek więcej danych i proste modele przeważnie spisują się dobrze
  • Prognoza nie zawsze odnosi się do przyszłości (prediction, forecasting)

Przykłady: prognoza

Dobrze zaprojektowany algorytm potrafi wykorzystać wiele zmiennych do prognozy,

  • Prognoza ilości kliknięć w reklamę na stronie internetowej
  • Prognoza prawdopodobieństwa zakupu produktu
  • Prognoza jutrzejszej ceny akcji

Przyczynowość

Cel: Zbadanie co się stanie z interesującą zmienną jeżeli zmieniona zostanie wartość innej zmiennej.

  • Przeważnie potrzebna jest randomizacja
  • Podejścia, które badają przyczynowość w niezrandomizowanych próbach są skomplikowane i bardzo wrażliwe na założenia
  • Zależność przyczynowa jest przeważnie rozumiana jako uśredniony efekt i nie musi być prawdziwa dla wszystkich jednostek
  • Zależności przyczynowe są przeważnie najwyższym standardem analizy danych

Przykłady: przyczynowość

Większość standardowych badań przyczynowości jest z dziedziny medycyny

  • Działanie leków
  • Wpływ diety na zdrowie
  • Wpływ wydarzeń w USA na WIG

Związki mechanistyczne

Cel: Zrozumienie dokładnych zmian jakie powoduje zmiana wielkości jednej zmiennej w wielkości innej zmiennej dla konkretnego obiektu.

  • Poza prostymi przykładami, niewiarygodnie trudne do osiągnięcia
  • Przeważnie opisane deterministycznymi równaniami (fizyka/nauki inżynierskie)
  • Ogólnie, losowy składnik danych jest błędem pomiaru
  • Jeżeli równania są znane, ale parametry nie, mogą być wyznaczone dzięki analizie danych