Proces analizy danych

A. M. Machno
10.10.2015

Główne aktywności

Każda analiza danych powinna składać się z poniższych punktów:

  1. Postawienie i wyklarowanie pytania
  2. Zbadanie zbioru danych
  3. Budowa formalnego modelu statystycznego
  4. Interpretacja wyników
  5. Prezentacja (komunikacja) wyników

Aktywności poboczne

Każda z aktywności może być podzielona na 3 ogólne cykliczne działania (epicykle):

  1. Ustalenie oczekiwań
  2. Zbieranie informacji (danych) i konfrontacja z oczekiwaniami, i jesli do siebie nie pasują to
  3. Korekcja oczekiwań lub przygotowanie danych, które pasują do oczewiń

1. Pytanie

W procesie stawiania i klarownia pytania, punkty w epipcyklu to:

  1. Odpowiedź na pytanie jest ważne dla odbiorców analizy
  2. Przegląd literatury, konsultacje z ekspertami
  3. Wyostrzenie (zawężenie) pytania

2. Badanie danych

W procesie badania zbioru danych, punkty w epipcyklu to:

  1. Dane są odpowiednie dla pytania
  2. Tworzenie wykresów badawczych dla danych
  3. Poprawa pytania lub zbieranie dodatkowych danych

3. Formalne modelowanie

W procesie budowy formalnego modelu statystycznego, punkty w epipcyklu to:

  1. Pierwotny model daje odpowiedź na pytanie
  2. Użycie dodatkowego modelu, analiza wrażliwości
  3. Korekcja modelu, zawarcie większej ilości predyktorów

4. Interpretacja

W procesie interpretacji wyników, punkty w epipcyklu to:

  1. Interpretaja dostarcza dokładnej, konkretnej i wartościowej odpowiedzi na pytanie
  2. Interpretacja całości analizy z uwagą na wielkość badanego efektu oraz niepewność
  3. Rwizja badania danych i/lub modelu w celu uzyskania właściwej i interpretowalnej odpowiedzi

5. Komunikacja

W procesie prezentacji wyników, punkty w epipcyklu to:

  1. Proces i wyniki analizy są zrozumiałe, kompletne i znaczące dla odbiorców
  2. Poszukiwanie informacji zwrotnej (konsultacje)
  3. Korekcja analizy lub sposobu prezentacji

Referencje

Ta prezentacja powstała w oparciu o książkę:

R. Peng; E. Matsui, The Art of Data Science