Statystyka: nauka o ilościowych metodach badania zjawisk masowych (Sobczyk); albo [lepiej]: naukę zajmującą się opisywaniem i analizą zjawisk masowych [Górecki 2011] (bo metody niekoniecznie muszą być ilościowe)
Statystyka od strony czysto praktycznej to: dane + procedury (zbierania, przechowania, analizowania, prezentowania) + programy; Jeżeli statystyka kojarzy się komuś ze wzorami i liczeniem, to jak widać jest to zaledwie podpunkt procedury→analizowanie.
Statystyka (obiegowo): dział matematyki wzw z tym wiedza absolutnie pewna i obiektywna (nieprawda choćby z tego powodu, że nie jest działem matematyki)
Statystyka: opis statystyczny vs przedziały ufności i weryfikacja hipotez + analiza struktury, analiza współzależności, analiza dynamiki zjawisk
Etapy analizy statystycznej: – przełóż obserwacje na postać liczbową – wnioskuj (zastosuj odpowiednie statystyki)
Opis statystyczny – liczbowe przedstawienie badanych zbiorowości lub zjawisk w postaci opisu: – tabelarycznego; – graficznego; – parametrycznego
Opis statystyczny może dotyczyć: – struktury zbiorowości; – współzależności; – zmian zjawiska w czasie.
Badanie statystyczne to zespół czynności zmierzających do uzyskania (za pomocą metod statystycznych) informacji charakteryzujących badaną zbiorowość lub zjawisko.
Najważniejsze kryteria klasyfikacji badań: – zakres obserwacji badanych jednostek (pełne, częściowe); – częstotliwość: (ciągłe, okresowe, doraźne); – zasięg przestrzenny (międzynarodowe, krajowe, regionalne, środowiskowe, monograficzne); – dziedzina badań (demograficzne, społeczne, ekonomiczne, rolnicze, jakości środowiska naturalnego itp.
Populacja, zbiorowość statystyczna: zbiór obiektów (osób, przedmiotów, zdarzeń) logicznie ze sobą powiązanych (ale nie identycznych), poddany badaniu statystycznemu.
Jednostka statystyczna: jednostki statystyczne w danej populacji różnią się od innych jednostek spoza danej populacji poprzez swoje własności wspólne (cechy stałe), jednocześnie różnią się między sobą cechami (cechy zmienne), które są przedmiotem zainteresowania badacza.
Cechy statystyczne – właściwości jednostek statystycznych.
Cechy stałe – jednakowe dla wszystkich jednostek badania: rzeczowa (co? kto? jest badane/y) przestrzenna (gdzie?) czasowa (kiedy?)
Cechy zmienne – właściwości różnicujące jednostki jednostki z badanej populacji, tj. takie które mogą posiadać więcej niż 1 wariant (jeżeli posiadają jeden mamy do czynienia z przypadkiem trywialnym). Cechy zmienne dzielimy na: – jakościowe (płeć, rok studiów) – ilościowe (wiek)
Pomiar – przyporządkowanie wariantom cechy zmiennej ustalonych liczb lub symboli. W naukach przyrodniczych (fizyka, chemia) pomiaru dokonuje przy zastosowaniu precyzyjnych/jednoznacznie określonych definicji miar. W naukach społecznych jest niestety inaczej: wiele definicji jest nieprecyzyjnych (turysta), a wiele miar przybliżonych. Przy czym brak precyzji pomiaru nie wynika z błędu pomiaru (źle przyłożona linijka), ale jest cechą użytej skali pomiarowej (nieprecyzyjna linijka).
Rodzaje skal pomiarowych – nominalna (nominal scale), klasyfikuje: płeć; – porządkowa (ordinal scale), klasyfikuje i porządkuje: zdolność kredytowa firmy, stadia choroby, – przedziałowa (interval scale), posiada jeszcze stałą jednostkę miary (ów przedział) oraz umowne zero (temperatura) – ilorazowa (rational scale), posiada to co przedziałowa plus naturalne zero (wiek, wzrost, obrót, temperatura).
Skala Kelvina temperatury jest ilorazowa, skala Celsiusza jest przedziałowa. Zero w skali Kelvina to zero bezwzględne, 200K jest 2 razy mniejsze niż 400K podczas gdy 200C nie jest dwa razy mniejsze niż 400C. Na skali przedziałowej nie można w bezpieczny sposób dokonywać dzielenia. Na liczbach w skali porządkowej nie można dokonywać nawet dodawania. Wszystkie operacje arytmetyczne są bezpieczne tylko dla skali ilorazowej.
Cecha statystyczna mierzalna (ilościowa) – określana jest za pomocą liczb np. oceny, płace. Cechy mierzalne dzielą się na skokowe oraz ciągłe. Skokowe są to cechy, które przyjmują skończoną liczbę wartości, zwykle są to liczby całkowite; Ciągłe są to cechy, które przyjmują dowolne wartości liczbowe z pewnego przedziału liczbowego np. dochody, długość ziarna fasoli.
Pełne (spis, rejestracja), częściowe (reprezentacyjne), szacunki interpolacyjne i ekstrapolacyjne (ustalenie wartości na podstawie znanych wartości podobnych/poprzednich/sąsiednich; wbrew pozorom często stosowana metoda).
Ciągłe (ewidencja urodzeń), okresowe (spisy rolne, spis powszechny), doraźne (sondaż poparcia w wyborach prezydenckich)
Spis gromadzenie danych na potrzeby badania; Rejestracja gromadzenie danych przy okazji wykonywania innych działań (ewidencja ludności, działanie wymiaru sprawiedliwości, gromadzenie danych pogodowych itp…)
Reprezentacyjne badanie oparte na próbie pobrane ze zbiorowości w taki sposób, że wyniki uzyskane dla tej próby można uogólnić na całą populację (wymaga to odpowiedniego sposobu wybrania jednostek do próby; nie każda próba jest reprezentacyjna)
Dane pojęcie zwykle niedefiniowane na zasadzie jaki jest koń każden widzi. Mówiąc konkretnie: symbole w tym liczby.
Dane statystyczne to dane dotyczące różnych sfer życia; a że życie jest skomplikowane to należy te dane jakoś uporządkować. To porządkowanie nazywa się klasyfikowaniem
Klasyfikacje grupują i organizują dane dotyczące pojęć, obiektów, czy ludzi w sposób sensowny, systematyczny i standardowy. Klasyfikacja musi być wyczerpująca (każda jednostka musi być sklasyfikowana); wzajemnie wykluczające się (jednostka nie może być zakwalifikowana do więcej niż jeden raz.)
Ważne klasyfikacje: NACE (działalność gospodarcza); TERYT (podział Polski na jednostki administracyjne)
Sposób pomiaru/organizacja badania ma zasadnicze znaczenie dla interpretacji wyników. Są dwa fundamentalne rodzaje pomiaru (sposobu zebrania danych) eksperyment vs obserwacja. Mówimy dane eksperymentalne albo obserwacyjne.
Przykład: spożywanie kawy w czasie sesji egzaminacyjnej skutkuje lepszą oceną. W celu oceny prawdziwości takiej tezy przeprowadzono badanie wśród studentów pytając ich o to ile kawy pili w czasie sesji i zestawiając te dane z wynikami egzaminów. Średnie wyniki w grupie studentów pijących dużo kawy były wyższe w grupie pijącej mało. Czy można powiedzieć że udowodniono iż picie dużej ilości kawy poprawia wynik egzaminu?
Rodzaje badań: eksperymentalne vs obserwacyjne. W naukach ekonomicznych dominują zdecydowanie badania obserwacyjne a eksperyment jest czymś absolutnie wyjątkowym.
Eksperyment kontrolowany (zrandomizowany lub nie): służy do weryfikacja związku przyczyna-skutek. Skutek może być rezultatem działania wielu czynników (zmiennych). Eksperymentator manipuluje wielkością przyczyn (zmiennych niezależnych) oraz mierzy wielkość skutku (zmiennej zależnej); Wszystkie pozostałe czynniki (zmienne ukryte) są kontrolowane (w tym sensie, że ich wpływ na skutek jest ustalony.
Pomiarowi/manipulacji podlega zbiór jednostek podzielonych losowo na dwie grupy: grupa eksperymentalna (experimental group) oraz grupa kontrolna (control group)
Przykład: można przypuszczać że oprócz kawy na wynik egzaminu ma wpływ np. wrodzone predyspozycje w dziedzinie intelektualnej; aby kontrolować ten czynnik można podzielić losowo grupę studentów; dzięki czemu średnia wielkość predyspozycji w obu grupach będzie podobna. Następnie zalecamy studentom w grupie eksperymentalnej picie 1l kawy dziennie a studentom w grupie kontrolnej podajemy 1l wody. Średnie wyniki w grupie studentów pijących 1l kawy były wyższe w grupie pijącej wodę. Czy można powiedzieć że udowodniono iż picie dużej ilości kawy poprawia wynik egzaminu?
W medycynie używa się terminu badania kliniczne czyli badania które dotyczą ludzi. Badania kliniczne także dzielą się na eksperymentalne vs obserwacyjne. Eksperyment nazywa się RCT (randomized clinical trial/randomizowane kontrolowane badania kliniczne.) Manipulacja określana jest jako ekspozycja (exposure) albo leczenie (treatment) Zmienne ukryte określa się mianem confunding factors (czynniki zakłócające)
Badania obserwacyjne można z kolei podzielić na analityczne i opisowe.
W badaniach analitycznych porówuje się grupę kontrolną z grupą poddaną ekspozycji/leczeniu; w badaniach opisowych nie ma grupy kontrolnej.
Badania analityczne dzielimy dalej na kohortowe, kliniczno-kontrolne oraz przekrojowe.
Badanie kohortowe (cohort study): wieloletnie badania na dużej grupie jednostek; następstwo czasu: od ekspozycji do wyniku (choroby) Problem: koszty (np. choroby rzadkie wymagają ogromnych kohort).
Badanie kliniczno-kontrolne (case-control study): restrospektywna ocena ekspozycji dla jednostek, u których stwierdzono wynik (chorobę); grupę kontrolną tworzą dopasowane jednostki u których wyniku nie stwierdzono (dopasowane w sensie: podobne) Problem: chorzy mają lepszą pamięć (recall bias) + trudności z dopasowaniem
Badanie przekrojowe (cross-sectional study): badanie związku między wynikiem a ekspozycją Problem: nie określa związku przyczyna-skutek
Badanie ekologiczne: badanie (przekrojowe) zależności pomiędzy danymi zagregowanymi a nie indywidualnymi. Przykładowo zależność pomiędzy przecietną wielkością GDP a oczekiwaną długością życia np. na poziomie kraju. Problem: błąd ekologizmu (ecological fallacy)
Badania prospektywne/retrospektywne
Nominalne (w tym binarne)
Kwestionariusze i skale pomiarowe
Przykład: wypalenie zawodowe
Format tekstowy: dane składają się ze znaków alfanumerycznych podzielonych na wiersze (za pomocą umownego znaku końca wiersza.) Odpowiednik elektronicznego maszynopisu. Formaty inne niż tekstowe nazywa się binarnymi.
Dane w statystycznych bazach danych są udostępniane w zasadzie w trzech formatach CSV (tekstowy); arkusza kalkulacyjnego Excel oraz JSON.
Kropka dziesiętna vs przecinek
Odstępy oddzielające grupy cyfr (1 000)
Dane brakujące
Różnego rodzaju dopiski i wyjaśnienia
Ujednolicenie klasyfikacji (Chiny)
Zbędne agregaty
Typowo dane w każdym pakiecie statystycznym mają postaci tabeli składającej się z wierszy i kolumn, czyli coś jak w arkuszu kalkulacyjnym, tyle że konkretnie co te wiersze zawierają to już może być różnie. Przykładowo wyobraźmy sobie tabelę dotyczącą otyłości mierzonej jako udział osób z BMI większym od 30 dla Polski w latach 1975–2016. Pierwsza kolumna zawierać może numer roku, a druga to odsetek osób. Dwie kolumny wystarczą. A jak zamiast dla Polski ogółem dane mają dotyczyć województw? A wtedy zamiast 2 kolumn potrzeba 16 kolumn dla województw no i tej pierwszej z numerem roku. A jak zbiór ma zawierać dane dla kobiet i mężczyzn osobno? Wtedy oczywiście tabela będzie zawierać 32 + 1 = 33 kolumny.
Można też inaczej/bardziej ogólnie: każdy (statystyczny) zbiór liczb ma trzy wymiary: czasowy, przestrzenny i przedmiotowy (kiedy/gdzie/co) Jeżeli na każdy wymiar przeznaczymy jedną kolumnę + jedną na wartość liczbową odpowiadającą kombinacji wartości wymiarów, to zamiast dodawania kolumn będziemy wypełniać wiersze: rok, województwo, bmi (3 kolumny zamiast 17) lub rok, województwo, płeć, bmi (4 kolumny zamiast 33) itd…
Pierwszy układ określa się jako wide (kolumny odpowiadają wartościom wymiarów); drugi jako long (kolumny odpowiadają wymiarom)
W zależności od tego do czego chcemy dane później wykorzystać, to lepiej nadaje się format wide albo long.
Serious statistical analysis is not one-off job. There is a value-chain as well as a life cycle of statistical analysis. Value chain means that there are distinct stages while life cycle that the same data/models are used for years and most statistical analysis do not start from the scrach but are based on data from the past augmented with new data. The problem is that the new data and model modifications should be in-sync with the past.
Arkusz kalkulacyjny != statystyka (jak widać; ale może być)
you go into data analysis with the tools you know, not the tools you need (oczywiste.) spreadsheets combine: data + logic (aka procedures) results (figures, formatted tables aka raport) + reactivity (pojęcie odnoszące się do interfejsu tj sposobu obsługi programu https://pl.qaz.wiki/wiki/Reactive_user_interface )
W tym sensie statystka = excel; ale to patologia jest
Karl W. Broman, Kara H. Woo (2017): Data organization in spreadsheets, The American Statistician, DOI: 10.1080/00031305.2017.1375989
Afera Enrona (https://pl.wikipedia.org/wiki/Enron) https://people.engr.ncsu.edu/ermurph3/papers/icse-seip-15.pdf
github
R
Rstudio
google:“reproducible+research” (474 000 wyników 27/02/2021)
Replicability: independent experiment targetting the same question will produce a result consistent with the original study. Reproducibility: ability to repeat the experiment with exactly the same outcome as originally reported [description of method/code/data is needed to do so].
Literate programming concept: Code and description in one document. Create software as works of literature, by embedding source code inside descriptive text, rather than the reverse (as in most programming languages), in an order that is convenient for human readers.
A program is like a WEB tangled and weaved (turned into a document), with relations and connections in the program parts. We express a program as a web of ideas. WEB is a combination of – a document formatting language and – a program language.
General idea of Literate statistical programming mimics Knuth’s WEB system.
Statistical computing code is embedded inside descriptive text. Literate statistical program is weaved (turned) into report/paper by executing code and inserting the results obtained. data/method changes.
Punkt startu: https://ec.europa.eu/eurostat/data/database baza główna/komplet danych znajduje się w dziale Database by themes (Tables by themes i poniższe działy zawierają wybrane ważniejsze dane z bazy głównej)
Aby dotrzeć do danych trzeba przeklikać się przez obszary/działy/poddziały tematyczne. Przykładowo może to być Population and Social conditions → Demography and Migration → Mortality Trzy ikony na początku wiersza oznaczają, że dotarliśmy do tabeli danych. Kliknięcie w żółtą ikonę ZIP powoduje pobranie kompletnej tabeli (może być duża); kliknięcie w ikonę Eksplorera (ikona z lupą) spowoduje wyświetlenie danych z możliwością wyboru tego co chcemy oglądać. Po ikonach jest tytuł tabeli a po tytule (w nawiasach) Identyfikator tabeli
Po kliknięciu w ikonę Eksplorera wyświetlone zostanie okno podobne do tego:
Okno podzielone jest na 4 panele: menu (duże ikony nad poziomą niebieską kreską), wybór zawartości (*table customization), treść oraz objaśnienia. Panel wyboru zawartości zawiera pola wyboru pozwalające na określenie co ma być wyświetlone (klikamy w ikonę niebieskiego plusa żeby wyświetlić formularz wyboru możlwiych wartości). Tyle jest pól wyboru ile jest wymiarów danych; w przykładzie powyżej są cztery wymiary: kiedy (time), gdzie (geo), co (month) oraz miara (unit). Dla każdej kombinacji wymiarów wyświetlony zostanie stosowny zbiór wartości (proszę spróbować), który następnie może zostać pobrany (ikona download z panelu menu)
Kompletną bazę można pobrać bez potrzeby klikania podając identyfikator bazy (znajdujący się na górze po prawej stronie panelu wyboru zawartości w nawiasach kwadratowych). Przykładowo:
## identyfikator bazy to demo_mmonth
curl 'https://ec.europa.eu/eurostat/estat-navtree-portlet-prod/BulkDownloadListing?file=data/demo_mmonth.tsv.gz'
Punkt startu: World Health Data Platform /GHO /Themes /Topics /Indicator Groups (https://www.who.int/data/gho/data/themes/topics/indicator-groups/); Lista wskaźników: https://www.who.int/data/gho/data/indicators/
Przykładowo: https://www.who.int/data/gho/data/indicators/indicator-details/GHO/gho-ghe-life-tables-lx-number-of-people-left-alive-at-age-x. Opis każdego wskaźnika jest w zakłace Metadata. Zestawienie wszystkich opisów: https://www.who.int/data/gho/indicator-metadata-registry
Jest też API ale kiepsko opisane i chyba nie do końca funkcjonalne. W szczególności: pobranie zestawienia wskaźników (bez opisów ale są etykiety do tabel):
## Api ODATA API (json)
curl https://ghoapi.azureedge.net/api/Indicator
## albo (Athena API)
curl https://apps.who.int/gho/athena/api/GHO
## Id wskaźnika + tytuł (żeby się połapać co to jest):
curl https://apps.who.int/gho/athena/api/GHO?format=csv&profile=text
Z tego zestawienia można wykoncypować, że
lx-number-of-people-left-alive-at-age-x to tablica
identyfikowana jako LIFE_0000000031
:
curl 'https://apps.who.int/gho/athena/api/GHO/LIFE_0000000031?format=csv > WHO_LT_lx.csv
## zwraca zero bo (Przypuszczalnie) za dużo naraz
## dodanie warunku pomaga:
curl 'https://apps.who.int/gho/athena/api/GHO/LIFE_0000000031?format=csv&filter=COUNTRY:POL' > WHO_LT_lx_PL.csv
## ale dalej zapytanie, które generuje dużo danych skutkuje błędem:
curl 'https://apps.who.int/gho/athena/api/GHO/LIFE_0000000031?format=csv&filter=YEAR:2019' > WHO_LT_lx_2019.csv
Opis API jest tutaj https://www.who.int/data/gho/info/athena-api oraz https://www.who.int/data/gho/info/athena-api-examples. Baza wszakże wygląda na mocno dysfunkcjonalną skoro pobranie większej ilości danych wygląda na niemożliwe.
Agenda ONZ zajmująca się rolnictwem i wyżywieniem. Punkt startu: http://www.fao.org/faostat/en/#home
Można pobrać całość w postaci archiwum zip (1Gb) kilkając w prostokąt z napisem Bulk Download. Klikając w Explore data przechodzimy do strony–spisu treści działów bazy FAO.
Ciekawym działem jest FoodBalance czyli Bilans Żywnościowy. Pomijając (na razie) na ile są to wiarygodne dane FB zawiera szczegółowe dane dotyczące spożycia różnych kategorii żywoności w poszczególnych krajach świata.
Pierwsza pozycja New Food Balances to bilans żywności wg nowej metodologii (stosowanej od 2014 roku); druga to bilans liczony wg starej metodologii (do 2013 roku)
Punkt startu: http://demografia.stat.gov.pl/bazademografia/ a także Bank Danych Lokalnych https://bdl.stat.gov.pl/BDL/dane/podgrup/temat
Aby dotrzeć do danych trzeba klikać w obszary/działy/poddziały aż duży niebieski guzik ze słowem Dalej stanie się klikalny:
Wtedy klikamy w Dalej przechodząc do formularza wyboru zawartości (tego co ma być wyświetlone):
i wybieramy co chcemy oglądać (wymiary) deklarując stosowne wartości w wyświetlonych listach wyboru (w przykładzie Lata/Płeć/Wiek). Po zadeklarowaniu każdego wymiaru guzi dalej stanie się klikowalny. Po jego naciśnięciu przechodzimy do formularza wyboru wymiaru przestrzennego: poziomu agregacji danych (Polska, województwa, powiaty a nawet gminy). Kilkamy dalej:
Dane zostają wyświetlone a naciskając
guzik Eksport można jest pobrać w jednym z kilku
proponowanych formatów.
GUS udostępnia także szczegółowe i aktualne dane na temat zgonów ze strony Zgony według tygodni (https://stat.gov.pl/obszary-tematyczne/ludnosc/ludnosc/zgony-wedlug-tygodni,39,2.html) Dane nt zgonów są udostępniane w formacie ogromnego arkusza Excela (XLSX), a bezpośredni link do arkusza to https://stat.gov.pl/download/gfx/portalinformacyjny/pl/defaultaktualnosci/5468/39/2/1/zgony_wedlug_tygodni_v2.zip
Czyli Amerykański Urząd ds Spis Ludności, ale udostępniający także różne inne ciekawe dane, w szczególności International Data Base (IDB) Population estimates and projections for 228 countries and areas https://www.census.gov/data-tools/demo/idb/#/country?YR_ANIM=2021
Ciekawostkowo ponieważ w USA mieszka trochę obywateli pochodzenia polskiego są strony w języku polskim (oprócz chińskiego, koreańskiego, wietnamskiego, rosyjskiego, francuskiego, portugalskiego, hiszpańskiego, arabskiego, filipińskiego, kreolskiego; nie ma włoskiego i niemieckiego natomiast:-)) a jakże: https://www.census.gov/newsroom/press-releases/2020/2020-census-data-collection-ending/2020-census-data-collection-ending-polish.html
Eksplorator danych publicznych Google (Google Public Data Explorer) https://en.wikipedia.org/wiki/Google_Public_Data_Explorer
Google Public Data Explorer provides public data and forecasts from a range of international organizations and academic institutions including the World Bank, OECD, Eurostat and the University of Denver. These can be displayed as line graphs, bar graphs, cross sectional plots or on maps. The product was launched on March 8, 2010 as an experimental visualization tool in Google Labs.
In 2011 the Public Data Explorer was made available for anyone to upload, share and visualize data sets. To facilitate this, Google created a new data format, the Dataset Publishing Language (DSPL).
DBnomics is a free platform to aggregate publicly-available economic data provided by national and international statistical institutions, but also by researchers and private companies. The value-added is a unique economic database with wide, systematic coverage of economic data.
Our World in Data to projekt edukacyjny mający na celu pokazanie research and data to make progress against the world’s largest problems (badań i danych w obszarze przeciwdziałania największym światowym problemom: głód, choroby, nierówność społeczna i inne; https://en.wikipedia.org/wiki/Our_World_in_Data albo https://pl.wikipedia.org/wiki/Our_World_in_Data) Nawiasem mówiąc takie postawienie sprawy powoduje zdaniem niektórych, że projekt nie tyle jest edukacyjny co indoktrynacyjny. Ma mianowicie pokazać, że świat idzie szybko w dobrą stronę. (Mocna krytyka tego projekt z tego punktu widzenia znajduje się tutaj: https://www.lareviewofbooks.org/article/pinkers-pollyannish-philosophy-and-its-perfidious-politics/ (Pinker’s Pollyannish Philosophy and Its Perfidious Politics) oraz tutaj: https://www.theguardian.com/commentisfree/2019/nov/22/progressive-politics-capitalism-unions-healthcare-education (It’s not thanks to capitalism that we’re living longer, but progressive politics))
OWiD udostępnia między innymi zbiory danych wyróżniające się wielkością. Są to z definicji dane dla wszystkich krajów świata, a do tego w horyzoncie czasowym idącym w setki lat, co w wielu przypadkach jest oczywistą lipą (obliczenie GDP dla Polski pod zaborami na przykład https://ourworldindata.org/economic-growth)
Mając to na uwadze i nie wchodząc w spory ideologiczne czemu służy projekt, po prostu korzystajmy z danych (zwłaszcza tych w miarę nowych, które dają większą gwarancję że są prawdziwe a nie szacowane–czytaj zgadywane)
Uwaga: OWiD to nie jest baza danych tylko zbiór dokumentów czyli stron WWW. W tych dokumentach znajdują się efektowne interaktywne wykresy plus komentarze i opisy tego co jest na wykresach oczywiście. Na dole każdego wykresu znajduje się zestaw guzików do wyboru tego co ma być wyświetlone ora guzik download służący do pobrania danych.
Punkt startu: https://ourworldindata.org/