OBRADA PODATAKA

Hrvatski studiji

dr.sc. Luka Šikić

15 listopad, 2020

CILJEVI PREDAVANJA

Strukturirani i ne-strukturirani podatci
Kvantitativni i kvalitativni podatci
Diskretni i kontinuirani podatci
Razine podataka
Podatci u “praksi”
Big Data u društvenim znanostima

STRUKTURIRANI I NESTRUKTURIRANI PODATCI

STRUKTURIRANI

observacije sa karakteristikama, uglavnom organizirane u tablicu (redovi i kolone)
znanstveno prikupljeni podatci, telefonski imenik
manji dio podataka

NESTRUKTURIRANI

podatci bez standardne organizacijske hijerarhije
Facebook objave, Twitter, logovi na server, genetska sekvenca nukleotida, tekstualni podatci
vjerojatno više od 80% svih podataka
zahtjevaju prilagodbu prije analize

KVANTITATIVNI i KVALITATIVNI PODATCI

KVANTITATIVNI

brojevi, matematičke procedure, prosjek, vremenski trend, threshold efekti

KVALITATIVNI

“prirodne” kategorije, jezik
najčešća observacija, jedinstvene vrijednosti

PRIMJER

import pandas as pd

# ucitaj CSV file sa URL
drinks = pd.read_csv('https://raw.githubusercontent.com/sinanuozdemir/principles_of_data_science/master/data/chapter_2/drinks.csv')

# pregledaj prvih 10 redova
#drinks.head(10)

# prikazi podatke u tablici
py$drinks %>%
  head(10) %>%
  kbl() %>%
  kableExtra::kable_material_dark()

country	beer_servings	spirit_servings	wine_servings	total_litres_of_pure_alcohol	continent
Afghanistan	0	0	0	0.0	AS
Albania	89	132	54	4.9	EU
Algeria	25	0	14	0.7	AF
Andorra	245	138	312	12.4	EU
Angola	217	57	45	5.9	AF
Antigua & Barbuda	102	128	45	4.9	NaN
Argentina	193	25	221	8.3	SA
Armenia	21	179	11	3.8	EU
Australia	261	72	212	10.4	OC
Austria	279	75	191	9.7	EU


drinks['continent'].describe() # pregledaj kolonu 'continent'- KVALITATTIVNA

## count     170
## unique      5
## top        AF
## freq       53
## Name: continent, dtype: object

drinks['beer_servings'].describe() # pregledaj kolonu 'continent'- KVANTITATIVNA

## count    193.000000
## mean     106.160622
## std      101.143103
## min        0.000000
## 25%       20.000000
## 50%       76.000000
## 75%      188.000000
## max      376.000000
## Name: beer_servings, dtype: float64

DISKRETNI I KONTINUIRANI PODATCI

DISKRETNI

prebrojivi
npr. igraća kocka

KONTINUIRANI

postoje na kontinuiranoj skali
npr. težina ili visina

ČETIRI RAZINE PODATAKA

NOMINALNI
ORDINALNI
INTERVALNI
OMJERNI

NOMINALNA RAZINA

podatci opisani nazivom ili kategorijom (kategorički podatci)
npr. spol, nacionalnost, biološke vrste
ne mogu se obavljati matematičke operacije poput zbrajanja ili djeljenja
računanje prosjeka ili drugih statističkih momenata nema smisla

ODINALNA RAZINA

kategorički podatci koji imaju hijerarhijsku strukturu
iako postoji hijerarhija, nije moguće utvrditi relativne razlike među opservacijama
matematičke operacije kao zbrajanje ili dijeljenje nisu opravdane
usporedbe i sortiranje podataka su opravdane
moguće je koristiti medijan (ne i prosjek)

import numpy

# anketa o sreci na ljestvici 1-5
results = [5, 4, 3, 4, 5, 3, 2, 5, 3, 2, 1, 4, 5, 3, 4, 4, 5, 4, 2, 1,
4, 5, 4, 3, 2, 4, 4, 5, 4, 3, 2, 1]

# sortiraj rezultate
sorted_results = sorted(results)
print(sorted_results)

# pogledaj prosjek i medijan

## [1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5]

print ("prosjek:",round(numpy.mean(results),2))

## prosjek: 3.44

print ("medijan:",round(numpy.median(results),2))

## medijan: 4.0

INTERVALNA RAZINA

npr. temperatura
opravdane su matematičke operacije poput zbrajanja i oduzimanja
opravdano korištenje mjera centralne tendencije i varijabilnosti

# temperatura frizidera u fahrenheitima mjerena svakih sat vremena
temps = [31, 32, 32, 31, 28, 29, 31, 38, 32, 31, 30, 29, 30, 31, 26]

# pogledaj prosjek i medijan
print("prosjek:",round(numpy.mean(temps),2))

## prosjek: 30.73

print("medijan:",round(numpy.median(temps),2))

## pogledaj mjere varijacije

## medijan: 31.0

squared_differences = []
# napravi praznu listu
mean = numpy.mean(temps)
# spremi prosjek u objekt

for temperature in temps:
 difference = temperature - mean
 # definiraj funkciju za izracun udaljenosti (temperature) od prosjeka
 
 squared_difference = difference**2
 # kvadriraj razliku
 squared_differences.append(squared_difference)
 # dodaj listi

average_squared_difference = numpy.mean(squared_differences)
# izracunaj varijancu
standard_deviation = numpy.sqrt(average_squared_difference)
# izracunaj standardnu devijaciju
print("stdev:",round(standard_deviation,2))

## stdev: 2.52

OMJERNA RAZINA

opravdane matematičke operacije množenja i djeljenja
podatci na ovoj razni ne smiju biti negativni


# temperatura frizidera u fahrenheitima mjerena svakih sat vremena
temps = [31, 32, 32, 31, 28, 29, 31, 38, 32, 31, 30, 29, 30, 31, 26]

# izracunaj geometrijsku sredinu
num_items = len(temps)
product = 1.

for temperature in temps:
 product *= temperature

geometric_mean = product**(1./num_items)

# prikazi rezultat
print("geometrijska sredina:",geometric_mean)

## geometrijska sredina: 30.63473484374659

PODATCI U “PRAKSI”

Big Data

zbog veličine se ne mogu pohraniti na standardne relacijske baze
nestrukturirani, semi-srtukturirani i strukturirani podatci
od terabayt-a do zettabayt-a veličine
osnova za strojno učenje, AI, predviđanje budućnosti

Strukturirani, Ne-strukturirani i Kvazi-strukturirani podatci

podatkovni “polymorphism” zbog uspona novih tehnologije (web,mobile, socialNet,IoT, programming)
MongoDB, RAVENDB,RETHINKDB, ORIENTDB, PostrgreSQL, ArangoDB cassandra

Vremenske serije

svaka opservacija ima vremenski pečat(događaj ili procesuiranje)
npr. bihevioralni podatci(web) koji se koriste za predviđanje akcijskih modela
npr. financijsko trgovanje

Strojni podatci

sistemski proizvedeni podatci
npr. PC logovi, mobiteli, pametni automobili, aplikacije, API, cloud aplikacije, sensorni signali
posebno korisna za identifikaciju prijetnji, kontrolu kvalitete procesa, predviđanje

Prostorno-temporalni podatci

geografski i temporalni pečat
prokazuju lokacijsku dinamiku u vremenu
praćenje vozila, promjene u populaciji, otkrivanje anomalija u (npr. telekom) mreži

Otvoreni podatci

dostupni javnosti prema “pravilima za upotrebu”
trenutno uglavno ograničeni na znanstvenu uporabu

Crni podatci

neiskorišteni podatci
uglavnom u institucionalnom vlasništvu(tvrtke instituti, think-tank, fakulteti)

Podatci u realnom vremenu

visoka potražnja i “vrući trend”
5G
medicina, promet, trgovina
velik potencijal

Genomski podatci

analiza DNA u cilju identifikacije efekata ljekova i tretiranja bolesti
analitika je glavno ograničenje
prikupljanje i procesuiranje podataka otežano

Operativni podatci

uvidi u procese ponad analitičara i specijalista
podatci o praksama
korisni za obrnuti inžinjering

Visoko-dimenzionalni podatci

popularizirani kroz IT podršku za prepoznavanje lica
zbog složenosti transformacija zahtijevaju nove načine bilježenja i manipulacije

Ne-verificirani podatci

prikupljeni podatci upitne relevantnosti

Translitički podatci

podatci dostupni u realnom vremenu
memorijska zahtjevnost i brzi pristup informacijama

BIG DATA U DRUŠTVENIM ZNANOSTIMA

visoki volumen, opseg, brzina i raznolikost
geografski, tekstualni, i podatci sa društvenih medija
dostupnost u realnom vremenu, većem opsegu, novi pokazatelji i manje strukture
u poslovnom sektoru i prirodnim znanostima je BD već postao standard
društvene znanosti i javne institucije (vlade) kasne u prihvaćanju BD

POTENCIJAL BD ZA UNAPRIJEĐENJE DRUŠTVENIH (I HUMANISTIČKIH) ZNANOSTI

novi uvidi u društvo, politiku i ekonomiju
nova istraživačka pitanja
preciznija predviđanja
bolje javne politike

IZVAZOVI BD

pristup podatcima
upravljanje podatcima i provedba analize (T.Khun!?)
postavljanje pravih pitanja