OBRADA PODATAKA

Hrvatski studiji

dr.sc. Luka Šikić

15 listopad, 2020

CILJEVI PREDAVANJA

STRUKTURIRANI I NESTRUKTURIRANI PODATCI

  1. STRUKTURIRANI
  1. NESTRUKTURIRANI

KVANTITATIVNI i KVALITATIVNI PODATCI

  1. KVANTITATIVNI
  1. KVALITATIVNI

PRIMJER

import pandas as pd

# ucitaj CSV file sa URL
drinks = pd.read_csv('https://raw.githubusercontent.com/sinanuozdemir/principles_of_data_science/master/data/chapter_2/drinks.csv')

# pregledaj prvih 10 redova
#drinks.head(10) 
# prikazi podatke u tablici
py$drinks %>%
  head(10) %>%
  kbl() %>%
  kableExtra::kable_material_dark()
country beer_servings spirit_servings wine_servings total_litres_of_pure_alcohol continent
Afghanistan 0 0 0 0.0 AS
Albania 89 132 54 4.9 EU
Algeria 25 0 14 0.7 AF
Andorra 245 138 312 12.4 EU
Angola 217 57 45 5.9 AF
Antigua & Barbuda 102 128 45 4.9 NaN
Argentina 193 25 221 8.3 SA
Armenia 21 179 11 3.8 EU
Australia 261 72 212 10.4 OC
Austria 279 75 191 9.7 EU

drinks['continent'].describe() # pregledaj kolonu 'continent'- KVALITATTIVNA
## count     170
## unique      5
## top        AF
## freq       53
## Name: continent, dtype: object
drinks['beer_servings'].describe() # pregledaj kolonu 'continent'- KVANTITATIVNA
## count    193.000000
## mean     106.160622
## std      101.143103
## min        0.000000
## 25%       20.000000
## 50%       76.000000
## 75%      188.000000
## max      376.000000
## Name: beer_servings, dtype: float64

DISKRETNI I KONTINUIRANI PODATCI

  1. DISKRETNI
  1. KONTINUIRANI

ČETIRI RAZINE PODATAKA

  1. NOMINALNI

  2. ORDINALNI

  3. INTERVALNI

  4. OMJERNI

NOMINALNA RAZINA

ODINALNA RAZINA

import numpy

# anketa o sreci na ljestvici 1-5
results = [5, 4, 3, 4, 5, 3, 2, 5, 3, 2, 1, 4, 5, 3, 4, 4, 5, 4, 2, 1,
4, 5, 4, 3, 2, 4, 4, 5, 4, 3, 2, 1]

# sortiraj rezultate
sorted_results = sorted(results)
print(sorted_results)

# pogledaj prosjek i medijan
## [1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5]
print ("prosjek:",round(numpy.mean(results),2))
## prosjek: 3.44
print ("medijan:",round(numpy.median(results),2))
## medijan: 4.0

INTERVALNA RAZINA

# temperatura frizidera u fahrenheitima mjerena svakih sat vremena
temps = [31, 32, 32, 31, 28, 29, 31, 38, 32, 31, 30, 29, 30, 31, 26]

# pogledaj prosjek i medijan
print("prosjek:",round(numpy.mean(temps),2))
## prosjek: 30.73
print("medijan:",round(numpy.median(temps),2))

## pogledaj mjere varijacije
## medijan: 31.0
squared_differences = []
# napravi praznu listu
mean = numpy.mean(temps)
# spremi prosjek u objekt

for temperature in temps:
 difference = temperature - mean
 # definiraj funkciju za izracun udaljenosti (temperature) od prosjeka
 
 squared_difference = difference**2
 # kvadriraj razliku
 squared_differences.append(squared_difference)
 # dodaj listi

average_squared_difference = numpy.mean(squared_differences)
# izracunaj varijancu
standard_deviation = numpy.sqrt(average_squared_difference)
# izracunaj standardnu devijaciju
print("stdev:",round(standard_deviation,2)) 
## stdev: 2.52

OMJERNA RAZINA


# temperatura frizidera u fahrenheitima mjerena svakih sat vremena
temps = [31, 32, 32, 31, 28, 29, 31, 38, 32, 31, 30, 29, 30, 31, 26]

# izracunaj geometrijsku sredinu
num_items = len(temps)
product = 1.

for temperature in temps:
 product *= temperature

geometric_mean = product**(1./num_items)

# prikazi rezultat
print("geometrijska sredina:",geometric_mean)
## geometrijska sredina: 30.63473484374659

PODATCI U “PRAKSI”

  1. Big Data
  1. Strukturirani, Ne-strukturirani i Kvazi-strukturirani podatci
  1. Vremenske serije
  1. Strojni podatci
  1. Prostorno-temporalni podatci
  1. Otvoreni podatci
  1. Crni podatci
  1. Podatci u realnom vremenu
  1. Genomski podatci
  1. Operativni podatci
  1. Visoko-dimenzionalni podatci
  1. Ne-verificirani podatci
  1. Translitički podatci

BIG DATA U DRUŠTVENIM ZNANOSTIMA

POTENCIJAL BD ZA UNAPRIJEĐENJE DRUŠTVENIH (I HUMANISTIČKIH) ZNANOSTI

IZVAZOVI BD