Uvod u R i R studio

Amra Fetahović
Sarajevo, 2024.

Moje iskustvo u R-u

Unutrasnje migracije - konferencija Mignet - desno cirkularni plot u R-u

Ukupna stopa fertiliteta u BiH i gender nejednakost

USAID-MEASURE BIH Impact evaluation of Active labour market policy
Vise na:
http://measurebih.com i http://premisa.org

PhD - Quality of life index - Urban economy

Ostala istrazivanja:

  1. Kvalitativna analiza podataka (UNDP) - Upitnik open-ended questions
  2. PhD disertacija (ongoing) - HBS 2015 (7,702 X 5,000 obs.)
  3. Percepcija stanovništva o opstinskim uslugama (Lucid Linx) - Likret Scale
  4. Geomapiranje usluga u opstinama..
  5. Structural Equation Modeling
  6. Logistic regression, Linear regression, Fixed effect
  7. …razliciti izvjeÅ¡taji koj su raÄ‘eni na većim bazama https://rpubs.com/amra_fetah/dashboard

RGui i R Studio

R i paketi

Zasto R

Neki od grafikona u R-u

Neke od mapa u R-u

Sta cemo raditi na kursu

  • Osnove iz statistike deskriptivne statistike
  • Statisticki testovi t test, chi - squre test
  • Linearna Regresija (simple regresija i multivarijabilna regresija - ako stignemo)
  • Pretpostavke i dijagnostika
  • geomaps - ako stignemo

Prelazimo na R

ko je instalirao neka otvori Rstudio ko nije zajedno da pratimo korake

ZNACENJE NAJCESCIH ZNAKOVA I OPERATORA

# hashtag nam omogucava da stavljamo tekst u script-i. R ga prepoznaje kao tekst te nam ne isporucuje Error. Probajte kucati tekst u scripti bez #
<- Ovo je tzv. asign znak i pripisuje vrijednosti nekoj varijabli ili vektoru

$ Dolar se cesto upotrebljava, kada npr zelimo iz baze da izvucemo varijable. Lijevo od dolara je naziv dataframa a desno od $ je ime varijable

[] srednja zagrada znaci indeksiranje. npr. ako zelimo da indeksiramo bazu podataka imamo dvije dimenzije: red i kolonu. prvo navedemo red pa zarez pa kolonu

() male zagrade oznacavju funkciju. Dakle ono sto je u zagradi je odredjena funkcija. najcesce se korisit c() ali imamo beskonacno mnogo funkcija

Nastavak...

==, <=, >=, != , | , %in% ovi znakovi su logicki operatori. zadnji se odnosi na 'nije jednako kad imamo logicku funkciju npr. ifelse (), koju cemo kasnije obradjivati ' u setu'

= se koristi kao znak jednako npr 'data=nameofdatabase' , unutar funkcija kao argument

, zarez cesto koristimo kada odvajamo npr. red i kolonu kod indeksiranja odnosno selektiranja elementa. On je vrlo bitan cesto se zna izostaviti u pisanju funkcije pa dobijemo error.

{ } viticasta zagrada se koristi kod programiranja tj funkcija koje pise korisnik

STA JE BAZA PODATAKA

STA NIJE BAZA PODATAKA

VARIJABLE TJ.VEKTORI

Varijable mogu biti kvantitativne = c (1,5,8,10.5) i kvalitativne = c(ucitelj, domar, higijenicar, direktor..), logicki = c(TRUE, TRUE, FALSE), datumi = c(31-12-2017)

Kvantitativne varijable su numericke i mogu biti discrete ili continuous. Npr. (1,2,3,) tj.dan u sedmici je discrete, a tezina je continuous. (continious imaju razlomke)

Discrete varijable su one koje mogu imati samo cijeli broj, ono sto nema frakcija, npr. broj ucenika u razredu, broj stanovnika u nekoj drzavi, broj stanova u zgradi. R ove varijable prepoznaje kao integer.

Continuous su numericke koje mogu uzeti bilo koji broj izmedju dva cijela broja. Npr. tezina, duzina, temperatura,..itd. R ove varijable prepoznaje kao numeric.

Nastavak...

Kvalitativne varijable su kategoricke. Uzmimo npr. primjer varijable zanimanje. Kakvo zanimanje mozemo imati? Zanimanje moze biti: doktor, ucitelj, bankar, statisticar, sestra, cuvar itd. Ove varijable su kvalitativne jer ih ne mozemo posloziti po nivoima odnosno rangirati. Kvalitativne varijabe u R prepoznaje kao factor i kao character.

Karakter varijabla je tekstualna, u njoj mozemo imati zareze, recenice, ili kada je jedna obzervacije broj, druga slovo ili rijec R tu varijablu prepoznaje kao karakter.

Faktor varijable: Kada imamo faktore u bazi podataka moramo biti veoma pazljivi. Faktori su kategoricke varijable koji mogu biti i zamjenjeni brojem npr. 1 za muskarce i 2 za zene.

U tom slucaju moramo da damo do znanja R u da je 1 faktor a ne broj. U slucaju broja mozemo primjentit matematicke operacije a u slucaju factor ne mozemo nego samo frekvencije

Koraci u radu u R-u (1.instal, vectori i df)

PRVO: Otvoriti scriptu File - open file ili new script
DRUGO: stwd () ILI Session - Set Working Directory - Choose Directory ILI ctrl+shift+h
TRECE: install.packages ("naziv_paketa") ako je potrebno, pa onda library (naziv_paketa) - pozovete pakete bez navodnika
CETVRTO: importovati bazu: read.csv ("df.csv")
PETO: OSTAVITE OSNOVNU BAZU DA BUDE MASTER, A NA KOJOJ RADITE PREIMENUJTE i npr. df1 <- df
SESTO: transformacije, formatiranje, analize npr.as.numeric ()
SEDMO: spasavanje baze write.csv (df1, "df1.csv") #Prvo stari naziv pa novi

RECAP Skripte: indeksiranje, Na i Rename, tables in R

Indeksiranje: df[red, kolona] odnosno df[observacija, varijabla]
NA: Dodamo argument na.rm=T kada R nece da izracuna i prijavljue gresku radi NA
Tabele tabele mozemo pozvati na vise nacina i maksimalno dvije varijable da stavimo. obje varijable moraju biti kategoricke table (v1, v2) ili preko crosstab (df$var1, df$var2) preko paketa descr
Tabele kateg + numer: ako zelimo i numericku varijabli onda CreateTableOne (data=df, vars= c("var1", "var2"), strata = c("var3")) preko paketa tableone
Znakovi u cestoj upotrebi: <- , $ , [] , ()