URL contains key words gdpr, cookies, protection, conditions
2,279
1,469
3,438,014
| Quantile | tokens |
|---|---|
| min | 2 |
| 25% (Q1) | 571 |
| 50% (median) | 1,170 |
| 75% (Q3) | 2,449 |
| max | 195,509 |
Clean the HTML files with jusText
(Python)
Human validation (remove contact details, scattered table text etc.)
638
297
# Plagiarism including a typo: *dobra* should have been *doba*.
textreuse::align_local(a = reusecorp[["palmknihy_p"]], b = reusecorp[["albatrosmedia_p"]])TextReuse alignment
Alignment score: 90
Document A:
dobra kdy on ručně odstranit z prohlížeč z hledisko jeho funkce
lze cookies rozdělit na hodně typ první typ cookies být cookies
remarketingový který využívat pro personalizace obsah můj reklama a jeho
správný zacílení další druh být analytický cookies který já napovědět
jak zvýšit pohodlí
Document B:
dobra kdy on ručně odstranit z prohlížeč z hledisko jeho funkce
lze cookies rozdělit na hodně typ první typ cookies být cookies
remarketingový který využívat pro personalizace obsah můj reklama a jeho
správný zacílení další druh být analytický cookies který já napovědět
jak zvýšit pohodlí
# Plagiarism including a typo: *dobra* should have been *doba*.
textreuse::align_local(a = reusecorp[["vodnanskadrubez_p"]], b = reusecorp[["eroticke-sexypradlo_p"]])TextReuse alignment
Alignment score: 79
Document A:
při příští návštěva lokalita nebo prohlížení jeho jednotlivý stránka
muset znovu uvádět jak používat soubor cookie tento #### webstránka
používat soubor cookies pro zapamatování uživatelský nastavení pro
dobrý přizpůsobení reklama zájem návštěvník a pro zbytný funkcionalita
webstránka ####### jak kontrolovat soubor ############ cookie soubor
cookie moci kontrolovat nebo smazat podle
Document B:
při příští návštěva lokalita nebo prohlížení jeho jednotlivý stránka
muset znovu uvádět jak používat soubor cookie ##### tyto webstránka
používat ###### cookies pro zapamatování uživatelský nastavení pro
dobrý přizpůsobení reklama zájem návštěvník a pro zbytný funkcionalita
########## stránka jak kontrolovat soubor cookiesoubor ###### ######
cookie moci kontrolovat nebo smazat podle
# Plagiarism including a typo: *dobra* should have been *doba*.
textreuse::align_local(a = reusecorp[["funtoys_p"]], b = reusecorp[["lelodesign_p"]])TextReuse alignment
Alignment score: 165
Document A:
reklama Cookies způsobovat na tvůj počítač žádný škoda a obsahovat
žádný viry tento web používat k poskytování služba personalizace
reklama a analýza návštěvnost soubor cookie používání tento web s ten
souhlasit další informace postup uplatnit svůj právo vyjádřit nesouhlas
kontaktovat já na email oznameni funconcept.cz tento web používat k
poskytování služba personalizace reklama a analýza návštěvnost soubor
cookie používání tento web s ten souhlasit další informace aktuální
##### podmínka ##### používání # internetový ######## stránka ##### být
platný ########### a ####### účinný ######## den ######## jeho #######
zveřejnění tento web používat k poskytování služba personalizace reklama
a analýza návštěvnost soubor cookie používání tento web s ten souhlasit
další informace
Document B:
reklama Cookies způsobovat na tvůj počítač žádný škoda a obsahovat
žádný viry tento web používat k poskytování služba personalizace
reklama a analýza návštěvnost soubor cookie používání tento web s ten
souhlasit další informace postup uplatnit svůj právo vyjádřit nesouhlas
kontaktovat já na email oznameni funconcept.cz tento web používat k
poskytování služba personalizace reklama a analýza návštěvnost soubor
cookie používání tento web s ten souhlasit další informace ########
podle ######## zákon ######### o ########### evidence ####### tržba být
###### prodávající # povinný ###### vystavit ### kupující #### účtenka
########## tento web používat k poskytování služba personalizace reklama
a analýza návštěvnost soubor cookie používání tento web s ten souhlasit
další informace
# Plagiarism including a typo: *dobra* should have been *doba*.
textreuse::align_local(a = reusecorp[["mzone_p"]], b = reusecorp[["krepelkajaponska_p"]])TextReuse alignment
Alignment score: 92
Document A:
obdržený aniž být aktivně zadat informace za použití různý technologie
a způsob jako například internet protocol adresa cookies internet Tags
apod tento informace umožnit dobře přizpůsobit obsah stránka potřeba
uživatel a pomoci inzerent a sponzor dobře porozumět návštěvník na tento
webový stránka se zobrazovat reklama poskytovaný
Document B:
obdržený aniž být aktivně zadat informace za použití různý technologie
a způsob jako například internet protocol adresa cookies internet Tags
apod tento informace umožnit dobře přizpůsobit obsah stránka potřeba
uživatel a pomoci inzerent a sponzor dobře porozumět návštěvník na tento
webový stránka se zobrazovat reklama poskytovaný