Intro

GDPR documents

Questions

Alžběta’s Questions

  • Do service providers reuse each others texts?
  • Do big providers reuse GDPR texts without product/audience customization?
  • Future: Set your personal GDPR parameters to select a service provider?
  • Focus on personalized adds, remarketing

Text Mining Approach

Text mining approach

  • create a document corpus
  • extract passages on remarketing
  • quantify similarity within document pairs
  • cluster similar documents; analyze
  • Limitation: on running text from html only
  • Advantage: scale similarity types (literal, content, style)

Examples

GDPR

Web Scraping

Web scraping

URL contains key words gdpr, cookies, protection, conditions

  • E-commerce, “free” web services
  • travel agencies
  • media, publishing houses
  • local administrations

Comprehensive Economia

Brief GDPR document

Opaque GDPR document

Corpus

Column

Corpus

Column

Documents

2,279

Domains

1,469

Tokens

3,438,014

summary

Domain summary

Quantile tokens
min 2
25% (Q1) 571
50% (median) 1,170
75% (Q3) 2,449
max 195,509

Cleaning

Column

Boilerplate removal

Boilerplate removal

Clean the HTML files with jusText (Python)

  • remove boilerplate
    • code, headers/footers, figures, tables
  • extract the actual document (running text)

Human validation (remove contact details, scattered table text etc.)

Column

Boilerplate ex1

Boilerplate ex2

NLP

XML-TEI

XML-TEI

Convert HTML to TEI-XML

  • (partly) unify the structural markup
    • headings, paragraphs, bullet lists
  • prepare for NLP + preserve the structural markup

Parsing

Morphosyntactic tagging

  • recognize tokens, sentences
  • token’s part of speech
    • (NOUN, VERB, …)
  • token’s lemma
    • (him -> he, slept -> sleep)
  • syntactic relations between tokens
    • (object, attribute,…)

Text Reuse detection

Explain

Formula

Jaccard coefficient

aka Intersection over Union

  • similarity within a pair
    • here two domain texts
  • 5-grams they share divided by unique 5-grams they do not share

Figure

Plots

boxplot

histogram

Network Analysis of Cross-Domain Text Reuse

Text Reuse possible plagiarism

Possible plagiarism from Albatros

# Plagiarism including a typo: *dobra* should have been *doba*. 
textreuse::align_local(a = reusecorp[["palmknihy_p"]], b = reusecorp[["albatrosmedia_p"]])
TextReuse alignment
Alignment score: 90 
Document A:
dobra kdy on ručně odstranit z prohlížeč z hledisko jeho funkce
lze cookies rozdělit na hodně typ první typ cookies být cookies
remarketingový který využívat pro personalizace obsah můj reklama a jeho
správný zacílení další druh být analytický cookies který já napovědět
jak zvýšit pohodlí

Document B:
dobra kdy on ručně odstranit z prohlížeč z hledisko jeho funkce
lze cookies rozdělit na hodně typ první typ cookies být cookies
remarketingový který využívat pro personalizace obsah můj reklama a jeho
správný zacílení další druh být analytický cookies který já napovědět
jak zvýšit pohodlí

Text Reuse Different domains

# Plagiarism including a typo: *dobra* should have been *doba*. 
textreuse::align_local(a = reusecorp[["vodnanskadrubez_p"]], b = reusecorp[["eroticke-sexypradlo_p"]])
TextReuse alignment
Alignment score: 79 
Document A:
při příští návštěva lokalita nebo prohlížení jeho jednotlivý stránka
muset znovu uvádět jak používat soubor cookie tento #### webstránka
používat soubor cookies pro zapamatování uživatelský nastavení pro
dobrý přizpůsobení reklama zájem návštěvník a pro zbytný funkcionalita
webstránka ####### jak kontrolovat soubor ############ cookie soubor
cookie moci kontrolovat nebo smazat podle

Document B:
při příští návštěva lokalita nebo prohlížení jeho jednotlivý stránka
muset znovu uvádět jak používat soubor cookie ##### tyto webstránka
používat ###### cookies pro zapamatování uživatelský nastavení pro
dobrý přizpůsobení reklama zájem návštěvník a pro zbytný funkcionalita
########## stránka jak kontrolovat soubor cookiesoubor ###### ######
cookie moci kontrolovat nebo smazat podle

Text Reuse No Worries

# Plagiarism including a typo: *dobra* should have been *doba*. 
textreuse::align_local(a = reusecorp[["funtoys_p"]], b = reusecorp[["lelodesign_p"]])
TextReuse alignment
Alignment score: 165 
Document A:
reklama Cookies způsobovat na tvůj počítač žádný škoda a obsahovat
žádný viry tento web používat k poskytování služba personalizace
reklama a analýza návštěvnost soubor cookie používání tento web s ten
souhlasit další informace postup uplatnit svůj právo vyjádřit nesouhlas
kontaktovat já na email oznameni funconcept.cz tento web používat k
poskytování služba personalizace reklama a analýza návštěvnost soubor
cookie používání tento web s ten souhlasit další informace aktuální
##### podmínka ##### používání # internetový ######## stránka ##### být
platný ########### a ####### účinný ######## den ######## jeho #######
zveřejnění tento web používat k poskytování služba personalizace reklama
a analýza návštěvnost soubor cookie používání tento web s ten souhlasit
další informace

Document B:
reklama Cookies způsobovat na tvůj počítač žádný škoda a obsahovat
žádný viry tento web používat k poskytování služba personalizace
reklama a analýza návštěvnost soubor cookie používání tento web s ten
souhlasit další informace postup uplatnit svůj právo vyjádřit nesouhlas
kontaktovat já na email oznameni funconcept.cz tento web používat k
poskytování služba personalizace reklama a analýza návštěvnost soubor
cookie používání tento web s ten souhlasit další informace ########
podle ######## zákon ######### o ########### evidence ####### tržba být
###### prodávající # povinný ###### vystavit ### kupující #### účtenka
########## tento web používat k poskytování služba personalizace reklama
a analýza návštěvnost soubor cookie používání tento web s ten souhlasit
další informace
# Plagiarism including a typo: *dobra* should have been *doba*. 
textreuse::align_local(a = reusecorp[["mzone_p"]], b = reusecorp[["krepelkajaponska_p"]])
TextReuse alignment
Alignment score: 92 
Document A:
obdržený aniž být aktivně zadat informace za použití různý technologie
a způsob jako například internet protocol adresa cookies internet Tags
apod tento informace umožnit dobře přizpůsobit obsah stránka potřeba
uživatel a pomoci inzerent a sponzor dobře porozumět návštěvník na tento
webový stránka se zobrazovat reklama poskytovaný

Document B:
obdržený aniž být aktivně zadat informace za použití různý technologie
a způsob jako například internet protocol adresa cookies internet Tags
apod tento informace umožnit dobře přizpůsobit obsah stránka potřeba
uživatel a pomoci inzerent a sponzor dobře porozumět návštěvník na tento
webový stránka se zobrazovat reklama poskytovaný