Etude comparative de trois étiqueteurs morpho-syntaxiques

* Discours : presse et forum de santé
* Etiqueteurs : Spacy, StanfordNLP, TreeTagger

Enrichissement de corpus

Xingyu LIU & Xiaoou WANG

07/04/2020

Constitution du corpus de la presse

  • 100 articles
  • domaine : économie
  • 54621 mots

Source

Les archives de « le monde » :

Générer les dates d’archives

## ['https://www.lemonde.fr/archives-du-monde/01-01-2019/', 'https://www.lemonde.fr/archives-du-monde/01-02-2019/', 'https://www.lemonde.fr/archives-du-monde/01-03-2019/', 'https://www.lemonde.fr/archives-du-monde/01-04-2019/', 'https://www.lemonde.fr/archives-du-monde/01-05-2019/']

Obtenir les liens des articles

  • l’important c’est de filter les articles réservés aux abonnés

Aspirer avec la librairie beautiful soup

  • Les liens se trouvent dans une balise teaser
  • Les articles réservés contiennent une class sr-only
  • liens des 6489 articles disponibles ici

Classer les liens

Aspirer les articles

  • l’article est dans une balise article
  • le titre dans une balise h1
  • le corps dans des balises h2 et p
  • recursive = False pour ne pas aspirer des balises imbriquées