Etude comparative de trois étiqueteurs morpho-syntaxiques

* Discours : presse et forum de santé
* Etiqueteurs : Spacy, StanfordNLP, TreeTagger

Enrichissement de corpus

Xingyu LIU & Xiaoou WANG

07/04/2020

Constitution du corpus de la presse

100 articles
domaine : économie
54621 mots

Source

Les archives de « le monde » :

Générer les dates d’archives

cette fonction permet de générer les dates sous format jour-mois-année
+ “https://www.lemonde.fr/archives-du-monde/”

def getArchiveLinks(daystart, dayend, monthstart, monthend):
    dates = [str(i).zfill(2)+"-"+str(j).zfill(2) +
             "-2019" for i in range(daystart, dayend) for j in range(monthstart, monthend)]
    archive_links = [
        "https://www.lemonde.fr/archives-du-monde/" + date + "/" for date in dates]
    return archive_links
archive_links = getArchiveLinks(1,29,1,9)
print(archive_links[:5])

## ['https://www.lemonde.fr/archives-du-monde/01-01-2019/', 'https://www.lemonde.fr/archives-du-monde/01-02-2019/', 'https://www.lemonde.fr/archives-du-monde/01-03-2019/', 'https://www.lemonde.fr/archives-du-monde/01-04-2019/', 'https://www.lemonde.fr/archives-du-monde/01-05-2019/']

Obtenir les liens des articles

l’important c’est de filter les articles réservés aux abonnés

Aspirer avec la librairie `beautiful soup`

def getArticlesLinks(archive_links):
    links_non_abonne = []
    for link in archive_links:
        try:
            html = urlopen(link)
        except HTTPError as e:
            print("text url not valid", link)
        soup = BeautifulSoup(html, "html.parser")
        temp = soup.find_all(class_="teaser")
        for item in temp:
            # condition here : if no span sr-only (abonnes)
            if not item.find('span', {'class': 'sr-only'}):
                links_non_abonne.append(item.find('a')['href'])
    return links_non_abonne

Les liens se trouvent dans une balise teaser
Les articles réservés contiennent une class sr-only
liens des 6489 articles disponibles ici

Classer les liens

le lien contient le thème dans le corps
exemple : https://www.lemonde.fr/sport/article/2019/08/28/judo-avec-son-quatrieme-sacre-clarisse-agbegnenou-devient-la-francaise-la-plus-titree-de-l-histoire-des-mondiaux_5503790_3242.html
trois thèmes sont définis ici : themes = [‘culture’, ‘sport’, ‘economie’]
426 articles en culture, 403 en sport et 334 en économie

def classifyLinks(themeList, linkFile):
    dict_links = defaultdict(list)
    for theme in themeList:
        theme_link = 'https://www.lemonde.fr/'+theme+'.*'
        p = re.compile(theme_link)
        theme_links = p.findall(links)
        [dict_links[theme].append(link) for link in theme_links if 'en-direct' not in link]
    return dict_links

links = readFile('lemonde/lemondeLinks.txt')
themes = ['culture', 'sport', 'economie']

dict_links = classifyLinks(themes, links)

for key, value in dict_links.items():
    print(key, len(value))
# culture 426
# sport 403
# economie 334

Aspirer les articles

l’article est dans une balise article
le titre dans une balise h1
le corps dans des balises h2 et p
recursive = False pour ne pas aspirer des balises imbriquées

def getSinglePage(url):
    try:
        html = urlopen(url)
    except HTTPError as e:
        print("text url not valid")
    soup = BeautifulSoup(html, "html.parser")
    with open('html.html','w') as f:
        f.write(soup.prettify())
    text_title = soup.find('h1')
    text_body = soup.article.find_all(["p", "h2"], recursive=False)
    return (text_title, text_body)

Etude comparative de trois étiqueteurs morpho-syntaxiques * Discours : presse et forum de santé * Etiqueteurs : Spacy, StanfordNLP, TreeTagger Enrichissement de corpus

Xingyu LIU & Xiaoou WANG

07/04/2020

Constitution du corpus de la presse

Source

Générer les dates d’archives

Obtenir les liens des articles

Aspirer avec la librairie beautiful soup

Classer les liens

Aspirer les articles

Etude comparative de trois étiqueteurs morpho-syntaxiques

* Discours : presse et forum de santé
* Etiqueteurs : Spacy, StanfordNLP, TreeTagger

Enrichissement de corpus

Aspirer avec la librairie `beautiful soup`