1 Statistiques descriptives

Total <- Total %>%
  mutate_at(c("bdd_rgn", 
              "ett_blg", "tchnq_b", 
              "communs", "obsrvtr", 
              "famille", "ordre", 
              "nm_vrnc", "nom_vld"), 
            .funs = as.factor)%>%
  rename(bdd_originale = bdd_rgn,
         etat_biologique = ett_blg,
         technique_observation = tchnq_b,
         nom_vernaculaire = nm_vrnc,
         nom_valide = nom_vld,
         observateurs = obsrvtr)
couleur  <- c("Carnivora" = "orangered3",
              "Cetartiodactyla" = "#225d00", 
              "Eulipotyphla" = "bisque4", 
              "Lagomorpha" = "#CC8C3C", 
              "Rodentia" = "darkorange")

VN <- "VisioNature"
GN <- "GeoNature"

Toutes nos données concernent uniquement la Bretagne continentale, hors Loire-Atlantique.

1.1 1. Différentes répartitions

Nous remarquons toujours beaucoup de données de VisioNature dont la technique d’observation est inconnue.

GeoNature observe principalement des indices de rodents et de carnivores. Les lagomorphes sont peu remarqués avec les indices, comparés aux autres dans VisioNature et GeoNature.

application_tous_ordres(repartition_espece, 
                        repartition = etat_biologique)
## [[1]]

## 
## [[2]]

## 
## [[3]]

## 
## [[4]]

## 
## [[5]]

application_tous_ordres(repartition_espece, 
                        repartition = technique_observation)
## [[1]]

## 
## [[2]]

## 
## [[3]]

## 
## [[4]]

## 
## [[5]]

1.1.1 Répartition des ordres

Dans la BDD GeoNature, principalement des carnivores, puis relativement uniformément les 4 autres ordres. C’est peut-être dû au fort intérêt de GMB pour la loutre, mais ce n’est pas tant le cas que ça (voir figure de la répartition des ordres sans le loutres)

Nous nous sommes demandés à quoi ressemblerait la répartition des ordres sans la loutre car elle est une espèce dont le GMB se préoccupe beaucoup. Ca ne change pas drastiquement la distribution.

Total%>%
  filter(date > params$date_min,
         bdd_originale == GN)%>%
  count(nom_vernaculaire, ordre, sort = TRUE) %>%
  ggplot(aes(x = reorder(nom_vernaculaire, n), 
             y = n, fill = ordre, color = ordre)) +
  geom_col() +
  coord_flip() +
  facet_wrap(~ ordre, scales = "free_y") +
  labs(
    title = "Répartition des espèces",
        subtitle = paste(GN),
    y = "Nombre d'observations", x = "Nom vernaculaire"
  ) +
  scale_x_discrete(labels = label_wrap(40)) +
  theme_bw()+
  theme(axis.text=element_text(size=8))+
  scale_colour_manual(values=couleur)+
  scale_fill_manual(values = couleur)

Total%>%
  filter(date > params$date_min,
         bdd_originale == GN)%>%
  count(nom_vernaculaire, ordre, sort = TRUE) %>%
  ggplot(aes(x = reorder(nom_vernaculaire, n), 
             y = n, fill = ordre, color = ordre)) +
  geom_col() +
  coord_flip() +
  facet_wrap(~ ordre, scales = "free_y") +
  labs(
    title = "Répartition des espèces",
        subtitle = paste(GN),
    y = "Nombre d'observations", x = "Nom vernaculaire"
  ) +
  scale_x_discrete(labels = label_wrap(40)) +
  theme_bw()+
  theme(axis.text=element_text(size=8))+
  scale_colour_manual(values=couleur)+
  scale_fill_manual(values = couleur)

Nous remarquons une inversion entre les lapins et les lièvres entre les deux bases de données. Peut-être lié a la période pendant laquelle les BDD sont remplies.

1.2 2. Description temporelle des bases de données

Total%>%
  filter(date > params$date_min,
         bdd_originale == VN)%>%
  ggplot(aes(date, color = ordre))+
  labs(title=paste("Fréquence des observations dans le temps depuis", params$date_min),
       subtitle = paste(VN))+ 
  facet_grid(ordre ~ .)+
  theme_bw()+
  geom_line(stat="density")+
  scale_colour_manual(values=couleur)

Total%>%
  filter(date > params$date_min)%>%
  ggplot(aes(date, color = ordre))+
  labs(title=paste("Fréquence des observations dans le temps depuis", params$date_min),
       subtitle = "Les bases de donnée GéoNature et VisioNature réunis")+ 
  facet_grid(ordre ~ .)+
  theme_bw()+
  geom_line(stat="density")+
  scale_colour_manual(values=couleur)

Total%>%
  filter(date > params$date_min,
         bdd_originale == GN)%>%
  ggplot(aes(date, color = ordre))+
  labs(title=paste("Fréquence des observations dans le temps depuis", params$date_min),
       subtitle = paste(GN))+ 
  facet_grid(ordre ~ .)+
  theme_bw()+
  geom_line(stat="density")+
  scale_colour_manual(values=couleur)

VisioNature a très peu de données avant 2010 et GeoNature avant 1990.

J’aurais focalisé l’étude sur la période [2010 - maintenant] pour les séries temporelles, car avant il y a peu de données.

GéoNature a surtout des données entre 2010 et 2015, et VisioNature après 2015.

Peut-être que ça pourrait être intéressant de regarder par rapport au nombre d’observateurs? Si il y a plus d’observateurs, alors peut-être qu’il y aura plus d’observations. Peut-être qu’on pourra pondérer là dessus?

La plupart des observations ne contiennent qu’un animal mais certains en contiennent plusieurs.

Il faudrait peut-être les prendre en compte, mais les données avec beaucoup d’animaux observés (ex: 400 obs d’un coup) risquent de causer des problèmes pour créer un modèle.

Ensuite, on a essayer d’observer les proportions d’espèces dans le temps. Dans “other” il y a toutes les espèces qui représentent moins de 3% des observations de la période.

# Depuis 2010

Total%>%
  filter(date > params$date_min,
         bdd_originale == VN)%>%
  mutate(
    year = as.numeric(format(date, "%Y")),
    year_group = cut(year, breaks = seq(1980, max(year), by = 2), right = FALSE),
    nom_vernaculaire_grp = fct_lump(nom_vernaculaire, prop = 0.03)
  ) %>%
  ggplot(aes(year_group, fill = nom_vernaculaire_grp)) +
  geom_bar(position = "fill") +
  labs(
    title = "Répartition des differentes espèces observés depuis 2010",
    x = "Période",
    subtitle = paste(VN),
    y = "Proportion",
    fill = "Espèce"
  ) +
  theme_minimal()+
  scale_fill_viridis_d(labels = label_wrap(40))+
  theme(axis.text.x = element_text(angle = 30, hjust = 0.5, vjust = 0.5))

Total%>%
  filter(date > params$date_min)%>%
  filter(bdd_originale == GN,
         date > as.Date("2010-01-01")) %>%
  mutate(
    year = as.numeric(format(date, "%Y")),
    year_group = cut(year, 
                     breaks = seq(1980, max(year), by = 2), 
                     right = FALSE),
    nom_vernaculaire_grp = fct_lump(nom_vernaculaire, prop = 0.03)
  ) %>%
  ggplot(aes(year_group, fill = nom_vernaculaire_grp)) +
  geom_bar(position = "fill") +
  labs(
    title = "Répartition des differentes espèces observés depuis 2010",
    subtitle = paste(GN),
    x = "Période",
    y = "Proportion",
    fill = "Espèce"
  ) +
  theme_minimal()+
  scale_fill_viridis_d(labels = label_wrap(40))+
  theme(axis.text.x = element_text(angle = 30, hjust = 0.5, vjust = 0.5))


Nous remarquons que depuis les années 1980, il semble avoir de moins en moins de “other” donc d’espèces peu présentes. Les principales espèces sont peut être de plus en plus dominantes.

Nous remarquons aussi que GeoNature a des données assez differentes pour [2000-2005) que pour les autres périodes avec beaucoup de rats bruns. Nous n’observons pas quelque chose de similaire chez VisioNature.

1.2.1 Habitudes des observateurs?

Total%>%
  ggplot(aes(as.factor(wday(date, 
                            week_start = getOption("lubridate.week.start", 1)))))+
  labs(title="Barplot des observation selon le jour de la semaine",
       y="Nombre d'observations",
       x="Jour de la semaine")+ 
  theme_bw()+
  geom_bar()+
  scale_x_discrete(labels=c("1" = "Lundi", 
                            "2" = "Mardi",
                            "3" = "Mercredi",
                            "4" = "Jeudi",
                            "5" = "Vendredi",
                            "6" = "Samedi",
                            "7" = "Dimanche"))

Total %>%
  filter(date > params$date_min)%>%
  mutate(jour_annee = qday(date)+(quarter(date,with_year = FALSE)-1)*91)%>%
  ggplot(aes(jour_annee)) +
  labs(title="Frequence des observations selon le jour de l'année",
       y="Proportion",
       x="Jour de l'année")+
  geom_density()

Total%>%
    filter(date > params$date_min)%>%
    ggplot(aes(factor(month(date))))+
    labs(title="Barplot des observation selon le mois",
         y="Nombre d'observations",
         x="Mois")+ 
    theme_bw()+
    geom_bar()+
    scale_x_discrete(labels=c("1" = "Janvier", 
                              "2" = "Février",
                              "3" = "Mars",
                              "4" = "Avril",
                              "5" = "Mai",
                              "6" = "Juin",
                              "7" = "Juillet",
                              "8" = "Aout",
                              "9" = "Septembre",
                              "10" = "Octobre",
                              "11" = "Novembre",
                              "12" = "Decembre"))