1 Introduzione

Breve analisi dati riguardante l’andamento del Covid-19 nelle Regioni Italiane. L’analisi si divide in :

Esplorazione Dati: Valori Assoluti e Percentuali (in funzione del numero abitanti e dei positivi della regione)
Matrici: Correlazione e Origine-Destinazione
Popolazione a Rischio e Carico sul SSN
Ipotesi di modelli (Sigmoid, SIR, ARIMA)

Le sorgenti dati prese in considerazione sono:

Protezione Civile: https://github.com/pcm-dpc/COVID-19(serie storiche a partire dal 24 Febbraio)
Istat: Dati Popolazione, personale medico, Patologie per regione
Istituto Superiore di Sanita’: Patologie pregresse dei pazienti covid.

I dati della protezione civile dovrebbero avere un BIAS in quanto derivano dai dati dei tamponi che vengono eseguiti su persone con sintomi anche forti e su persone a rischio per il lavoro che svolgono, questo processo fa si che l’inclusione delle persone nel campione di riferimento dipenda da queste caratteristiche. Bisogna ricordare che questi dati non danno quindi l’effettiva diffusione del contagio in quanto asintomatici o persone con lievi sintomi non sono oggetto di valutazione di positivita’ e non ricadono nei dati raccolti.

Ulteriore punto di attenzione e’ la completezza e correttezza dei dati raccolti dovuta a tempistiche di acquisizione o a procedure differenti (es: tamponi).

Per una corretta interpretazione dei grafici e’ altresi’ necessario ricordare le date dei 3 provvedimenti del governo:

25 Febbraio (giorno 2 della serie storica): chiusura scuole, restrizioni mobilita’ in Lombardia, Veneto, Piemonte, Emilia-Romagna, Liguria and Friuli.
8 Marzo (giorno 14 della serie storica): lockdown di Lombardia, Piemonte, Veneto, Emilia-Romagna, Marche.
12 Marzo (giorno 18 della serie storica): lockdown nazionale.

2 Esplorazione Dati

Valori Assoluti

In questa sezione vengono esposti i dati in valore assoluto relativamente alla Regioni, i principali punti di attenzione rilevati sono:

Lombardia, Emilia Romagna , Veneto e Piemonte sono le regioni con piu’ abitanti positivi e totale dei casi.

Lombardia e Veneto hanno un numero di Tamponi molto maggiore rispetto alle altre regioni.

L’isolamento domiciliare e’ alto in Lombardia, Veneto ed Emilia Romagna. Dal 19 Marzo anche il Piemonte sta ricorrendo all’isolamento domiciliare piu’ che in precedenza.

Rispetto alle regioni piu’ colpite il Piemonte ha avuto un incremento degli ricoverati con sintomi elevato iniziato verso meta’ marzo. Il Veneto ha un numero ricoverati con sintomi basso rispetto alle regioni piu’ colpite.

La Lombardia ha circa 4 volte rispetto alle altre regioni come numero di persone in terapia intensiva. Verso il 10 Marzo vi e’ stato un aumento deciso delle terapie intensive di Piemonte, Veneto, Emilia Romagna e Toscana.

Sembra che i nuovi positivi abbiano avuto un momento di arresto nella discesa verso fine Marzo, addirittura in Piemonte dopo una breve discesa si e’assistito ad un nuovo incremento.

Alcune regioni hanno una densita’ di positivi per kilometro quadrato relativamente alta rispetto alle regioni piu’ colpite e sono la P.A. di Bolzano e la Liguria. Bisogna tenere in considerazione che Liguria e P.A. Bolzano hanno una densita’ di popolazione simile al Veneto.

Il numero di Tamponi giornaliero e’ in continuo aumento come il numero di nuovi casi giornalieri rilevati. Sembra che la crescita dei Tamponi abbia dei momenti di calo ricorrente a cui sembra vi sia un calo relativo dei nuovi casi qualche giorno successivo.

Valori Percentuali

In questa sezione vengono esposti i dati in valore percentuale al fine di confrontare tra loro le situazioni regionali rispetto alla popolazione ed ai positivi. Le cirve derivanti hanno valori molto altalenanti e quindi e’ stato effettuata una interpolazione polinomiale (smooth) per rendere piu’ comprensibile l’andamento. I principali punti di attenzione rilevati sono:

Percentuali rispetto alla popolazione regionale

Valle d’Aosta e P.A. Trento hanno la percentuale di positivi piu’ alta.

Veneto e P.A: Bolzano hanno una percentuale di Tamponi piu’ alta.

Percentuali rispetto ai positivi

Il Piemonte ha una percentuale di isolamento domiciliare che sino a poco dopo meta’ Marzo era la piu’ bassa ed ha un numero di ricoverati con sintomi alto.

3 Matrici

Matrici di Correlazione

Analisi di correlazione tra i seguenti parametri: totale ricoverati con sintomi, isolamento domiciliare, totale attualmente positivi, nuovi attualmente positivi, tamponi

I coefficenti di correlazione risultano essere sempre elevati e positivi. Interessanti sono le correlazioni tra i tamponi e le altre variabili. Nel totale Italiano si notano chiaramente diverse direttrici di crescita nelle correlazioni con il totale ricoverati con sintomi, isolamento domiciliare e totale attualmente positivi. L’effetto dovrebbe essere dovuto ai diversi approcci nelle singole regioni. Piu’ sparsi i punti nei grafici “Tamponi - variazione_totale_positivi”.

Per evidenziare le diverse direttrici di crescita nelle correlazioni si riportano 3 grafici aggiungendo delle “rette rosse” che identificano il Veneto sulla matrice correlazioni Italiana.

Fig1: Dettaglio Veneto su totale Italia

Queste rette “doppie” ovviamente spariscono considerando le singole regioni. In Piemonte abbiamo una seconda conferma dell’iniziale rapporto “atipico” tra Tamponi ed Isolamento Domicilare.

Matrici Origine-Destinazione

I dati ISTAT di matrice origine-destinazione degli spostamenti per motivi di lavoro o di studio si riferiscono alla popolazione residente nel 2011.

I files contengono dati sul numero di persone che si spostano tra comuni (o all’interno dello stesso comune) classificate per: motivo dello spostamento, mezzo di trasporto, fascia oraria di partenza e la durata del tragitto.

La base di calcolo sono 28.871.447 persone che hanno dichiarato di recarsi giornalmente al luogo abituale di studio o di lavoro, partendo dalla propria residenza.

Per rendere leggibile la rete si e’ effettuato un taglio delle direttrici origine-destinazione sotto i 1000 spostamenti e sono inoltre stati eliminati gli spostameti all’interno della stessa provincia. Nella rete N e’ il numero di spostamenti giornalieri. Queste semplificazioni hanno l’obiettivo di valutare la rete di propoagazione del contagio tra le varie province.

Come prevedibile il grafo conferma sostanzialmente il legame tra le necessita’ di trasporto e le aree di maggior diffusione del Virus. Nel grafo si nota il “cluster” Centro-Nord (che arriva sino a Pescara-Chieti) e quello Centro-Sud (che va da Pisa a Salerno). Chiaramente sono mappe di “pendolarismo” ma diventano anche linee di diffusione del contagio.

Versione della mappa Interattiva

4 Popolazione a rischio e Carico sul SSN

Popolazione a rischio

L’obiettivo di questa sezione e’ determinare quale e’ il potenziale bacino di popolazione maggiormente a rischio nelle varie regioni tenuto conto:

dei dati ISTAT relativi alle patologie piu’ comuni in italia nel 2018.
del bollettino settimanale riguardante le caratteristiche delle persone decedute fornito dall’Istituto superiore di Sanita’ (dati tabella Patologie preesistenti osservate piu’ frequentemente). https://www.epicentro.iss.it/coronavirus/sars-cov-2-decessi-italia

E’ stato possibile confrontare questi due dataset su un numero minore di patologie rispetto a quelle definite dall’Istituto superiore di Sanita’ in quanto non vi e’ lo stesso dettaglio delle patologie presenti nel dataset ISTAT. Il confronto e’ stato dunque eseguito su queste patologie: Ipertensione arteriosa, Cardiopatia ischemica, Fibrillazione atriale, Scompenso cardiaco, Diabete mellito-Tipo 2, Broncopneumopatia cronica ostruttiva

Fig2: ISS Patologie preesistenti osservate piu’ frequentemente (30 marzo)

Il calcolo effettuato riporta le percentuali delle patologie delle persone decedute rispetto ai dati delle persone con quelle patologie a livello regionale. In questo modo si da una visione numerica qualitativa del bacino di popolazione potenzialmente a rischio per ogni regione. Probabilmente dovrebbe essere considerato un bacino di persone su cui andrebbero effettuati controlli (per esempio tamponi).

Il grafico mostra come l’ipertensione arteriosa sia di gran lunga il fattore di maggiore rischio e come varia da regione a regione. Il diabete tipo II e’ il secondo fattore di rischio ma e’ piu’ costante nelle varie regioni.

Le persone con piu’ di una patologia sono ovviamente maggiormente a rischio ma sono escluse dall’istogramma in quanto gia’ comprese nei valori rappresentati.

Confronto patologie pre-esistenti nei decessi covid con diffusione delle patologie nelle Regioni

Di seguito il dettaglio che confronta, per alcune regioni, le percentuali di patologie della popolazione e le percentuali di patologie riscontrate nei decessi di pazienti Covid. Le regioni elencate (Lombardia, Veneto, Piemonte, Emilia Romagna) hanno tutte l’ipertensione come patologia piu’ diffusa, la seconda patologia e’ una patologia polmonare mentre i dati sui decessi evidenziano una incidenza maggiore del diabete di tipo II e delle cardiopatie ischemiche.

Carico sul SSN

L’obiettivo di questa sezione e’ determinare quale e’ una ipotesi di indice di carico sul SSN tenuto conto del rapporto tra:

somma del numero di persone nelle varie fasi in cui vengono a contatto con il SSN in maniera pesata a seconda dell’impegno nelle cure: isolamento_domiciliare, ricoverati_con_sintomi, terapia_intensiva, deceduti“. A questi vengono sottratti il numero di dimessi_guariti. (i pesi sono attribuiti arbitrariamente e migliorabili).
dati ISTAT relativi al peronale medico in italia nel 2017 (medici specialistici, medici di base e personale infermieristico).

Gli indici calcolati riferendosi a personale 2017 non tengono in conto le nuove assunzioni, sono quindi indici probabilmente piu’ pessimistici della reale situazione odierna.

La regione con piu’ carico sul SSN risulta essere la Valle d’Aosta. Alle curve e’ stato applicato uno smooth)

5 Ipotesi di Modelli

Regressione Logistica

La diffusione della malattia potrebbe essere modellata utilizzando una curva logistica in quanto la crescita e’ inizialmente esponenziale ma (anche grazie alle misure di contenimento) rallenta dopo un certo punto di flesso che e’ il punto medio della diffusione.

Fig3: Sigmoide

I grafici seguenti rappresentano una ipotesi di andamento a Sigmoide sul totale dei casi a livello Nazionale ed un dettaglio su Piemonte e Lombardia. I riferimenti verticali arancioni sono i lockdown.

ITALIA

PlotCountry <- CovidLogisticFunctionItalia("ITA-")

# total PLot Confirmed Cases
ggplot(PlotCountry, aes(x=days)) +
  geom_point( aes(y=ConfirmedCases), size=2, color="green4") + 
  geom_line( aes(y=PredConfirmedCases), size=1, color="orangered") +
  scale_y_continuous(
    name = "ConfirmedCases",
    sec.axis = sec_axis(~.*1, name="Pred")
  ) + 
  theme(
    axis.title.y = element_text(color = "green4", size=13),
    axis.title.y.right = element_text(color = "orangered", size=13),
    axis.text.x = element_text(angle = 90)
  ) +
  geom_vline(xintercept = firstlockdown, color="orange", size=1) +
  geom_vline(xintercept = secondlockdown, color="orange", size=1) +
  ggtitle(paste0("Confirmed Cases Comparison "))

ggplot(PlotCountry, aes(x=days)) +
  geom_point( aes(y=Fatalities), size=2, color="green4") + 
  geom_line( aes(y=PredFatalities), size=1, color="orangered") +
  scale_y_continuous(
    name = "Fatalities",
    sec.axis = sec_axis(~.*1, name="Pred")
  ) + 
  theme(
    axis.title.y = element_text(color = "green4", size=13),
    axis.title.y.right = element_text(color = "orangered", size=13),
    axis.text.x = element_text(angle = 90)
  ) +
  geom_vline(xintercept = firstlockdown, color="orange", size=1) +
  geom_vline(xintercept = secondlockdown, color="orange", size=1) +
  ggtitle(paste0("Fatalities Comparison "))

#Model and residual
ModelCountry <- CovidLogisticModelItalia ("ITA-")
summary(ModelCountry)
fitres <- nlsResiduals(ModelCountry)
plot(fitres, which = 0)

LOMBARDIA

PlotCountry <- CovidLogisticFunctionItalia("ITA-Lombardia")

# total PLot Confirmed Cases
ggplot(PlotCountry, aes(x=days)) +
  geom_point( aes(y=ConfirmedCases), size=2, color="green4") + 
  geom_line( aes(y=PredConfirmedCases), size=1, color="orangered") +
  scale_y_continuous(
    name = "ConfirmedCases",
    sec.axis = sec_axis(~.*1, name="Pred")
  ) + 
  theme(
    axis.title.y = element_text(color = "green4", size=13),
    axis.title.y.right = element_text(color = "orangered", size=13),
    axis.text.x = element_text(angle = 90)
  ) +
  geom_vline(xintercept = firstlockdown, color="orange", size=1) +
  geom_vline(xintercept = secondlockdown, color="orange", size=1) +
  ggtitle(paste0("Confirmed Cases Comparison "))

ggplot(PlotCountry, aes(x=days)) +
  geom_point( aes(y=Fatalities), size=2, color="green4") + 
  geom_line( aes(y=PredFatalities), size=1, color="orangered") +
  scale_y_continuous(
    name = "Fatalities",
    sec.axis = sec_axis(~.*1, name="Pred")
  ) + 
  theme(
    axis.title.y = element_text(color = "green4", size=13),
    axis.title.y.right = element_text(color = "orangered", size=13),
    axis.text.x = element_text(angle = 90)
  ) +
  geom_vline(xintercept = firstlockdown, color="orange", size=1) +
  geom_vline(xintercept = secondlockdown, color="orange", size=1) +
  ggtitle(paste0("Fatalities Comparison "))

#Model and residual
ModelCountry <- CovidLogisticModelItalia ("ITA-Lombardia")
summary(ModelCountry)
fitres <- nlsResiduals(ModelCountry)
plot(fitres, which = 0)

PIEMONTE

PlotCountry <- CovidLogisticFunctionItalia("ITA-Piemonte")

# total PLot Confirmed Cases
ggplot(PlotCountry, aes(x=days)) +
  geom_point( aes(y=ConfirmedCases), size=2, color="green4") + 
  geom_line( aes(y=PredConfirmedCases), size=1, color="orangered") +
  scale_y_continuous(
    name = "ConfirmedCases",
    sec.axis = sec_axis(~.*1, name="Pred")
  ) + 
  theme(
    axis.title.y = element_text(color = "green4", size=13),
    axis.title.y.right = element_text(color = "orangered", size=13),
    axis.text.x = element_text(angle = 90)
  ) +
  geom_vline(xintercept = firstlockdown, color="orange", size=1) +
  geom_vline(xintercept = secondlockdown, color="orange", size=1) +
  ggtitle(paste0("Confirmed Cases Comparison "))

ggplot(PlotCountry, aes(x=days)) +
  geom_point( aes(y=Fatalities), size=2, color="green4") + 
  geom_line( aes(y=PredFatalities), size=1, color="orangered") +
  scale_y_continuous(
    name = "Fatalities",
    sec.axis = sec_axis(~.*1, name="Pred")
  ) + 
  theme(
    axis.title.y = element_text(color = "green4", size=13),
    axis.title.y.right = element_text(color = "orangered", size=13),
    axis.text.x = element_text(angle = 90)
  ) +
  geom_vline(xintercept = firstlockdown, color="orange", size=1) +
  geom_vline(xintercept = secondlockdown, color="orange", size=1) +
  ggtitle(paste0("Fatalities Comparison "))

#Model and residual
ModelCountry <- CovidLogisticModelItalia ("ITA-Piemonte")
summary(ModelCountry)
fitres <- nlsResiduals(ModelCountry)
plot(fitres, which = 0)

Sull’ipotesi Regressione Logistica il paper Prediction and analysis of Coronavirus Disease 2019 mette a confronto tre tipi di modelli per la Cina: Logistic, Gompertz, Bertalanffy

Questi modelli sembra abbiamo raggiunto performance differenti a seconda della zona della Cina su cui e’ stata effettuata l’analisi (Wuhan, non-Hubei …..).

Prediction and analysis of Coronavirus Disease 2019 China university of Geosciences (Beijing), Stanford University, Stanford, CA 94305, USA

https://arxiv.org/ftp/arxiv/papers/2003/2003.05447.pdf

SIR

I modelli compartimentali sono tecniche per modellare le malattie infettive e prevede che la popolazione sia divisa in compartimenti con caratteristiche differenti tra loro. Il modello SIR e’ un modello compartimentale semplice e prevede tre gruppi in cui la popolazione puo’ essere:

S sana ma suscettibile alla malattia
I con l’infezione
R ripresa dall’infezione

Per modellare la dinamica dell’epidemia servono tre equazioni differenziali e relativi parametri che definiscono la trasizione tra i gruppi:

beta parametro che controlla la transizione tra S e I
gamma parametro controlla la transizione tra I e R

Fig4: Modello SIR

Per adattare il modello ai dati e’ necessario risolvere le equazioni differenziali e ridurre al minimo la somma delle differenze al quadrato tra il numero di I infetti ed il numero corrispondente di casi previsti nel modello (ad un tempo t). Un numero importante nel modello e’ il numero di riproduzione di base R0 che indica il numero di nuovi casi generati in media da un singolo caso durante il proprio periodo infettivo.

Fig5: Equazioni differenziali e RSS (residual sum of squares)

SIR a livello Nazionale

Come dati iniziali per il modello a livello Nazionale prendiamo in considerazione i 224 casi positivi (I) al 24 febbraio ed una popolazione Italiana (S) di circa 60 milioni di individui.

Il modello base mostra i grafici SIR ed i relativi valori di beta, gamma e R0. Il valore di R0 calcolato ad oggi e’: (1.1427101.)

Visti i valori numerici elevati e’ preferibile utilizzare una scala logaritmica.

Nel grafico le linee continue rappresentano il modello SIR con visualizzazione su scala logaritmica, i punti(blu, rossi e verdi) rappresentano i valori osservati ad oggi a livello Nazionale. Quello che si nota e’ un numero di R (recovered) minore di I (Infected) ed una curvatura che lascia intravedere un picco di infetti e di persone riprese minore di quello ipotizzato dal modello e con possibile traiettoria piu’ contenuta.

Limiti del modello

Una possibile spiegazione della discrepanza tra modello e valori reali e’ che il Modello SIR e’ un modello che fa alcune ipotesi:

Nessuna incubazione o periodo di latenza. Un periodo di incubazione ritarda l’intera sequenza temporale dell’epidemia.
Esiste un solo tipo di individuo infettivo. Nel mondo reale, diversi sistemi immunitari rispondono in modo diverso al virus, portando alcune persone ad essere completamente asintomatiche ed a casi lievemente infettivi. Nel caso di CoVID19 si ritiene che il numero di casi asintomatici sia pari o superiore al 40%.
Il modello non tiene conto che si sono attuate procedure di lockdown per cercare di contenere la diffusione della epidemia e che probabilmente hanno avuto un effetto positivo.
Un presupposto e’ che la popolazione sia mista e che ogni individuo sia in potenziale contatto con qualsiasi altro individuo. Questo ovviamente non e’ possibile ma puo’ essere un’approssimazione abbastanza buona per l’analisi qualitativa delle dinamiche epidemiche. Nella realta’ paesi e citta’ non sono popolazioni omogenee e vi sono transizioni tra aree di popolazione (come evidenziato nella matrice OD).

Questo articolo fornisce dettagli ulteriori dei concetti espressi in questa analisi su SIR.

https://medium.com/data-for-science/epidemic-modeling-101-or-why-your-covid19-exponential-fits-are-wrong-97aa50c55f8

ARIMA

ARIMA e’ un modello autoregressivo (AR) a media mobile (MA) ed e’ un tipo di modello matematico che fornisce istante per istante un valore di uscita basandosi sui precedenti valori in entrata e in uscita.

AR sta per regressione automatica (p)
I sta per termine di differenziazione (d)
MA sta per media mobile (q)

Il modello e’ realizzato con dati a livello nazionale.

Prima di tutto e’ necessario verificare le funzioni Stazionarieta’ e pre-autocorrelazione ACF e Partial ACF.

Verifica se i dati delle serie storiche sono stazionari

A meno che le serie storiche non siano stazionarie, non e’ possibile creare un modello. Nei casi in cui i criteri di stazionarieta’ vengono violati, e’ necessario rendere stazionarie le serie temporali e provare modelli stocastici per le previsioni. Il test Dickey-Fuller viene eseguito per verificare se i dati sono stazionari. L’Ipotesi nulla e’ che sia presente una “unit root” nel campione e quindi la serie temporale sia non stazionaria. L’ipotesi alternativa e’ che le serie storiche siano stazionarie.

p-value < 0,05 quindi la serie temporale sembra stazionaria, possiamo ora eseguire la modellazione con ARIMA.

Auto ARIMA

Per deteminare il modello ARIMA migliore utiliziamo una funzione basata sull’algoritmo di Hyndman-Khandakar (Hyndman & Khandakar, 2008) che minimizza AIC (Akaike information criterion) ed MLE (Maximum Likelihood estimator).

## Series: Nazionale$totale_casi 
## ARIMA(0,2,0) 
## 
## sigma^2 estimated as 322690:  log likelihood=-419.1
## AIC=840.21   AICc=840.28   BIC=842.19

##                    ME     RMSE     MAE      MPE     MAPE      MASE       ACF1
## Training set 52.75006 557.8224 425.575 1.255808 2.489053 0.1309513 0.07038468

Analisi dei residui

Il test Box Ljung viene eseguito per verificare l’autocorrelazione (l’ipotesi nulla e’ la non autocorrelazione). Se il p_value > 0,5 l’ipotesi nulla e’ accettata ed i residui sono indipendenti, garanzia di un modello corretto.

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(0,2,0)
## Q* = 31.016, df = 10, p-value = 0.0005832
## 
## Model df: 0.   Total lags used: 10

p-values e’ di poco inferiore a 0.5 e non accettiamo l’ipotesi nulla di Non-autocorrelazione.

Le aree di Forecast sono: Low 80, High 80, Low 95, High 95 e la variabilita’ di valori previsti e’ alta.

ARIMA non sembra convincere come modello di forecast.

6 Forecast

Scelta del Modello

I tre modelli proposti sono interessanti per la predizione dei dati cumulati ma sembra che la regressione logistica sia il modello piu’ verosimilmente adeguato. In particolare la scelta e’ Gompertz perche’ fornisce un RSMLE migliore rispetto ad altre regressioni. Prima di applicare la regressione logistica, al fine diminuire il rumore generato dalla raccolta dati, viene applicata una funzione LOESS (Local Polynomial Regression).

Valutazione del modello

Il modello viene applicato e valutato su dati a livello mondiale forniti dal Johns Hopkins University Center for Systems Science and Engineering (JHU CSSE).

Italia

Forecast

Analisi modello e Residui

## 
## Formula: ConfirmedCasesLoess ~ SSgompertz(days, Asym, b2, b3)
## 
## Parameters:
##       Estimate Std. Error t value Pr(>|t|)    
## Asym 2.426e+05  3.492e+03   69.47   <2e-16 ***
## b2   7.305e+01  2.242e+00   32.59   <2e-16 ***
## b3   9.378e-01  6.307e-04 1486.83   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 306.3 on 68 degrees of freedom
## 
## Number of iterations to convergence: 20 
## Achieved convergence tolerance: 1.49e-08

China-Hubei

Forecast

Analisi modello e Residui

## 
## Formula: ConfirmedCasesLoess ~ SSgompertz(days, Asym, b2, b3)
## 
## Parameters:
##       Estimate Std. Error t value Pr(>|t|)    
## Asym 6.850e+04  2.746e+02  249.49   <2e-16 ***
## b2   1.299e+01  8.888e-01   14.62   <2e-16 ***
## b3   8.582e-01  3.235e-03  265.26   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1500 on 68 degrees of freedom
## 
## Number of iterations to convergence: 19 
## Achieved convergence tolerance: 1.49e-08

US-New York

Forecast

Analisi modello e Residui

## 
## Formula: ConfirmedCasesLoess ~ SSgompertz(days, Asym, b2, b3)
## 
## Parameters:
##       Estimate Std. Error t value Pr(>|t|)    
## Asym 2.395e+05  8.907e+03  26.892  < 2e-16 ***
## b2   8.787e+02  1.015e+02   8.657 1.41e-12 ***
## b3   9.095e-01  1.906e-03 477.178  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 320.6 on 68 degrees of freedom
## 
## Number of iterations to convergence: 45 
## Achieved convergence tolerance: 1.49e-08

Conclusioni

La significativita’ dei parametri presi in considerazione (Asym, xmid, scal) e’ buona.
Il Residual standard error (errore standard residuo) e’ una misura della qualita’ della regressione. RSE e’ il valore medio di quanto la risposta devia dalla linea di regressione reale. Nel caso della regressione adottata i valori di RSE variano tra 500 e 800.
Il diagramma “Residual vs Fitted” e’ utile per la valutazione della linearita’ e dell’omoscedasticita’. La linearitea’ viene soddisfatta se i residui (punti sul diagramma) sono distribuiti principalmente sulla linea dello zero. Se non vi e’ alcun modello visibile dei residui allora il diagramma puo’ siginificare l’esistenza di Omoscedasticita’ Nel caso della della regressione adottata notiamo funzioni “sinusoidali” che sono distributi sulla linea dello zero indica linearita’ e non Omoscedasticita’(stiamo stimando una sola variabile).
Il diagramma QQ viene utilizzato per verificare l’assunzione di normalita’, piu’ i punti residui sono vicini alla linea, piu’ e’ probabile che l’assunzione della normalitea’ sia soddisfatta. Come possiamo vedere, questo e’ principalmente il caso dei valori osservati.

Esecuzione del Modello (world wide)

Performance

Le performance sono valutate con il metodo RMSLE root mean squared logarithmic error. In tabella le prime 10 nazioni con valore di RMSLE piu’ elevato (previsione casi confermati e decessi)

Top 10 Max RMSLE
	CountryState	RSMLEConfirmedCases	RSMLEFatalities
18019	Thailand-	2.55000	0.29147
11077	Iran-	2.15020	0.60793
13027	Malaysia-	1.96498	0.41174
9907	Germany-	1.77155	0.46206
22387	US-Washington	1.59412	0.71509
11857	Korea, South-	1.55143	0.45286
23713	United Kingdom-	1.53798	0.47596
9595	France-	1.36830	0.54905
859	Australia-Queensland	1.31783	0.15790
703	Australia-New South Wales	1.27799	0.22714

Covid 19 - Italia (Regioni) + Forecast World Wide

Marco Marchetti

19 Aprile 2020

1 Introduzione

2 Esplorazione Dati

Valori Assoluti

Valori Percentuali

Percentuali rispetto alla popolazione regionale

Percentuali rispetto ai positivi

3 Matrici

Matrici di Correlazione

Matrici Origine-Destinazione

4 Popolazione a rischio e Carico sul SSN

Popolazione a rischio

Carico sul SSN

5 Ipotesi di Modelli

Regressione Logistica

SIR

ARIMA

6 Forecast

Scelta del Modello

Valutazione del modello

Italia

China-Hubei

US-New York

Conclusioni

Esecuzione del Modello (world wide)

Performance