L'emissioni di C02 è un problema reale che provoca ripercussioni forti in differenti contesti:
- climatico
- ambientale
- salute umana
Il progetto verte sulla previsione delle emissioni di C02 negli USA utilizzando differenti metodi statistici e di machine learning:
- metodi di regressione statica (regressioni multiple, stepwise method, Lasso regression)
- metodi autoregressivi (modelli ARIMA, GARCH, RegARIMA)
- metodi di regressione dinamica (modelli State-space, filtro di Kalman)
A seguito viene mostrata un'analisi esplorativa delle emissioni di C02 totali e nei settori principali statiunitensi.
E' stato svolta una previsione statistica utilizzando un algoritmo sofisticato chiamato Lasso che permette di calcolare i Beta della regressione utilizzando OLS penalizzati. I risultati ottenuti utilizzando solamente variabili singole (singoli andamenti es: produzione di Petrolio) è: R^2 = 0.794 (in Cross-validazione).
Il risultato ottenuto invece con predittori aggregati usando una regressione multipla, ha ottenuti risultati eccellenti con R^2=0.961
Il risultato è fortemente influenzato dalla variabile esogena COVID-19. Il modello ottimo sul test-set è un ARIMA(2,0,2) con RMSE=24.13.
Sono stati applicati modelli state-space con variabili predittive climatiche (HDD, CDD, Humidity) per stimare emissioni di C02. Il risultato ottimo si ottiene con una modello statico nei primi 9 anni e dinamico negli ultimi 2 anni (COVID-19) con un R^2 = 0.681