pyFTS/benchmarks/arima.py

#!/usr/bin/python
# -*- coding: utf8 -*-

import numpy as np
import pandas as pd
from statsmodels.tsa.arima_model import ARIMA as stats_arima
import scipy.stats as st
from pyFTS import fts
from pyFTS.common import SortedCollection


class ARIMA(fts.FTS):
    """
    Façade for statsmodels.tsa.arima_model
    """
    def __init__(self, name, **kwargs):
        super(ARIMA, self).__init__(1, "ARIMA"+name)
        self.name = "ARIMA"
        self.detail = "Auto Regressive Integrated Moving Average"
        self.is_high_order = True
        self.has_point_forecasting = True
        self.has_interval_forecasting = True
        self.model = None
        self.model_fit = None
        self.trained_data = None
        self.p = 1
        self.d = 0
        self.q = 0
        self.benchmark_only = True
        self.min_order = 1
        self.alpha = kwargs.get("alpha", 0.05)
        self.shortname += str(self.alpha)

    def train(self, data, sets, order, parameters=None):
        self.p = order[0]
        self.d = order[1]
        self.q = order[2]
        self.order = self.p + self.q
        self.shortname = "ARIMA(" + str(self.p) + "," + str(self.d) + "," + str(self.q) + ") - " + str(self.alpha)

        data = self.doTransformations(data, updateUoD=True)

        old_fit = self.model_fit
        try:
            self.model =  stats_arima(data, order=(self.p, self.d, self.q))
            self.model_fit = self.model.fit(disp=0)
            print(np.sqrt(self.model_fit.sigma2))
        except Exception as ex:
            print(ex)
            self.model_fit = None

    def ar(self, data):
        return data.dot(self.model_fit.arparams)

    def ma(self, data):
        return data.dot(self.model_fit.maparams)

    def forecast(self, data, **kwargs):
        if self.model_fit is None:
            return np.nan

        ndata = np.array(self.doTransformations(data))

        l = len(ndata)

        ret = []

        if self.d == 0:
            ar = np.array([self.ar(ndata[k - self.p: k]) for k in np.arange(self.p, l+1)]) #+1 to forecast one step ahead given all available lags
        else:
            ar = np.array([ndata[k] + self.ar(ndata[k - self.p: k]) for k in np.arange(self.p, l+1)])

        if self.q > 0:
            residuals = np.array([ndata[k] - ar[k - self.p] for k in np.arange(self.p, l)])

            ma = np.array([self.ma(residuals[k - self.q: k]) for k in np.arange(self.q, len(residuals)+1)])

            ret = ar[self.q:] + ma
        else:
            ret = ar

        ret = self.doInverseTransformations(ret, params=[data[self.order - 1:]])

        return ret

    def forecastInterval(self, data, **kwargs):

        if self.model_fit is None:
            return np.nan

        sigma = np.sqrt(self.model_fit.sigma2)

        #ndata = np.array(self.doTransformations(data))

        l = len(data)

        ret = []

        for k in np.arange(self.order, l+1):
            tmp = []

            sample = [data[i] for i in np.arange(k - self.order, k)]

            mean = self.forecast(sample)

            if isinstance(mean,(list, np.ndarray)):
                mean = mean[0]

            tmp.append(mean + st.norm.ppf(self.alpha) * sigma)
            tmp.append(mean + st.norm.ppf(1 - self.alpha) * sigma)

            ret.append(tmp)

        #ret = self.doInverseTransformations(ret, params=[data[self.order - 1:]], point_to_interval=True)

        return ret

    def forecastAheadInterval(self, data, steps, **kwargs):
        if self.model_fit is None:
            return np.nan

        smoothing = kwargs.get("smoothing",0.5)

        sigma = np.sqrt(self.model_fit.sigma2)

        ndata = np.array(self.doTransformations(data))

        l = len(ndata)

        nmeans = self.forecastAhead(ndata, steps, **kwargs)

        ret = []

        for k in np.arange(0, steps):
            tmp = []

            hsigma = (1 + k*smoothing)*sigma

            tmp.append(nmeans[k] + st.norm.ppf(self.alpha) * hsigma)
            tmp.append(nmeans[k] + st.norm.ppf(1 - self.alpha) * hsigma)

            ret.append(tmp)

        ret = self.doInverseTransformations(ret, params=[[data[-1] for a in np.arange(0,steps)]], interval=True)

        return ret

    def forecastAheadDistribution(self, data, steps, **kwargs):
        smoothing = kwargs.get("smoothing", 0.5)

        sigma = np.sqrt(self.model_fit.sigma2)

        ndata = np.array(self.doTransformations(data))

        l = len(ndata)

        percentile_size = (self.original_max - self.original_min)/100

        resolution = kwargs.get('resolution', percentile_size)

        grid = self.get_empty_grid(self.original_min, self.original_max, resolution)

        index = SortedCollection.SortedCollection(iterable=grid.keys())

        ret = []

        nmeans = self.forecastAhead(ndata, steps, **kwargs)

        for k in np.arange(0, steps):
            grid = self.get_empty_grid(self.original_min, self.original_max, resolution)
            for alpha in np.arange(0.05, 0.5, 0.05):
                tmp = []

                hsigma = (1 + k * smoothing) * sigma

                tmp.append(nmeans[k] + st.norm.ppf(alpha) * hsigma)
                tmp.append(nmeans[k] + st.norm.ppf(1 - alpha) * hsigma)

                grid = self.gridCount(grid, resolution, index, tmp)

            tmp = np.array([grid[i] for i in sorted(grid)])

            ret.append(tmp / sum(tmp))

        grid = self.get_empty_grid(self.original_min, self.original_max, resolution)
        df = pd.DataFrame(ret, columns=sorted(grid))
        return df
- new sliding window benchmarks - statsmodels ARIMA wrapper for benchmarks - method refactoring at PWFTS - auto_update at PWFTS - method refactoring at ResidualAnalysis 2017-03-03 15:53:55 +04:00			`#!/usr/bin/python`
			`# -- coding: utf8 --`

			`import numpy as np`
- Implementation of interval and distribution m-step ahead forecasts for arima and quantreg 2017-05-15 21:06:26 +04:00			`import pandas as pd`
- new sliding window benchmarks - statsmodels ARIMA wrapper for benchmarks - method refactoring at PWFTS - auto_update at PWFTS - method refactoring at ResidualAnalysis 2017-03-03 15:53:55 +04:00			`from statsmodels.tsa.arima_model import ARIMA as stats_arima`
- Optimizations for interval distributed benchmarks 2017-05-14 04:03:49 +04:00			`import scipy.stats as st`
- new sliding window benchmarks - statsmodels ARIMA wrapper for benchmarks - method refactoring at PWFTS - auto_update at PWFTS - method refactoring at ResidualAnalysis 2017-03-03 15:53:55 +04:00			`from pyFTS import fts`
- Implementation of interval and distribution m-step ahead forecasts for arima and quantreg 2017-05-15 21:06:26 +04:00			`from pyFTS.common import SortedCollection`
- new sliding window benchmarks - statsmodels ARIMA wrapper for benchmarks - method refactoring at PWFTS - auto_update at PWFTS - method refactoring at ResidualAnalysis 2017-03-03 15:53:55 +04:00

			`class ARIMA(fts.FTS):`
- Several bugfixes - Issue #2 - PEP 8 compliance - Issue #3 - Code documentation with PEP 257 compliance 2017-05-02 18:32:03 +04:00			`"""`
			`Façade for statsmodels.tsa.arima_model`
			`"""`
- Several bugfixes in benchmarks methods and optimizations 2017-05-08 21:49:45 +04:00			`def __init__(self, name, **kwargs):`
- Several bugfixes in benchmarks methods and optimizations 2017-05-08 22:20:16 +04:00			`super(ARIMA, self).__init__(1, "ARIMA"+name)`
- new sliding window benchmarks - statsmodels ARIMA wrapper for benchmarks - method refactoring at PWFTS - auto_update at PWFTS - method refactoring at ResidualAnalysis 2017-03-03 15:53:55 +04:00			`self.name = "ARIMA"`
			`self.detail = "Auto Regressive Integrated Moving Average"`
- Several bugfixes - Issue #2 - PEP 8 compliance - Issue #3 - Code documentation with PEP 257 compliance 2017-05-02 18:32:03 +04:00			`self.is_high_order = True`
- Optimizations for interval distributed benchmarks 2017-05-14 04:03:49 +04:00			`self.has_point_forecasting = True`
			`self.has_interval_forecasting = True`
- new sliding window benchmarks - statsmodels ARIMA wrapper for benchmarks - method refactoring at PWFTS - auto_update at PWFTS - method refactoring at ResidualAnalysis 2017-03-03 15:53:55 +04:00			`self.model = None`
			`self.model_fit = None`
			`self.trained_data = None`
			`self.p = 1`
			`self.d = 0`
			`self.q = 0`
			`self.benchmark_only = True`
- Several bugfixes - Issue #2 - PEP 8 compliance - Issue #3 - Code documentation with PEP 257 compliance 2017-05-02 18:32:03 +04:00			`self.min_order = 1`
- Bugfix on interval forecast of arima 2017-05-14 15:54:41 +04:00			`self.alpha = kwargs.get("alpha", 0.05)`
			`self.shortname += str(self.alpha)`
- new sliding window benchmarks - statsmodels ARIMA wrapper for benchmarks - method refactoring at PWFTS - auto_update at PWFTS - method refactoring at ResidualAnalysis 2017-03-03 15:53:55 +04:00
- Several bugfixes in benchmarks methods and optimizations 2017-05-09 00:50:35 +04:00			`def train(self, data, sets, order, parameters=None):`
- Several bugfixes in benchmarks methods and optimizations 2017-05-08 21:49:45 +04:00			`self.p = order[0]`
			`self.d = order[1]`
			`self.q = order[2]`
- Several bugfixes in benchmarks methods and optimizations 2017-05-09 00:50:35 +04:00			`self.order = self.p + self.q`
- Bugfix on interval forecast of quantreg 2017-05-14 08:19:49 +04:00			`self.shortname = "ARIMA(" + str(self.p) + "," + str(self.d) + "," + str(self.q) + ") - " + str(self.alpha)`
- new sliding window benchmarks - statsmodels ARIMA wrapper for benchmarks - method refactoring at PWFTS - auto_update at PWFTS - method refactoring at ResidualAnalysis 2017-03-03 15:53:55 +04:00
- Bugfix on interval forecast of arima 2017-05-14 15:54:41 +04:00			`data = self.doTransformations(data, updateUoD=True)`

- new sliding window benchmarks - statsmodels ARIMA wrapper for benchmarks - method refactoring at PWFTS - auto_update at PWFTS - method refactoring at ResidualAnalysis 2017-03-03 15:53:55 +04:00			`old_fit = self.model_fit`
- Issue #3 - Code documentation with PEP 257 compliance - Several bugfixes in benchmarks methods and optimizations 2017-05-09 17:27:47 +04:00			`try:`
			`self.model = stats_arima(data, order=(self.p, self.d, self.q))`
			`self.model_fit = self.model.fit(disp=0)`
- Optimizations for interval distributed benchmarks 2017-05-14 04:03:49 +04:00			`print(np.sqrt(self.model_fit.sigma2))`
- Bugfixes in naive, arima and quantreg and optimizations on benchmarks 2017-05-10 02:03:53 +04:00			`except Exception as ex:`
			`print(ex)`
- Issue #3 - Code documentation with PEP 257 compliance - Several bugfixes in benchmarks methods and optimizations 2017-05-09 17:27:47 +04:00			`self.model_fit = None`
- General refactoring to include **kwargs on methods signatures - Ensemble FTS 2017-04-15 02:57:39 +04:00
- Several bugfixes in benchmarks methods and optimizations 2017-05-08 21:49:45 +04:00			`def ar(self, data):`
			`return data.dot(self.model_fit.arparams)`

			`def ma(self, data):`
			`return data.dot(self.model_fit.maparams)`
- General refactoring to include **kwargs on methods signatures - Ensemble FTS 2017-04-15 02:57:39 +04:00
			`def forecast(self, data, **kwargs):`
ARIMA façade for benchmarks; Sliding Window benchmarks; small bugfixes and optimizations 2017-03-22 06:17:06 +04:00			`if self.model_fit is None:`
			`return np.nan`
- Several bugfixes in benchmarks methods and optimizations 2017-05-08 21:49:45 +04:00
			`ndata = np.array(self.doTransformations(data))`

			`l = len(ndata)`

- new sliding window benchmarks - statsmodels ARIMA wrapper for benchmarks - method refactoring at PWFTS - auto_update at PWFTS - method refactoring at ResidualAnalysis 2017-03-03 15:53:55 +04:00			`ret = []`
- Several bugfixes in benchmarks methods and optimizations 2017-05-08 21:49:45 +04:00
- Several bugfixes in benchmarks methods and optimizations 2017-05-09 00:50:35 +04:00			`if self.d == 0:`
- Bugfixes in naive, arima and quantreg and optimizations on benchmarks 2017-05-10 02:03:53 +04:00			`ar = np.array([self.ar(ndata[k - self.p: k]) for k in np.arange(self.p, l+1)]) #+1 to forecast one step ahead given all available lags`
- Several bugfixes in benchmarks methods and optimizations 2017-05-09 00:50:35 +04:00			`else:`
- Bugfixes in naive, arima and quantreg and optimizations on benchmarks 2017-05-10 02:03:53 +04:00			`ar = np.array([ndata[k] + self.ar(ndata[k - self.p: k]) for k in np.arange(self.p, l+1)])`
- Several bugfixes in benchmarks methods and optimizations 2017-05-08 21:49:45 +04:00
- Several bugfixes in benchmarks methods and optimizations 2017-05-09 00:50:35 +04:00			`if self.q > 0:`
			`residuals = np.array([ndata[k] - ar[k - self.p] for k in np.arange(self.p, l)])`
- Several bugfixes in benchmarks methods and optimizations 2017-05-08 21:49:45 +04:00
- Bugfixes in naive, arima and quantreg and optimizations on benchmarks 2017-05-10 02:03:53 +04:00			`ma = np.array([self.ma(residuals[k - self.q: k]) for k in np.arange(self.q, len(residuals)+1)])`
- Several bugfixes in benchmarks methods and optimizations 2017-05-08 21:49:45 +04:00
- Several bugfixes in benchmarks methods and optimizations 2017-05-09 00:50:35 +04:00			`ret = ar[self.q:] + ma`
			`else:`
			`ret = ar`
- Several bugfixes in benchmarks methods and optimizations 2017-05-08 21:49:45 +04:00
			`ret = self.doInverseTransformations(ret, params=[data[self.order - 1:]])`

- Optimizations for interval distributed benchmarks 2017-05-14 04:03:49 +04:00			`return ret`

			`def forecastInterval(self, data, **kwargs):`

			`if self.model_fit is None:`
			`return np.nan`

			`sigma = np.sqrt(self.model_fit.sigma2)`

- Bugfix on interval forecast of arima 2017-05-14 15:54:41 +04:00			`#ndata = np.array(self.doTransformations(data))`
- Optimizations for interval distributed benchmarks 2017-05-14 04:03:49 +04:00
- Bugfix on interval forecast of arima 2017-05-14 15:54:41 +04:00			`l = len(data)`
- Optimizations for interval distributed benchmarks 2017-05-14 04:03:49 +04:00
			`ret = []`

			`for k in np.arange(self.order, l+1):`
			`tmp = []`

- Bugfix on interval forecast of arima 2017-05-14 15:54:41 +04:00			`sample = [data[i] for i in np.arange(k - self.order, k)]`
- Optimizations for interval distributed benchmarks 2017-05-14 04:03:49 +04:00
- Bugfix on interval forecast of arima 2017-05-14 15:54:41 +04:00			`mean = self.forecast(sample)`

			`if isinstance(mean,(list, np.ndarray)):`
			`mean = mean[0]`
- Optimizations for interval distributed benchmarks 2017-05-14 04:03:49 +04:00
			`tmp.append(mean + st.norm.ppf(self.alpha) * sigma)`
			`tmp.append(mean + st.norm.ppf(1 - self.alpha) * sigma)`

			`ret.append(tmp)`

- Implementation of interval and distribution m-step ahead forecasts for arima and quantreg 2017-05-15 21:06:26 +04:00			`#ret = self.doInverseTransformations(ret, params=[data[self.order - 1:]], point_to_interval=True)`
- Optimizations for interval distributed benchmarks 2017-05-14 04:03:49 +04:00
			`return ret`

			`def forecastAheadInterval(self, data, steps, **kwargs):`
			`if self.model_fit is None:`
			`return np.nan`

- Implementation of interval and distribution m-step ahead forecasts for arima and quantreg 2017-05-15 21:06:26 +04:00			`smoothing = kwargs.get("smoothing",0.5)`
- Optimizations for interval distributed benchmarks 2017-05-14 04:03:49 +04:00
			`sigma = np.sqrt(self.model_fit.sigma2)`

			`ndata = np.array(self.doTransformations(data))`

			`l = len(ndata)`

- Implementation of interval and distribution m-step ahead forecasts for arima and quantreg 2017-05-15 21:06:26 +04:00			`nmeans = self.forecastAhead(ndata, steps, **kwargs)`
- Optimizations for interval distributed benchmarks 2017-05-14 04:03:49 +04:00
			`ret = []`

			`for k in np.arange(0, steps):`
			`tmp = []`

			`hsigma = (1 + ksmoothing)sigma`

- Implementation of interval and distribution m-step ahead forecasts for arima and quantreg 2017-05-15 21:06:26 +04:00			`tmp.append(nmeans[k] + st.norm.ppf(self.alpha) * hsigma)`
			`tmp.append(nmeans[k] + st.norm.ppf(1 - self.alpha) * hsigma)`
- Optimizations for interval distributed benchmarks 2017-05-14 04:03:49 +04:00
			`ret.append(tmp)`

- Implementation of interval and distribution m-step ahead forecasts for arima and quantreg 2017-05-15 21:06:26 +04:00			`ret = self.doInverseTransformations(ret, params=[[data[-1] for a in np.arange(0,steps)]], interval=True)`

			`return ret`

			`def forecastAheadDistribution(self, data, steps, **kwargs):`
			`smoothing = kwargs.get("smoothing", 0.5)`

			`sigma = np.sqrt(self.model_fit.sigma2)`

			`ndata = np.array(self.doTransformations(data))`

			`l = len(ndata)`

			`percentile_size = (self.original_max - self.original_min)/100`

			`resolution = kwargs.get('resolution', percentile_size)`

			`grid = self.get_empty_grid(self.original_min, self.original_max, resolution)`

			`index = SortedCollection.SortedCollection(iterable=grid.keys())`

			`ret = []`

			`nmeans = self.forecastAhead(ndata, steps, **kwargs)`

			`for k in np.arange(0, steps):`
			`grid = self.get_empty_grid(self.original_min, self.original_max, resolution)`
			`for alpha in np.arange(0.05, 0.5, 0.05):`
			`tmp = []`

			`hsigma = (1 + k * smoothing) * sigma`

			`tmp.append(nmeans[k] + st.norm.ppf(alpha) * hsigma)`
			`tmp.append(nmeans[k] + st.norm.ppf(1 - alpha) * hsigma)`

			`grid = self.gridCount(grid, resolution, index, tmp)`

			`tmp = np.array([grid[i] for i in sorted(grid)])`

			`ret.append(tmp / sum(tmp))`
- Optimizations for interval distributed benchmarks 2017-05-14 04:03:49 +04:00
- Implementation of interval and distribution m-step ahead forecasts for arima and quantreg 2017-05-15 21:06:26 +04:00			`grid = self.get_empty_grid(self.original_min, self.original_max, resolution)`
			`df = pd.DataFrame(ret, columns=sorted(grid))`
			`return df`