🧜🏽 🐩 👩‍🍳 Zusammenfassung zu Prognosemethoden 🚈 👩🏼‍🚀 🕝

Dieser Text ist eine Fortsetzung einer Reihe von Artikeln, die einer kurzen Beschreibung der wichtigsten Methoden der Datenanalyse gewidmet sind. Das letzte Mal, als wir Klassifizierungsmethoden behandelt haben, werden wir jetzt Prognosemethoden in Betracht ziehen. Unter Prognose verstehen wir die Suche nach einer bestimmten Zahl, die voraussichtlich für eine neue Beobachtung oder für zukünftige Zeiträume erhalten wird. Der Artikel listet die Namen der Methoden, ihre kurze Beschreibung und ein Python-Skript auf. Ein Abstract kann vor einem Interview, in einem Wettbewerb oder beim Starten eines neuen Projekts nützlich sein. Es wird davon ausgegangen, dass das Publikum diese Methoden kennt, sie jedoch schnell im Speicher aktualisieren muss.

Regression der kleinsten Quadrate . Es wird versucht, die Abhängigkeit eines Faktors von einem anderen in Form einer Gleichung darzustellen. Die Koeffizienten werden durch Minimieren der Verlustfunktion (Fehler) geschätzt.

\sum_{i = 1}^{n} (y_{i} - (a x_{i} + b))^{2} \to m i n

$\sum_{i=1}^n (y_i-(ax_i+b))^2 → min$

Wenn Sie diese Gleichung lösen, können Sie die geschätzten Parameter finden:

a = \frac{n \sum_{i = 0}^{n} x_{i} y_{i} - \sum_{i = 0}^{n} x_{i} \sum_{i = 0}^{n} y_{i}}{n \sum_{i = 0}^{n} x_{i}^{2} - (\sum_{i = 0}^{n} x_{i})^{2}}

$a = \frac{n\sum_{i=0}^n x_i y_i - \sum_{i=0}^n x_i \sum_{i=0}^n y_i}{n\sum_{i=0}^n x_i^2 - (\sum_{i=0}^n x_i)^2}$

b = \frac{\sum_{i = 0}^{n} y_{i} - a \sum_{i = 0}^{n} x_{i}}{n}

$b = \frac{\sum_{i=0}^n y_i - a\sum_{i=0}^n x_i }{n}$

Grafische Darstellung:

Wenn die Daten Gauß-Markov-Eigenschaften haben:

$E(ε_i)=0$ - Die mathematische Erwartung eines Fehlers ist 0
$σ^2(ε_i)=const$ - Homoskedastizität
$cov(ε_i,ε_j)=0,i≠j$ - Mangel an Multikollinearität
$x_i$ - ermittelter Wert
$ε \sim N(0,σ^2)$ - Der Fehler ist normal verteilt

Nach dem Gauß-Markov-Theorem haben Schätzungen dann die folgenden Eigenschaften:

Linearität - Bei einer linearen Transformation des Vektors Y ändern sich die Schätzungen auch linear.
Unvoreingenommen - mit zunehmender Stichprobengröße tendiert die mathematische Erwartung zum wahren Wert.
Konsistenz - Mit zunehmender Stichprobengröße tendieren Schätzungen zu ihrem wahren Wert.
Effizienz - Schätzungen weisen die geringste Varianz auf.
Normalität - Noten sind normal verteilt.

 #imports
import statsmodels.api as sm

#model fit
Y = [1,3,4,5,2,3,4]
X = range(1,8)
X = sm.add_constant(X)
model = sm.OLS(Y,X)
results = model.fit()

#result
print(results.summary())
results.predict(X)

- Generalisierte GLS . Es wird verwendet, wenn die Gauß-Markov-Bedingungen für die Homoskedastizität (konstante Dispersion) von Resten und die Nichtkorrelation von Resten untereinander nicht erfüllt sind. Das Ziel von GLS ist es, die Werte der Kovarianzmatrix der Residuen durch Anpassen der Berechnung der Parameter der Regressionsgleichung zu berücksichtigen. Matrix der geschätzten Parameter:

a^{*} = (X^{T} Ω^{- 1} X)^{- 1} X^{T} Ω^{- 1} Y

$a^* = (X^TΩ^{-1}X)^{-1}X^TΩ^{-1}Y$

Dabei ist Ω die Kovarianzmatrix der Residuen. Beachten Sie, dass wir für Ω = 1 die üblichen kleinsten Quadrate erhalten

 #imports
import statsmodels.api as sm
from scipy.linalg import toeplitz

#model fit
data = sm.datasets.longley.load(as_pandas=False)
data.exog = sm.add_constant(data.exog)
ols_resid = sm.OLS(data.endog, data.exog).fit().resid
res_fit = sm.OLS(ols_resid[1:], ols_resid[:-1]).fit()
rho = res_fit.params
order = toeplitz(np.arange(16))
sigma = rho**order
gls_model = sm.GLS(data.endog, data.exog, sigma=sigma)
gls_results = gls_model.fit()

#result
print(gls_results.summary())
gls_results.predict

- wls. , ( ) , , .

 #imports
import statsmodels.api as sm

#model fit
Y = [1,3,4,5,2,3,4]
X = range(1,8)
X = sm.add_constant(X)
wls_model = sm.WLS(Y,X, weights=list(range(1,8)))
results = wls_model.fit()

#result
print(results.summary())
results.predict

- tsls. wls, , , , wls. .

 #imports
from linearmodels import IV2SLS, IVLIML, IVGMM, IVGMMCUE
from linearmodels.datasets import meps
from statsmodels.api import OLS, add_constant

#model fit
data = meps.load()
data = data.dropna()
controls = ['totchr', 'female', 'age', 'linc','blhisp']
instruments = ['ssiratio', 'lowincome', 'multlc', 'firmsz']
data['const'] = 1
controls = ['const'] + controls
ivolsmod = IV2SLS(data.ldrugexp, data[['hi_empunion'] + controls], None, None)
res_ols = ivolsmod.fit()

#result
print(res_ols)
print(res_ols.predict)

-ARIMA. . Auto-regression ( Y ) integrated ( — , ) moving average ( ).

 #imports
from pandas import read_csv
from pandas import datetime
from pandas import DataFrame
from statsmodels.tsa.arima_model import ARIMA
from matplotlib import pyplot

#model fit
def parser(x):
	return datetime.strptime('190'+x, '%Y-%m')

series = read_csv('shampoo-sales.csv', header=0, parse_dates=[0], index_col=0, squeeze=True, date_parser=parser)
model = ARIMA(series, order=(5,1,0))
model_fit = model.fit(disp=0)

#result
print(model_fit.summary())
model_fit.forecast()

- GARCH . Allgemeine autoregression bedingte Heteroskedastik - wird verwendet, wenn in der Zeitreihe Heteroskedastizität vorliegt.

 #imports
import pyflux as pf
import pandas as pd
from pandas_datareader import DataReader
from datetime import datetime

#model fit
jpm = DataReader('JPM',  'yahoo', datetime(2006,1,1), datetime(2016,3,10))
returns = pd.DataFrame(np.diff(np.log(jpm['Adj Close'].values)))
returns.index = jpm.index.values[1:jpm.index.values.shape[0]]
returns.columns = ['JPM Returns']

#result
model = pf.GARCH(returns,p=1,q=1)
x = model.fit()
x.summary()

Wenn Sie eine wichtige Methode verpasst haben, schreiben Sie bitte in den Kommentaren darüber und der Artikel wird ergänzt. Vielen Dank für Ihre Aufmerksamkeit.

Zusammenfassung zu Prognosemethoden

More articles: