Анализ временных рядов

В примерах в данной статье данные генерятся при каждой загрузке страницы. Если Вы хотите посмотреть пример с другими значениями -обновите страницу .

online-инструмент

Составляющие временного ряда

При анализе временного ряда выделяют три составляющие: тренд, сезонность и шум. Тренд - это общая тенденция, сезонность, как следует из названия - влияния периодичности (день недели, время года и т.д.) и, наконец, шум - это случайные факторы.

Что бы понять отличие этих трёх величин, смоделируем функцию расстояния от земли до луны. Известно, что в среднем луна каждый год отдаляется на 4 см - это тренд, в течение дня луна совершает оборот вокруг земли и расстояние колеблется от ~362600 км до ~405400 км - это сезонность. Шум - это "случайные" факторы, например, влияние других планет. Если мы изобразим сумму этих трёх графиков, то мы получим временной ряд - функцию, показывающую изменение расстояния от земли до луны во времени.

График 1. Тренд

График 2. Сезонность

График 3. Шум

Тренд. Методы сглаживания

Методы сглаживания необходимы для удаления шума из временного ряда. Существуют различные способы сглаживания, основные - это метод скользящей средней и метод экспоненциального сглаживания.

Метод скользящей средней

Идея метода скользящего среднего заключается в смещении точки графика на среднее значение некоторого интервала. В качестве интервала берут нечётное количество участков, например, три - предыдущий, текущий и следующий периоды, находится среднее и принимается в качестве сглаженного значения:

S_i = Σ^k_j=-k(x_i+j)/(2k+1)

У данного метода есть проблема: случайное высокое или низкое значение сильно влияют на скользящую линию. В качестве решения были введены веса. Для распределение веса используют оконные функции, основные оконные функции - это окно Дирихле (прямоугольная функция), В-сплайны, полиномы, синусоидальные и косинусоидальные:

График 4. Окно Ганна для n=5 (косинусоидальное окно)

График 5. Синусоидальное окно для n=5

Минусы использования скользящей средней - это сложность вычислений и некорректные данные на концах графика.

Исходные данные	Скользящая средняя	Взвешенная скользящая средняя (синусоидальное окно, n=5)	Взвешенная скользящая средняя (окно Ганна, n=5)
800	818	283	0
835	821	463	400
828	925	497	418
1235	935	573	414
840	1100	604	618
1495	1292	693	420
1598	1511	805	748
2109	1749	1037	799
1792	1696	1127	1055
1286	1992	1048	896
2780	1962	1130	643
1988	2173	1274	1390
2636	2448	1454	994
2386	2628	1432	1318
3502	2980	1682	1193
3395	3049	1897	1751
2912	3060	1983	1698
2432	2614	1758	1456
1718	2669	1426	1216
3612	2587	1997	859
Таблица 1. Сглаживание методом скользящей средней

График 6. Сглаживание скользящей средней. Красный - исходные данные, персиковый - скользящая средняя, жёлтая и охра - скользящая средняя, взвешенная синусоидальным окном с n=7 и n=3 соответственно

Как видно из графика, увеличение n выдаёт более плавную функцию, таким образом нивелируя более мелкие колебания во временном ряду. Обратите внимание, что при сглаживании не имеет значения, совпадает график среднего с графиком данных или нет, целью является построение правильной формы.

Метод экспоненциального сглаживания

Метод экспоненциального сглаживания получил своё название потому, что в сглаженной функции экспоненциально убывает влияние предыдущего периода с неким коэффициентом чувствительности α. Сглаженное значение находится как разница между предыдущим действительным значением и рассчитанным значением:

D'_t = α·D_t-1 + (1-α)·D'_t-1

Коэффициент чувствительности, α, выбирается между 0 и 1, в качестве базиса используют значение 0,3. Если есть достаточная выборка, то коэффициент подбирается путём оптимизации.

Исходные данные	Экспоненциальное сглаживание, α=0,1	Экспоненциальное сглаживание, α=0,6
800	800	800
835	-640	160
828	660	437
1235	-511	322
840	583	612
1495	-441	259
1598	546	793
2109	-332	642
1792	510	1009
1286	-280	672
2780	381	503
1988	-65	1467
2636	257	606
2386	32	1339
3502	210	896
3395	161	1743
2912	195	1340
2432	116	1211
1718	139	975
3612	47	641
Таблица 2. Экспоненциальное сглаживание

График 7. Экспоненциальное сглаживание с α=0,1 (персиковая линия) и α=0,6 (жёлтая линия)

Методы прогнозирования

Методы прогнозирования основываются на выявлении тенденции во временном ряду и последующем использовании найденного значения для предсказания будущих значений. В методах прогнозирования выделяют тренд и сезонность, в общем случае, все типы сезонности могут быть найдены последовательными итерациями. Например, при анализе данных за год, можно выделить сезонность времени года, а в оставшемся тренде найти сезонность по дням недели и так далее.

Двойное экспоненциальное сглаживание

Двойное экспоненциальное сглаживание выдаёт сглаженное значение уровня и тенденции.

Внимание! Может возникнуть путаница, метод Хольт-Винтерса отличается терминами: тренд, сезонность и шум соответственно называются уровень, тренд и сезонность.

Smooth - сглаживание, сглаженный уровень на период τ, s_τ, зависит от значения уровня на текущий период (D_τ), тренда за предыдущий период (t_τ-1) и рассчитанного сглаженного значения на предыдущий период (s_τ-1):
s_τ = αD_τ + (1 - α)(s_τ-1 + t_τ-1)

Trend - тенденция, тренд на период τ, t_τ, зависит от рассчитанного сглаженного значения за предыдущий и текущий периоды (s_τ и s_τ-1) и от предыдущей тенденции:
t_τ = β(s_τ-s_τ-1) + (1-β)t_τ-1

Рассчитанные по данным формулам уровень и тренд могут быть использованы в прогнозировании:
D'_τ+h = s_τ + h·t_τ

При расчёте, значения s и t для первого периода назначают s₁ = D₁ и t=0

График 8. Данные (персиковая линия), экспоненциальное сглаживание - уровень (жёлтая линия), тренд (линия цвета охры) и прогноз (чёрная линия) методом экспоненциального сглаживания

Метод Хольт-Винтерса

Метод Хольт-Винтерса включает в себя сезонную составляющую, т.е. периодичность. Существуют две разновидности метода - мультипликативный и аддитивный. В отличие от двойного экспоненциального сглаживания, метод Хольт-Винтерса изучает также влияние периодичности.

Общая идея нахождения значений сглаженного уровня, тренда и периодичности заключается в следующем: сглаженный уровень (s - smooth, иногда используют l - level) - это базовый уровень значений, тренд (t - trend) - это показатель скорости роста, разница между сглаженными значениями текущего и предыдущего периода. Для изучения периодичности (p - period), мы разбиваем данные на периоды размером k и выделяем влияние каждого элемента (1,2,...,k) периода на сглаженный уровень.

Для более точных расчётов вводится показатель обратной связи.

В общем понимании, обратная связь - это влияние предыдущих значений на новые: например, когда Вы начинаете говорить, Вы регулируете громкость своего голоса в зависимости от того, что слышат Ваши уши - это и есть обратная связь.

Для начала расчётов, значения s, t и k, в самом простом виде, могут быть выбраны как s_τ = D_τ, t = 0, p = 0.

k - длина выбранного периода:
s_τ = α(D_τ - p_τ-k) + (1 - α)(s_τ-1 + t_τ-1)

С поправкой на предыдущие значения t_τ-k (обратная связь)
t_τ = β(s_τ-s_τ-1) + (1-β)t_τ-1

С поправкой на предыдущие значения p_τ-k (обратная связь)
p_τ = γ(D_τ - s_τ) + (1-γ)p_τ-k

Для прогнозирования используется следующая формула:

x_τ+h = D_τ + ht_τ + p_τ-k+h

Мультипликативный метод Хольт-Винтерса

Мультипликативный метод отличается от аддитивного тем, что параметры, влияющие на периодичность и сглаженный уровень рассчитываются отношением:

p_τ = γ(D_τ/s_τ) + (1-γ)p_τ-k
s_τ = α(D_τ/p_τ-k) + (1 - α)(s_τ-1 + t_τ-1)
t_τ = β(s_τ-s_τ-1) + (1-β)t_τ-1

Для прогнозирования используется следующая формула:

x_τ+h = (D_τ + ht_τ)p_τ-k+h

Метод Хольт-Винтерса в excel

Таблица для скачивания в форматах ods и xls.

Качество прогнозирования

Проверка качества прогнозирования возможна в случае наличия достаточной выборки и является важной проверкой на достоверность прогноза, для проверки и оптимизации значений α, β и γ необходимо построить прогноз на существующие данные, например, если у нас в наличии данные за пять лет и мы хотим предсказать следующий год, то необходимо построить модель на первых четырёх годах, проверить и оптимизировать коэффициенты для минимизации ошибки между прогнозом и данными на 5й год. После оптимизации модель может быть перестроена с учётом последнего периода для повышения точности, далее следует построение прогноза.

Методы оптимизации будут описаны в отдельной статье, ниже представлен пример прогнозирования методом Хольт Винтерса.

График 9. Данные о посещаемости сайта за четыре недели

#	Данные	s	t	p	s	t	p
1	93	93	0	0	93	0	0
2	91	92	-0.1	-0.5	92	-0.1	0.99
3	72	84	-0.89	-6	84	-0.89	0.93
4	75	80	-1.2	-2.5	80	-1.2	0.97
5	75	77	-1.38	-1	77	-1.38	0.99
6	57	68	-2.14	-5.5	68	-2.14	0.92
7	66	66	-2.13	0	66	-2.13	1
8	123	88	0.28	17.5	38	-4.72	1.62
9	85	87	0.15	-1.25	54	-2.65	1.28
10	85	89	0.34	-5	67	-1.08	1.1
11	91	91	0.51	-1.25	77	0.03	1.08
12	102	96	0.96	2.5	87	1.03	1.08
13	73	90	0.26	-11.25	85	0.73	0.89
14	60	78	-0.97	-9	75	-0.34	0.9
15	99	79	-0.77	18.75	69	-0.91	1.53
16	108	91	0.51	7.88	75	-0.22	1.36
17	98	96	0.96	-1.5	81	0.4	1.15
18	104	100	1.26	1.38	87	0.96	1.14
19	83	93	0.43	-3.75	84	0.56	1.03
20	68	88	-0.11	-15.63	81	0.2	0.86
21	62	81	-0.8	-14	76	-0.32	0.86
22	59	64	-2.42	6.88	61	-1.79	1.25
23	80	66	-1.98	10.94	59	-1.81	1.36
24	121	87	0.32	16.25	76	0.07	1.37
25	112	97	1.29	8.19	85	0.96	1.23
26	85	94	0.86	-6.38	85	0.86	1.02
27	106	106	1.97	-7.82	101	2.37	0.95
28	82	103	1.47	-17.5	100	2.03	0.84

График 9. Пример предсказания посещаемости сайта на основе данных за четыре недели. Жёлтая линия - исходные данные, красная - прогноз на пятую неделю на основе первых четырёх. Закрашена линия сглаженного уровня при α=0.4, β=0.1, γ=0.5

Скачать статью в формате PDF.

Автор статьи: Zakhar Telyatnikov
Дата редакции статьи: 04.09.2025

10.06.2017

Вам понравилась статья? /

Seen: 52 805

Рейтинг: 5 (57 голосов)

Читать следующую
Метод Монте-Карло