Дисперсионный анализ

В примерах в данной статье данные генерятся при каждой загрузке страницы. Если Вы хотите посмотреть пример с другими значениями -обновите страницу .

ANOVA

ANOVA в статистике - это мощный инструмент для определения влияния различных групп наблюдений между собой. Дисперсионный анализ был введён Фишером - английским учёным, сделавшим огромный вклад в развитие науки. ANOVA - это акроним от ANalysis Of VAriance (дисперсионный анализ).

Пример

Предположим, Вы хотите эмпирическим методом провести исследование бензина на качество, для этого вы заправляете бак на одной заправке и проезжаете n километров, повторяете такой эксперимент, скажем, пять раз, затем проводите такой же эксперимент, только на другой заправке. У Вас два набора данных - заправка A и заправка B. Разумеется, цифры разбегаются, но всё же есть некоторая зависимость, так вот, что бы определить, влияет ли заправка на расход бензина (или данные не связаны между собой) Вы используете дисперсионный анализ.

Дисперсионный анализ позволяет определить какой из факторов влияет больше, внутригрупповой или межгрупповой. В примере выше Вы сможете определить, насколько влияет на расход бензина выбор заправки. В этом суть дисперсионного анализа: узнать, является ли выбранный фактор значимым для выбранных наблюдений.

В некотором смысле, дисперсионный анализ похож на регрессионный и корреляционный анализы, т.к. позволяет определить влияние переменных друг на друга.

Анализ

В теории, для анализа дисперсии выстраивается простая модель, схожая с изучаемой в анализе временых рядов.

Модель

Модель дисперсионного анализа включает в себя среднее значение, эффект эксперимента и случайную ошибку:

y = μ + τ + ε
τ - эффект эксперимента, ε - случайная ошибка

Однофакторный

Однофакторный дисперсионный анализ рассматривает влияние одного критерия, делается это так: мы проводим два эксперимента, в одном из них включаем дополнительный фактор и анализируем, внёс ли этот фактор изменения. В качестве исходных данных рассмотрим результаты ряда экспериментов:

N	E₁	E₂	E₃	E₄
1	60	40	72	56
2	39	57	102	53
3	34	30	131	43
4	53	58	81	46
5	32	34	87	34
μ_i	43.6	43.8	94.6	46.4

μ = (43.6 + 43.8 + 94.6 + 46.4) / 4 = 57.1
Квадрат ошибок внутри групп (Square Sum within group):
SS_w = Σ_iΣ_j(y_ij - μ_i)² = 3716.4
Квадрат ошибок между группами (Square Sum between group):
SS_b = Σ_i(μ_i - μ)² = 1879.88
Учитывая степени свободы, ожидаемое среднее:
MS_w = SS_w / a(n-1) = 247.76
MS_b = SS_b / a-1 = 469.97
Значение F_крит :
F₀ = MS_b/MS_w = 1.897

Тест Фишера: если значение F₀ окажется больше чем значение F _λ,4,15, значит фактор оказывает влияние.

Для n = 20 и a = 5, F_λ,n-a,a-1 = F_λ,15,4 = 5,86
Поскольку F₀ = 1.897 < 5.86, то принимаем, что введённый фактор не оказал влияния на результаты эксперимента.

Двухфакторный

При двухфакторном анализе выдвигаются три гипотезы на проверку:

Факторы А и В не оказывают влияния на результат
Фактор А не оказывает влияния на результат
Фактор B не оказывает влияния на результат

Для проведения двухфакторного анализа необходимо составить группы результатов: несколько измерений для всех значения каждого из факторов, т.е.:

	A₁	A₂
B₁	X1_a1,b1...XN_a1,b1	X1_a1,b2...XN_a1,b2
B₂	X1_a1,b2...XN_a1,b2	X1_a1,b2...XN_a1,b2

Далее подсчитывается среднее значение для каждого значения факторов, т.е. среднее для A1, среднее для В1 и т.д. Затем подсчитывается общее среднее для всех результатов. Зададимся количеством критериев: k = 2 (количество критериев А) и m = 2 (количество критериев В).

T = ΣΣΣx_ijk
Сумма элементов под влиянием фактора A:
T_Ai = Σx_i·k
Сумма элементов под влиянием фактора B:
T_Bj = Σx_·jk
Сумма элементов под влиянием фактора AB:
T_AiBj = Σx_ij·
SST = Σx²_ijk - T²/N
SSA = ΣT²_Ai/n·m - T²/N
SSB = ΣT²_Bj/n·k - T²/N
SSAB = ΣΣT²_AiBj/n - SSA - SSB - T²/N
SSE = ΣΣΣx²_ijk - ΣΣT²_AiBj/n

SST = SSA + SSB + SSAB + SSE

MSE = SSE/(n-1)·m·k
MSA = SSA/k-1
MSB = SSB/m-1
MSAB = SSAB/(m-1)·(k-1)
Тест "Критерий A не оказывает влияние на результат", ν₁ = k-1:
F_A = MS_A/MS_E
Тест "Критерий B не оказывает влияние на результат", ν₁ = m-1:
F_B = MS_B/MS_E
Тест "Критерии A и B не оказывают влияние на результат", ν₁ = (k-1)(m-1):
F_int = MS_AB/MS_E

Для каждого F, если F > F _{α,ν₁,ν₂}, то гипотеза отвергается. ν₂ = N-mk

Многофакторный

Многофакторный анализ аналогичен двухфакторному - проводятся те же операции, но критерии группируются и итеративно находится влияние каждого из факторов.

С повторными измерениями

Дисперсионный анализ с повторными измерениями озночает, что для каждого критерия производилось несколько замеров случайной величины для получения более точного результата (поскольку в ANOVA) используется внутригрупповая сумма квадратов.

Применение

Дисперсионный анализ применяют в самых различных отраслях науки и производства тогда, когда необходимо изучить зависимость критериев на различие средних значений, при этом сравнивается не среднее значение, а разброс результатов вокруг среднего значения, т.е. дисперсию.

Решение задач

В качестве примера приведём задачу из метрологии. На заводе размещены пять станков, на которых производят валы. Необходимо определить, влияет ли выбор станка или подготовка работника на результат производства. Для анализа производят замеры для каждого станка и работника, в результате получается таблица:

Оператор 1
М1	30.396	30.427	30.331	30.353	30.56	30.557	30.442	30.527	30.44	30.513
М2	30.384	30.4	30.3	30.327	30.304	30.379	30.349	30.343	30.317	30.36
М3	30.323	30.336	30.335	30.383	30.396	30.323	30.323	30.362	30.346	30.375
М4	30.358	30.314	30.371	30.363	30.373	30.368	30.389	30.339	30.371	30.311
М5	30.321	30.776	30.521	30.474	30.863	30.498	30.829	30.906	30.823	30.434
Оператор 2
М1	30.308	30.337	30.343	30.305	30.389	30.368	30.359	30.395	30.365	30.349
М2	30.398	30.389	30.359	30.304	30.334	30.355	30.396	30.31	30.386	30.354
М3	30.387	30.377	30.468	30.481	30.418	30.48	30.436	30.398	30.353	30.417
М4	30.395	30.399	30.369	30.492	30.371	30.369	30.48	30.549	30.466	30.333
М5	30.493	30.425	30.462	30.436	30.685	30.696	30.455	30.512	30.481	30.311

Воспользуемся методом двухфакторного анализа, фактор А - оператор, фактор В - станок. Рассчитаем суммы квадратов, для этого необходимо рассчитать значение среднего для каждой из групп:

T	T_A1	T_A2	T_B1	T_B2	T_B3	T_B4	T_B5
3042.01	1521.513	1520.497	608.064	607.048	607.717	607.78	611.401

SSA = 0.01
SSB = 0.59
SSAB = 0.202
SSE = 0.7

MSA = 0.01
MSB = 0.148
MSAB = 0.051
MSE = 0.175

F_A = 0.057
F_B = 0.846
F_AB = 0.291

Критические значения для теста Фишера:
F_{crit A} = F_{0.1, 1, 90} = 2.77
F_{crit B} = F_{0.1, 4, 90} = 2.01
F_{crit AB} = F_{0.1, 4, 90} = 2.01

Таблица результатов:

Влияние станка на результат	Да	0.057 < 2.77
Влияние квалификации работника на результат	Да	0.846 < 2.01
Взаимное влияние квалификации работника и выбора станка на результат	Да	0.291 < 2.01

В excel/Open Calc

Для решения дисперсионного анализа в электронной таблице Вам потребуются следующие формулы:

sumproduct	Сумма произведений, используется для нахождения суммы квадратов
finv	Обратное значение распределения F - критерий Фишера

Таблица для скачивания в форматах ods и xls.

Скачать статью в формате PDF.

Автор статьи: Zakhar Telyatnikov
Дата редакции статьи: 23.10.2023

30.06.2017

Вам понравилась статья? /

Seen: 12 542

Рейтинг: 5 (36 голосов)