ANOVA
ANOVA в статистике - это мощный инструмент для определения влияния различных групп наблюдений между собой. Дисперсионный анализ был введён Фишером - английским учёным, сделавшим огромный вклад в развитие науки. ANOVA - это акроним от ANalysis Of VAriance (дисперсионный анализ).
Пример
Предположим, Вы хотите эмпирическим методом провести исследование бензина на качество, для этого вы заправляете бак на одной заправке и проезжаете n километров, повторяете такой эксперимент, скажем, пять раз, затем проводите такой же эксперимент, только на другой заправке. У Вас два набора данных - заправка A и заправка B. Разумеется, цифры разбегаются, но всё же есть некоторая зависимость, так вот, что бы определить, влияет ли заправка на расход бензина (или данные не связаны между собой) Вы используете дисперсионный анализ.
Дисперсионный анализ позволяет определить какой из факторов влияет больше, внутригрупповой или межгрупповой. В примере выше Вы сможете определить, насколько влияет на расход бензина выбор заправки. В этом суть дисперсионного анализа: узнать, является ли выбранный фактор значимым для выбранных наблюдений.
В некотором смысле, дисперсионный анализ похож на регрессионный и корреляционный анализы, т.к. позволяет определить влияние переменных друг на друга.
Анализ
В теории, для анализа дисперсии выстраивается простая модель, схожая с изучаемой в анализе временых рядов.
Модель
Модель дисперсионного анализа включает в себя среднее значение, эффект эксперимента и случайную ошибку:
y = μ + τ + ε
τ - эффект эксперимента, ε - случайная ошибка
Однофакторный
Однофакторный дисперсионный анализ рассматривает влияние одного критерия, делается это так: мы проводим два эксперимента, в одном из них включаем дополнительный фактор и анализируем, внёс ли этот фактор изменения. В качестве исходных данных рассмотрим результаты ряда экспериментов:
N | E1 | E2 | E3 | E4 |
---|---|---|---|---|
1 | 47 | 57 | 94 | 47 |
2 | 52 | 34 | 106 | 32 |
3 | 34 | 33 | 104 | 53 |
4 | 49 | 52 | 127 | 52 |
5 | 56 | 30 | 73 | 47 |
μi | 47.6 | 41.2 | 100.8 | 46.2 |
μ = (47.6 + 41.2 + 100.8 + 46.2) / 4 = 58.95
Квадрат ошибок внутри групп (Square Sum within group):
SSw = ΣiΣj(yij - μi)2 = 2713.6
Квадрат ошибок между группами (Square Sum between group):
SSb = Σi(μi - μ)2 = 2357.87
Учитывая степени свободы, ожидаемое среднее:
MSw = SSw / a(n-1) = 180.91
MSb = SSb / a-1 = 589.47
Значение Fкрит :
F0 = MSb/MSw = 3.258
Тест Фишера: если значение F0 окажется больше чем значение F λ,4,15, значит фактор оказывает влияние.
Для n = 20 и a = 5, Fλ,n-a,a-1 = Fλ,15,4 = 5,86
Поскольку F0 = 3.258 < 5.86, то принимаем, что введённый фактор не оказал влияния на результаты эксперимента.
Двухфакторный
При двухфакторном анализе выдвигаются три гипотезы на проверку:
- Факторы А и В не оказывают влияния на результат
- Фактор А не оказывает влияния на результат
- Фактор B не оказывает влияния на результат
Для проведения двухфакторного анализа необходимо составить группы результатов: несколько измерений для всех значения каждого из факторов, т.е.:
A1 | A2 | |
---|---|---|
B1 | X1a1,b1...XNa1,b1 | X1a1,b2...XNa1,b2 |
B2 | X1a1,b2...XNa1,b2 | X1a1,b2...XNa1,b2 |
Далее подсчитывается среднее значение для каждого значения факторов, т.е. среднее для A1, среднее для В1 и т.д. Затем подсчитывается общее среднее для всех результатов. Зададимся количеством критериев: k = 2 (количество критериев А) и m = 2 (количество критериев В).
T = ΣΣΣxijk
Сумма элементов под влиянием фактора A:
TAi = Σxi·k
Сумма элементов под влиянием фактора B:
TBj = Σx·jk
Сумма элементов под влиянием фактора AB:
TAiBj = Σxij·
SST = Σx2ijk - T2/N
SSA = ΣT2Ai/n·m - T2/N
SSB = ΣT2Bj/n·k - T2/N
SSAB = ΣΣT2AiBj/n - SSA - SSB - T2/N
SSE = ΣΣΣx2ijk - ΣΣT2AiBj/n
SST = SSA + SSB + SSAB + SSE
MSE = SSE/(n-1)·m·k
MSA = SSA/k-1
MSB = SSB/m-1
MSAB = SSAB/(m-1)·(k-1)
Тест "Критерий A не оказывает влияние на результат", ν1 = k-1:
FA = MSA/MSE
Тест "Критерий B не оказывает влияние на результат", ν1 = m-1:
FB = MSB/MSE
Тест "Критерии A и B не оказывают влияние на результат", ν1 = (k-1)(m-1):
Fint = MSAB/MSE
Для каждого F, если F > F α,ν1,ν2, то гипотеза отвергается. ν2 = N-mk
Многофакторный
Многофакторный анализ аналогичен двухфакторному - проводятся те же операции, но критерии группируются и итеративно находится влияние каждого из факторов.
С повторными измерениями
Дисперсионный анализ с повторными измерениями озночает, что для каждого критерия производилось несколько замеров случайной величины для получения более точного результата (поскольку в ANOVA) используется внутригрупповая сумма квадратов.
Применение
Дисперсионный анализ применяют в самых различных отраслях науки и производства тогда, когда необходимо изучить зависимость критериев на различие средних значений, при этом сравнивается не среднее значение, а разброс результатов вокруг среднего значения, т.е. дисперсию.
Решение задач
В качестве примера приведём задачу из метрологии. На заводе размещены пять станков, на которых производят валы. Необходимо определить, влияет ли выбор станка или подготовка работника на результат производства. Для анализа производят замеры для каждого станка и работника, в результате получается таблица:
Оператор 1 | ||||||||||
М1 | 30.333 | 30.698 | 30.76 | 30.463 | 30.383 | 30.527 | 30.639 | 30.67 | 30.314 | 30.568 |
---|---|---|---|---|---|---|---|---|---|---|
М2 | 29.833 | 29.949 | 30.177 | 29.89 | 30.245 | 30.137 | 30.113 | 30.245 | 30.282 | 29.84 |
М3 | 30.324 | 30.493 | 30.733 | 30.73 | 30.318 | 30.536 | 30.67 | 30.629 | 30.697 | 30.571 |
М4 | 30.626 | 30.568 | 30.751 | 30.423 | 30.73 | 30.3 | 30.358 | 30.303 | 30.59 | 30.791 |
М5 | 29.853 | 30.099 | 29.652 | 30.266 | 29.614 | 29.768 | 29.599 | 29.773 | 29.701 | 30.282 |
Оператор 2 | ||||||||||
М1 | 29.966 | 30.236 | 30.299 | 30.254 | 29.949 | 30.097 | 29.869 | 30.151 | 30.295 | 29.973 |
М2 | 30.317 | 30.334 | 30.302 | 30.392 | 30.327 | 30.382 | 30.331 | 30.344 | 30.304 | 30.328 |
М3 | 30.863 | 30.832 | 30.782 | 30.313 | 30.935 | 30.852 | 30.68 | 30.859 | 30.847 | 30.56 |
М4 | 30.929 | 30.412 | 30.638 | 30.964 | 30.891 | 30.806 | 30.891 | 30.578 | 30.546 | 30.63 |
М5 | 30.371 | 30.304 | 30.341 | 30.355 | 30.351 | 30.346 | 30.31 | 30.373 | 30.312 | 30.311 |
Воспользуемся методом двухфакторного анализа, фактор А - оператор, фактор В - станок. Рассчитаем суммы квадратов, для этого необходимо рассчитать значение среднего для каждой из групп:
T | TA1 | TA2 | TB1 | TB2 | TB3 | TB4 | TB5 |
---|---|---|---|---|---|---|---|
3038.446 | 1515.814 | 1522.632 | 606.444 | 604.072 | 613.224 | 612.725 | 601.981 |
SSA = 0.465
SSB = 5.161
SSAB = 2.268
SSE = 2.539
MSA = 0.465
MSB = 1.29
MSAB = 0.567
MSE = 0.635
FA = 0.732
FB = 2.031
FAB = 0.893
Критические значения для теста Фишера:
Fcrit A = F0.1, 1, 90 = 2.77
Fcrit B = F0.1, 4, 90 = 2.01
Fcrit AB = F0.1, 4, 90 = 2.01
Таблица результатов:
Влияние станка на результат | Да | 0.732 < 2.77 |
---|---|---|
Влияние квалификации работника на результат | Нет | 2.031 > 2.01 |
Взаимное влияние квалификации работника и выбора станка на результат | Да | 0.893 < 2.01 |
В excel/Open Calc
Для решения дисперсионного анализа в электронной таблице Вам потребуются следующие формулы:
sumproduct | Сумма произведений, используется для нахождения суммы квадратов |
finv | Обратное значение распределения F - критерий Фишера |