k-tree
Электронный учебник

Дисперсионный анализ

В примерах в данной статье данные генерятся при каждой загрузке страницы. Если Вы хотите посмотреть пример с другими значениями -обновите страницу .

ANOVA

ANOVA в статистике - это мощный инструмент для определения влияния различных групп наблюдений между собой. Дисперсионный анализ был введён Фишером - английским учёным, сделавшим огромный вклад в развитие науки. ANOVA - это акроним от ANalysis Of VAriance (дисперсионный анализ).

Пример

Предположим, Вы хотите эмпирическим методом провести исследование бензина на качество, для этого вы заправляете бак на одной заправке и проезжаете n километров, повторяете такой эксперимент, скажем, пять раз, затем проводите такой же эксперимент, только на другой заправке. У Вас два набора данных - заправка A и заправка B. Разумеется, цифры разбегаются, но всё же есть некоторая зависимость, так вот, что бы определить, влияет ли заправка на расход бензина (или данные не связаны между собой) Вы используете дисперсионный анализ.

Дисперсионный анализ позволяет определить какой из факторов влияет больше, внутригрупповой или межгрупповой. В примере выше Вы сможете определить, насколько влияет на расход бензина выбор заправки. В этом суть дисперсионного анализа: узнать, является ли выбранный фактор значимым для выбранных наблюдений.

В некотором смысле, дисперсионный анализ похож на регрессионный и корреляционный анализы, т.к. позволяет определить влияние переменных друг на друга.

Анализ

В теории, для анализа дисперсии выстраивается простая модель, схожая с изучаемой в анализе временых рядов.

Модель

Модель дисперсионного анализа включает в себя среднее значение, эффект эксперимента и случайную ошибку:

y = μ + τ + ε
τ - эффект эксперимента, ε - случайная ошибка

Однофакторный

Однофакторный дисперсионный анализ рассматривает влияние одного критерия, делается это так: мы проводим два эксперимента, в одном из них включаем дополнительный фактор и анализируем, внёс ли этот фактор изменения. В качестве исходных данных рассмотрим результаты ряда экспериментов:

NE1E2E3E4
1554611236
247449755
3573613859
4514510433
5343210340
μi48.840.6110.844.6
μ = (48.8 + 40.6 + 110.8 + 44.6) / 4 = 61.2
Квадрат ошибок внутри групп (Square Sum within group):
SSw = ΣiΣj(yij - μi)2 = 2072
Квадрат ошибок между группами (Square Sum between group):
SSb = Σii - μ)2 = 3313.84
Учитывая степени свободы, ожидаемое среднее:
MSw = SSw / a(n-1) = 138.13
MSb = SSb / a-1 = 828.46
Значение Fкрит :
F0 = MSb/MSw = 5.998

Тест Фишера: если значение F0 окажется больше чем значение F λ,4,15, значит фактор оказывает влияние.

Для n = 20 и a = 5, Fλ,n-a,a-1 = Fλ,15,4 = 5,86
Поскольку F0 = 5.998 > 5.86, то принимаем, что введённый фактор оказал влияние на результаты эксперимента.

Двухфакторный

При двухфакторном анализе выдвигаются три гипотезы на проверку:

  • Факторы А и В не оказывают влияния на результат
  • Фактор А не оказывает влияния на результат
  • Фактор B не оказывает влияния на результат

Для проведения двухфакторного анализа необходимо составить группы результатов: несколько измерений для всех значения каждого из факторов, т.е.:

A1A2
B1X1a1,b1...XNa1,b1X1a1,b2...XNa1,b2
B2X1a1,b2...XNa1,b2X1a1,b2...XNa1,b2

Далее подсчитывается среднее значение для каждого значения факторов, т.е. среднее для A1, среднее для В1 и т.д. Затем подсчитывается общее среднее для всех результатов. Зададимся количеством критериев: k = 2 (количество критериев А) и m = 2 (количество критериев В).

T = ΣΣΣxijk
Сумма элементов под влиянием фактора A:
TAi = Σxi·k
Сумма элементов под влиянием фактора B:
TBj = Σx·jk
Сумма элементов под влиянием фактора AB:
TAiBj = Σxij·
SST = Σx2ijk - T2/N
SSA = ΣT2Ai/n·m - T2/N
SSB = ΣT2Bj/n·k - T2/N
SSAB = ΣΣT2AiBj/n - SSA - SSB - T2/N
SSE = ΣΣΣx2ijk - ΣΣT2AiBj/n

SST = SSA + SSB + SSAB + SSE

MSE = SSE/(n-1)·m·k
MSA = SSA/k-1
MSB = SSB/m-1
MSAB = SSAB/(m-1)·(k-1)
Тест "Критерий A не оказывает влияние на результат", ν1 = k-1:
FA = MSA/MSE
Тест "Критерий B не оказывает влияние на результат", ν1 = m-1:
FB = MSB/MSE
Тест "Критерии A и B не оказывают влияние на результат", ν1 = (k-1)(m-1):
Fint = MSAB/MSE

Для каждого F, если F > F α,ν12, то гипотеза отвергается. ν2 = N-mk

Многофакторный

Многофакторный анализ аналогичен двухфакторному - проводятся те же операции, но критерии группируются и итеративно находится влияние каждого из факторов.

С повторными измерениями

Дисперсионный анализ с повторными измерениями озночает, что для каждого критерия производилось несколько замеров случайной величины для получения более точного результата (поскольку в ANOVA) используется внутригрупповая сумма квадратов.

Применение

Дисперсионный анализ применяют в самых различных отраслях науки и производства тогда, когда необходимо изучить зависимость критериев на различие средних значений, при этом сравнивается не среднее значение, а разброс результатов вокруг среднего значения, т.е. дисперсию.

Решение задач

В качестве примера приведём задачу из метрологии. На заводе размещены пять станков, на которых производят валы. Необходимо определить, влияет ли выбор станка или подготовка работника на результат производства. Для анализа производят замеры для каждого станка и работника, в результате получается таблица:

Оператор 1
М1 30.355 30.55 30.375 30.565 30.422 30.436 30.442 30.376 30.533 30.726
М2 30.306 30.348 30.317 30.349 30.312 30.385 30.389 30.325 30.326 30.377
М3 30.398 30.333 30.356 30.339 30.334 30.398 30.353 30.326 30.363 30.365
М4 30.377 30.381 30.364 30.336 30.395 30.305 30.344 30.321 30.399 30.393
М5 30.34 30.337 30.318 30.437 30.581 30.535 30.352 30.411 30.32 30.312
Оператор 2
М1 30.399 30.36 30.499 30.323 30.323 30.303 30.369 30.354 30.397 30.369
М2 30.226 30.234 30.294 30.236 30.236 30.296 30.114 30.249 30.228 30.17
М3 30.218 30.27 30.232 30.273 30.287 30.223 30.284 30.298 30.232 30.207
М4 30.164 30.27 30.102 30.168 30.281 30.106 30.233 30.148 30.274 30.149
М5 30.355 30.405 30.547 30.524 30.43 30.363 30.37 30.451 30.456 30.414

Воспользуемся методом двухфакторного анализа, фактор А - оператор, фактор В - станок. Рассчитаем суммы квадратов, для этого необходимо рассчитать значение среднего для каждой из групп:

TTA1TA2 TB1TB2TB3TB4TB5
3034.05 1519.3371514.713 608.476 605.717 606.089 605.51 608.258
SSA = 0.214
SSB = 0.414
SSAB = 0.12
SSE = 0.372

MSA = 0.214
MSB = 0.104
MSAB = 0.03
MSE = 0.093

FA = 2.301
FB = 1.118
FAB = 0.323

Критические значения для теста Фишера:
Fcrit A = F0.1, 1, 90 = 2.77
Fcrit B = F0.1, 4, 90 = 2.01
Fcrit AB = F0.1, 4, 90 = 2.01

Таблица результатов:

Влияние станка на результат Да 2.301 < 2.77
Влияние квалификации работника на результат Да 1.118 < 2.01
Взаимное влияние квалификации работника и выбора станка на результат Да 0.323 < 2.01

В excel/Open Calc

Для решения дисперсионного анализа в электронной таблице Вам потребуются следующие формулы:

sumproduct Сумма произведений, используется для нахождения суммы квадратов
finv Обратное значение распределения F - критерий Фишера

Таблица для скачивания в форматах ods и xls.

Скачать статью в формате PDF.

Вам понравилась статья? /

Seen: 16 545

Рейтинг: 5 (38 голосов)