k-tree

Анализ данных

1 . Нормальное распределение

Любой процесс можно описать нормальным распределением

2 . Распределение Пуассона

Второе по популярности распределение

3 . Закон распределения

Как структурировать данные полученные в ходе статистического исследования

4 . Параметры дискретного закона распределения

Критерии для сравнения распределений

5 . Статистическая гипотеза

Статистическая гипотеза. Проверка утверждений. Общие вопросы

6 . Биномиальное распределение

Победа или поражение

7 . Нормальность распределения

Проверка нормальности распределения

8. Дисперсионный анализ

ANOVA

Прогнозирование




Участников: 44

Присоединиться

Дисперсионный анализ

В примерах в данной статье данные генерятся при каждой загрузке страницы. Если Вы хотите посмотреть пример с другими значениями - обновите страницу .

ANOVA

ANOVA - это акроним от ANalysis Of VAriance (дисперсионный анализ). Дисперсионный анализ был введён Фишером - английским учёным, сделавшим огромный вклад в развитие науки. ANOVA в статистике - это мощный инструмент для определения влияния различных групп наблюдений между собой.

Пример

Предположим, Вы хотите эмпирическим методом провести исследование бензина на качество, для этого вы заправляете бак на одной заправке и проезжаете n километров, повторяете такой эксперимент, скажем, пять раз, затем проводите такой же эксперимент, только на другой заправке. У Вас два набора данных - заправка A и заправка B. Разумеется, цифры разбегаются, но всё же есть некоторая зависимость, так вот, что бы определить, влияет ли заправка на расход бензина (или данные не связаны между собой) Вы используете дисперсионный анализ.

Дисперсионный анализ позволяет определить какой из факторов влияет больше, внутригрупповой или межгрупповой. В примере выше Вы сможете определить, насколько влияет на расход бензина выбор заправки. В этом суть дисперсионного анализа: узнать, является ли выбранный фактор значимым для выбранных наблюдений.

В некотором смысле, дисперсионный анализ похож на регрессионный и корреляционный анализы, т.к. позволяет определить влияние переменных друг на друга.

Анализ

В теории, для анализа дисперсии выстраивается простая модель, схожая с изучаемой в анализе временых рядов.

Модель

Модель дисперсионного анализа включает в себя среднее значение, эффект эксперимента и случайную ошибку:

y = μ + τ + ε
τ - эффект эксперимента, ε - случайная ошибка

Однофакторный

Однофакторный дисперсионный анализ рассматривает влияние одного критерия, делается это так: мы проводим два эксперимента, в одном из них включаем дополнительный фактор и анализируем, внёс ли этот фактор изменения. В качестве исходных данных рассмотрим результаты ряда экспериментов:

NE1E2E3E4
143358140
2374210943
3415813043
4354110154
5466010033
μi40.447.2104.242.6
μ = (40.4 + 47.2 + 104.2 + 42.6) / 4 = 58.6
Квадрат ошибок внутри групп (Square Sum within group):
SSw = ΣiΣj(yij - μi)2 = 2058
Квадрат ошибок между группами (Square Sum between group):
SSb = Σii - μ)2 = 2796.56
Учитывая степени свободы, ожидаемое среднее:
MSw = SSw / a(n-1) = 137.2
MSb = SSb / a-1 = 699.14
Значение Fкрит :
F0 = MSb/MSw = 5.096

Тест Фишера: если значение F0 окажется больше чем значение F λ,4,15, значит фактор оказывает влияние.

Для n = 20 и a = 5, Fλ,n-a,a-1 = Fλ,15,4 = 5,86
Поскольку F0 = 5.096 < 5.86, то принимаем, что введённый фактор не оказал влияния на результаты эксперимента.

Двухфакторный

При двухфакторном анализе выдвигаются три гипотезы на проверку:

  • Факторы А и В не оказывают влияния на результат
  • Фактор А не оказывает влияния на результат
  • Фактор B не оказывает влияния на результат

Для проведения двухфакторного анализа необходимо составить группы результатов: несколько измерений для всех значения каждого из факторов, т.е.:

A1A2
B1X1a1,b1...XNa1,b1X1a1,b2...XNa1,b2
B2X1a1,b2...XNa1,b2X1a1,b2...XNa1,b2

Далее подсчитывается среднее значение для каждого значения факторов, т.е. среднее для A1, среднее для В1 и т.д. Затем подсчитывается общее среднее для всех результатов. Зададимся количеством критериев: k = 2 (количество критериев А) и m = 2 (количество критериев В).

T = ΣΣΣxijk
Сумма элементов под влиянием фактора A:
TAi = Σxi·k
Сумма элементов под влиянием фактора B:
TBj = Σx·jk
Сумма элементов под влиянием фактора AB:
TAiBj = Σxij·
SST = Σx2ijk - T2/N
SSA = ΣT2Ai/n·m - T2/N
SSB = ΣT2Bj/n·k - T2/N
SSAB = ΣΣT2AiBj/n - SSA - SSB - T2/N
SSE = ΣΣΣx2ijk - ΣΣT2AiBj/n

SST = SSA + SSB + SSAB + SSE

MSE = SSE/(n-1)·m·k
MSA = SSA/k-1
MSB = SSB/m-1
MSAB = SSAB/(m-1)·(k-1)
Тест "Критерий A не оказывает влияние на результат", ν1 = k-1:
FA = MSA/MSE
Тест "Критерий B не оказывает влияние на результат", ν1 = m-1:
FB = MSB/MSE
Тест "Критерии A и B не оказывают влияние на результат", ν1 = (k-1)(m-1):
Fint = MSAB/MSE

Для каждого F, если F > F α,ν12, то гипотеза отвергается. ν2 = N-mk

Многофакторный

Многофакторный анализ аналогичен двухфакторному - проводятся те же операции, но критерии группируются и итеративно находится влияние каждого из факторов.

С повторными измерениями

Дисперсионный анализ с повторными измерениями озночает, что для каждого критерия производилось несколько замеров случайной величины для получения более точного результата (поскольку в ANOVA) используется внутригрупповая сумма квадратов.

Применение

Дисперсионный анализ применяют в самых различных отраслях науки и производства тогда, когда необходимо изучить зависимость критериев на различие средних значений, при этом сравнивается не среднее значение, а разброс результатов вокруг среднего значения, т.е. дисперсию.

Решение задач

В качестве примера приведём задачу из метрологии. На заводе размещены пять станков, на которых производят валы. Необходимо определить, влияет ли выбор станка или подготовка работника на результат производства. Для анализа производят замеры для каждого станка и работника, в результате получается таблица:

Оператор 1
М1 30.383 30.443 30.342 30.57 30.336 30.67 30.558 30.479 30.45 30.635
М2 30.3 30.215 30.146 30.191 30.244 30.19 30.057 30.19 30.083 30.221
М3 30.361 30.337 30.357 30.359 30.335 30.378 30.395 30.346 30.346 30.303
М4 30.376 30.394 30.309 30.348 30.302 30.309 30.377 30.354 30.346 30.396
М5 30.175 30.193 30.203 30.123 30.147 30.281 30.248 30.232 30.164 30.178
Оператор 2
М1 30.358 30.367 30.345 30.368 30.314 30.32 30.362 30.323 30.369 30.364
М2 30.3 30.3 30.3 30.3 30.3 30.3 30.3 30.3 30.3 30.3
М3 30.699 30.496 30.636 30.55 30.524 30.468 30.415 30.305 30.341 30.474
М4 30.391 30.336 30.3 30.335 30.354 30.379 30.376 30.363 30.385 30.348
М5 30.491 30.464 30.302 30.466 30.406 30.301 30.364 30.374 30.427 30.476

Воспользуемся методом двухфакторного анализа, фактор А - оператор, фактор В - станок. Рассчитаем суммы квадратов, для этого необходимо рассчитать значение среднего для каждой из групп:

TTA1TA2 TB1TB2TB3TB4TB5
3034.711 1515.6751519.036 608.356 604.837 608.425 607.078 606.015
SSA = 0.113
SSB = 0.475
SSAB = 0.373
SSE = 0.398

MSA = 0.113
MSB = 0.119
MSAB = 0.093
MSE = 0.1

FA = 1.13
FB = 1.19
FAB = 0.93

Критические значения для теста Фишера:
Fcrit A = F0.1, 1, 90 = 2.77
Fcrit B = F0.1, 4, 90 = 2.01
Fcrit AB = F0.1, 4, 90 = 2.01

Таблица результатов:

Влияние станка на результат Да 1.13 < 2.77
Влияние квалификации работника на результат Да 1.19 < 2.01
Взаимное влияние квалификации работника и выбора станка на результат Да 0.93 < 2.01

В excel/Open Calc

Для решения дисперсионного анализа в электронной таблице Вам потребуются следующие формулы:

sumproduct Сумма произведений, используется для нахождения суммы квадратов
finv Обратное значение распределения F - критерий Фишера

Таблица для скачивания в форматах ods и xls.

Скачать статью в формате PDF.

Вам понравилась статья? Да / Нет

Просмотров: 200


Поиск по сайту:

Порекомендуйте статью своим друзьям:





© 2015-2018 - K-Tree.ru • Онлайн учебник
Копия материалов, размещённых на данном сайте, допускается только по письменному разрешению владельцев сайта.
По любым вопросам Вы можете связаться по почте info@k-tree.ru