k-tree
биология

Нормальность распределения

В примерах в данной статье данные генерятся при каждой загрузке страницы. Если Вы хотите посмотреть пример с другими значениями - обновите страницу .

Некоторые статистические инструменты исходят из предположения, что распределение является нормальным. Ниже будет приведён алгоритм проверки нормальности распределения, а также пример в excel.

Закон распределения

Проверка на соответствие нормальному распределению - это частный случай решения задачи о нахождении среди известных функций распределения такой, максимально точно описывающей данное распределение.

В первую очередь, необходимо структурировать имеющиеся значения, в статье свойства распределения описано, как строится ряд распределения, поэтому здесь я опущу детали и приведу исходные данные и обработанные значения:

140 166 153 152 144 149 172 140 156 150
144 157 133 163 174 158 160 148 149 154
146 137 155 167 142 128 136 143 151 146
167 142 132 154 140 136 154 150 145 141
147 156 161 142 144 140 143 146 165 143
163 147 149 134 146 161 159 152 138 140
138 150 158 161 164 152 152 159 145 144
145 135 135 141 164 161 154 141 152 146
152 151 152 158 144 139 158 141 146 154
143 147 160 152 138 147 152 146 150 146
Таблица 1. Исходные данные для проверки нормальности распределения
# 12345678910
x271323121811841
pi0.020.070.130.230.120.180.110.080.040.01
Таблица 2. Количество элементов в каждом интервале
График 1. Ряд распределения

Независимо от того, что мы видим на графике, нам необходимо проверить, является ли распределение нормальным.

Характеристики нормального распределения - это среднее значение и стандартное отклонение. Вычислим эти значения для нашего распределения:

μ = 149.23
σ = 9.34
Расчёт среднего значения и стандартного отклонения описан в статье параметры распределения

Нормальное распределение

Кривая нормального распределения для μ=149.23 и σ=9.34:

P(x) = e^[-0.5((x-149.23)/9.34)2] / [9.34√2π] Формула нормального распределения
График 2. Ряд распределения и нормальное распределение, μ = 149.23, σ = 9.34

Первое приближение

Попробуем изобрести критерий нормальности, самое простое, что приходит в голову - это определить процент соответствия нормальной кривой и существующего распределения.

Для этого сложим абсолютные значения разниц по всем точкам графика, найдём площадь под графиком нормального распределения и вычислим интересующее отклонение, я назову такой критерий "критерий нормальности выскочки" и постановлю, что если отклонение больше, допустим 30%, то распределение не является нормальным.

diff = Σ|D(X) - P(X)|
S = ΣP(X)
Δ = diff / S
diff = 20.95
S = 99.57
Δ = 21%

Отклонение составляет 21%, а значит я делаю вывод, что распределение является нормальным по критерию нормальности выскочки со средним значением μ=149.23 и стандартным отклонением σ=9.34.

Скачать статью в формате PDF.

Вам понравилась статья? Да / Нет

Просмотров: 334


Читать далее:
Дисперсионный анализ