Математическое описание
Смотря на закон распределения, мы можем понять, какова вероятность того или иного события, можем сказать, какова вероятность, что произойдёт группа событий, а в этой статье мы рассмотрим, как наши выводы "на глаз" перевести в математически обоснованное утверждение.
Крайне важное определение: математическое ожидание - это площадь под графиком распределения. Если мы говорим о дискретном распределении - это сумма событий умноженных на соответсвующие вероятности, также известно как момент:
(2) E(X) = Σ(pi•Xi) E - от английского слова Expected (ожидание)
Для математического ожидания справедливы равенства:
(3) E(X + Y) = E(X) + E(Y)
(4) E(X•Y) = E(X) • E(Y)
Момент степени k:
(5) νk = E(Xk)
Центральный момент степени k:
(6) μk = E[X - E(X)]k
Среднее значение
Среднее значение (μ) закона распределения - это математическое ожидание случайной величины (случайная величина - это событие), например, сколько в среднем посетителей заходит в магазин в час:
Кол-во посетителей | 0 | 1 | 2 | 3 | 4 | 5 | 6 |
Количество наблюдений | 55 | 0 | 73 | 104 | 9 | 45 | 114 |
Таблица 1. Количество посетителей в час |
Чтобы найти среднее значение всех результатов необходимо сложить всё вместе и разделить на количество результатов:
μ = (55 • 0 + 0 • 1 + 73 • 2 + 104 • 3 + 9 • 4 + 45 • 5 + 114 • 6) / 400 = 1403/400 = 3.51
То же самое мы можем проделать используя формулу 2:
μ = M(X) = Σ(Xi•pi) = 0 • 0.14 + 1 • 0 + 2 • 0.18 + 3 • 0.26 + 4 • 0.02 + 5 • 0.11 + 6 • 0.29 = 3.51 Момент первой степени, формула (5)
Собственно, формула 2 представляет собой среднее арифметическое всех значений
Итог: в среднем, 3.51 посетителя в час
Количество посетителей | 0 | 1 | 2 | 3 | 4 | 5 | 6 |
Вероятность (%) | 13.8 | 0 | 18.3 | 26 | 2.3 | 11.3 | 28.5 |
Таблица 2. Закон распределения количества посетителей |
Отклонение от среднего
Посмотрите на это распределение, можно предположить, что в среднем случайная величина равна 100±5, поскольку кажется, что таких значений несравнимо больше чем тех, что меньше 95 или больше 105:
Среднее значение по формуле (2): μ = 99.95, но как посчитать, насколько далеко все значения находятся от среднего? Вам должна быть знакома запись 100±5. Что бы получить это значение ±, нам необходимо определить диапазон значений вокруг среднего. И мы могли бы использовать в качестве меры удалённости "разность" между средним и случайными величинами:
(7) xi - μ
но сумма таких расстояний, а следовательно и любое производное от этого числа, будет равно нулю, поэтому в качестве меры выбрали квадрат разниц между величинами и средним значением:
(8) (xi - μ)2
Соответственно, среднее значение удалённости - это математическое ожидание квадратов удалённости:
(9) σ2 = E[(X - E(X))2] Поскольку вероятности любой удалённости равносильны - вероятность каждого из них - 1/n, откуда: (10) σ2 = E[(X - E(X))2] = ∑[(Xi - μ)2]/n Она же формула центрального момента (6) второй степени
σ возведена в квадрат, поскольку вместо расстояний мы взяли квадрат расстояний. σ2 называется дисперсией. Корень из дисперсии называется средним квадратическим отклонением, или среднеквадратическим отклоненим, и его используют в качестве меры разброса:
(11) μ±σ
(12) σ = √(σ2) = √[∑[(Xi - μ)2]/n]
Возвращаясь к примеру, посчитаем среднеквадратическое отклонение для графика 2:
σ = √(∑(x-μ)2/n) = √{[(90 - 99.95)2 + (91 - 99.95)2 + (92 - 99.95)2 + (93 - 99.95)2 + (94 - 99.95)2 + (95 - 99.95)2 + (96 - 99.95)2 + (97 - 99.95)2 + (98 - 99.95)2 + (99 - 99.95)2 + (100 - 99.95)2 + (101 - 99.95)2 + (102 - 99.95)2 + (103 - 99.95)2 + (104 - 99.95)2 + (105 - 99.95)2 + (106 - 99.95)2 + (107 - 99.95)2 + (108 - 99.95)2 + (109 - 99.95)2 + (110 - 99.95)2]/21} = 6.06
Итак, для графика 2 мы получили:
X = 99.95±6.06 ≈ 100±6 , что немного отличается от полученного "на глаз"
Квантиль
График 4. Функция распределения. 4-квантиль или квартиль
График 5. Функция распределения. 0.34-квантиль
Для анализа функции распределения ввели понятие квантиль. Квантиль - это случайная величина при заданном уровне вероятности, т.е.: квантиль для уровня вероятности 50% - это случайная величина на графике плотности вероятности, которая имеет вероятность 50%. На примере с графиком 3, квантиль уровня 0.5 = 99 (ближайшее значение, поскольку распределение дискретно и события со значением 99.3 просто не существует)
- 2-квантиль - медиана
- 4-квантиль - квартиль
- 10-квантиль - дециль
- 100-квантиль - перцентиль
То есть, если мы говорим о дециле (10-квантиле), то это означает, что мы разбили график на 10 частей, что соответствует девяти линяям, и для каждого дециля нашли значение случайной величины.
Также, используется обозначение x-квантиль, где х - дробное число, например, 0.34-квантиль, такая запись означает значение случайной величины при p = 0.34.
Для дискретного распределения квантиль необходимо выбирать следующим образом: квантиль гарантирует вероятность, поэтому, если рассчитанный квантиль не совпадает с одним и значений, необходимо выбирать меньшее значение.
Например, у нас дискретное распределение из 1325 значений, учитывая, что каждое значение имеет вероятность 1/1325, 10й квантиль будет иметь значение, которое не превышает 10% от 1325, то есть значение, равное или меньшее 132.5.
Построение интервалов
Квантили используют для построения доверительных интервалов, которые необходимы для исследования статистики не одного конкретного события (например, интерес - случайное число = 98), а для группы событий (например, интерес - случайное число между 96 и 99). Доверительный интервал бывает двух видов: односторонний и двусторонний. Параметр доверительного интервала - уровень доверия. Уровень доверия означает процент событий, которые можно считать успешными.
Двусторонний доверительный интервал
Двусторонний доверительный интервал строится следующим образом: мы задаёмся уровнем значимости, например, 10%, и выделяем область на графике так, что 90% всех событий попадут в эту область. Поскольку интервал двусторонний, то мы отсекаем по 5% с каждой стороны, т.е. мы ищем 5й перцентиль, 95й перцентиль и значения случайной величины между ними будут являться доверительной областью, значения за пределами доверительной области называются "критическая область"
Доверительный интервал
Левосторонний и правосторонний доверительные интервалы строятся аналогично двустороннему: для левостороннего интервала мы находим перцентиль уровня ['один' минус 'уровень значимости']. Таким образом, для построения доверительного левостороннего интервала уровня значимости 4% нам необходимо найти четвёртый перцентиль и всё, что справа - доверительный интервал, всё что слева - критическая область.
Итого
Среднее значение - математическое ожидание случайной величины, находится по формуле:
μ = E(X) = Σ(pi•Xi)
Среднеквадратичное отклонение - математическое ожидание удалённости значений от среднего, находится по формуле:
σ = √(σ2) = √[∑[(Xi - μ)2]/n]
n-квантиль - разделение функции распределения на n равных отрезков, основные типы квантилей:
- 2-квантиль - медиана
- 4-квантиль - квартили
- 10-квантиль - децили
- 100-квантиль - перцентили
Доверительный интервал уровня α - участок функции вероятности, содержащий α всех возможных значений. Двусторонний доверительный интервал строится отсечением (1-α)/2 справа и слева. Левосторонний и правосторонний доверительные интервалы строятся отсечением области (1-α) слева и справа соответственно.
Построить ряд распределения
Предположим, мы имеем 100 значений и все разные, например: масса тела Сомалийских пиратов. Такой набор данных обрабатывать неудобно, мы даже не можем представить их на обычном графике. Поэтому нам необходимо категоризировать имеющиеся данные и для этого мы делаем следующее:
Запишем наши данные в таблицу:
61 | 68 | 53 | 127 | 132 | 96 | 83 | 111 | 60 | 85 |
75 | 99 | 77 | 111 | 115 | 123 | 118 | 55 | 118 | 98 |
84 | 133 | 119 | 62 | 96 | 56 | 128 | 56 | 65 | 90 |
80 | 86 | 127 | 100 | 106 | 85 | 56 | 108 | 91 | 122 |
101 | 74 | 104 | 89 | 54 | 73 | 122 | 80 | 77 | 74 |
125 | 88 | 80 | 79 | 131 | 89 | 73 | 128 | 84 | 69 |
95 | 62 | 75 | 86 | 120 | 100 | 92 | 89 | 102 | 84 |
75 | 89 | 89 | 82 | 109 | 122 | 132 | 133 | 76 | 70 |
91 | 62 | 87 | 123 | 79 | 58 | 61 | 84 | 109 | 91 |
87 | 98 | 96 | 72 | 85 | 85 | 106 | 107 | 90 | 62 |
Таблица 3. Вес сомалийских пиратов |
Данные разобьём на группы, для начала предлагаю разбить на шесть интервалов:
Узнаём максимальное и минимальное значения, вычитаем их друг из друга и делим на количество интервалов - получили отрезки:
Максимальное значение: 133
Минимальное значение: 53
Разница: 133 - 53 = 80
Длина интервала: 80 / 6 = 13.34
Теперь посчитаем количество пиратов (весов, я имею ввиду) в каждом интервале:
# | Интервал | Количество элементов |
---|---|---|
1. | 53 - 66.34 | 15 |
2. | 66.34 - 79.68 | 16 |
3. | 79.68 - 93.02 | 29 |
4. | 93.02 - 106.36 | 14 |
5. | 106.36 - 119.7 | 10 |
6. | 119.7 - 133.04 | 16 |
Таблица 4. Количество элементов в интервалах |
Вуа-ля, наше распределение на графике:
Бонус
Интервалы лучше брать целыми числами, поэтому, если с выбранным количеством интервалов размер выходит нецелым, то можно раздвинуть диапазон значений, пример:
Значение интервала равно 13.34, число не является целым, поэтому отодвигаем верхнюю границу:
Остаток от деления: [(133 - 53) / 6] = 2
Подвинуть на: 4
Новый диапазон: [53;137]
Диапазон можно двигать как вверх, так и вниз, но лучше в обе стороны.
Совет
Принято делить распределение на 7-8 интервалов, но в каждой конкретной ситуации Вы можете выбрать отличное количество интервалов, впрочем, как и сделать их различной длины.
Список параметров
Итак, вот список основных параметров дискретного закона распределения:
Название | Символ | Формула |
---|---|---|
Математическое ожидание (среднее) | E(X) | Σ(pi•Xi) |
Центральный момент (среднеквадратичное отклонение) | σx | σ = √(σ2) = √[∑[(Xi - μ)2]/n] |
Длина интервала | R | max(x) - min(x) |
Мода | mo | max P(x = mo) |
1й квантиль | - | F(x) = 0.25 |
Медиана | me | F(x) = 0.5 |
Дециль | - | F(x) = 0.1 |
Таблица 5. Основные параметры дискретного закона распределения |
Шаблон гистограммы в OpenOffice Calc
Файл histogram_mock.ods содержит шаблон построения гистограммы.