Математическое описание
Смотря на закон распределения, мы можем понять, какова вероятность того или иного события, можем сказать, какова вероятность, что произойдёт группа событий, а в этой статье мы рассмотрим, как наши выводы "на глаз" перевести в математически обоснованное утверждение.
Крайне важное определение: математическое ожидание - это площадь под графиком распределения. Если мы говорим о дискретном распределении - это сумма событий умноженных на соответсвующие вероятности, также известно как момент:
(2) E(X) = Σ(pi•Xi) E - от английского слова Expected (ожидание)
Для математического ожидания справедливы равенства:
(3) E(X + Y) = E(X) + E(Y)
(4) E(X•Y) = E(X) • E(Y)
Момент степени k:
(5) νk = E(Xk)
Центральный момент степени k:
(6) μk = E[X - E(X)]k
Среднее значение
Среднее значение (μ) закона распределения - это математическое ожидание случайной величины (случайная величина - это событие), например, сколько в среднем посетителей заходит в магазин в час:
Кол-во посетителей | 0 | 1 | 2 | 3 | 4 | 5 | 6 |
Количество наблюдений | 3 | 28 | 134 | 59 | 82 | 40 | 54 |
Таблица 1. Количество посетителей в час |
Чтобы найти среднее значение всех результатов необходимо сложить всё вместе и разделить на количество результатов:
μ = (3 • 0 + 28 • 1 + 134 • 2 + 59 • 3 + 82 • 4 + 40 • 5 + 54 • 6) / 400 = 1325/400 = 3.31
То же самое мы можем проделать используя формулу 2:
μ = M(X) = Σ(Xi•pi) = 0 • 0.01 + 1 • 0.07 + 2 • 0.34 + 3 • 0.15 + 4 • 0.21 + 5 • 0.1 + 6 • 0.14 = 3.31 Момент первой степени, формула (5)
Собственно, формула 2 представляет собой среднее арифметическое всех значений
Итог: в среднем, 3.31 посетителя в час
Количество посетителей | 0 | 1 | 2 | 3 | 4 | 5 | 6 |
Вероятность (%) | 0.8 | 7 | 33.5 | 14.8 | 20.5 | 10 | 13.5 |
Таблица 2. Закон распределения количества посетителей |
Отклонение от среднего
Посмотрите на это распределение, можно предположить, что в среднем случайная величина равна 100±5, поскольку кажется, что таких значений несравнимо больше чем тех, что меньше 95 или больше 105:
Среднее значение по формуле (2): μ = 99.95, но как посчитать, насколько далеко все значения находятся от среднего? Вам должна быть знакома запись 100±5. Что бы получить это значение ±, нам необходимо определить диапазон значений вокруг среднего. И мы могли бы использовать в качестве меры удалённости "разность" между средним и случайными величинами:
(7) xi - μ
но сумма таких расстояний, а следовательно и любое производное от этого числа, будет равно нулю, поэтому в качестве меры выбрали квадрат разниц между величинами и средним значением:
(8) (xi - μ)2
Соответственно, среднее значение удалённости - это математическое ожидание квадратов удалённости:
(9) σ2 = E[(X - E(X))2] Поскольку вероятности любой удалённости равносильны - вероятность каждого из них - 1/n, откуда: (10) σ2 = E[(X - E(X))2] = ∑[(Xi - μ)2]/n Она же формула центрального момента (6) второй степени
σ возведена в квадрат, поскольку вместо расстояний мы взяли квадрат расстояний. σ2 называется дисперсией. Корень из дисперсии называется средним квадратическим отклонением, или среднеквадратическим отклоненим, и его используют в качестве меры разброса:
(11) μ±σ
(12) σ = √(σ2) = √[∑[(Xi - μ)2]/n]
Возвращаясь к примеру, посчитаем среднеквадратическое отклонение для графика 2:
σ = √(∑(x-μ)2/n) = √{[(90 - 99.95)2 + (91 - 99.95)2 + (92 - 99.95)2 + (93 - 99.95)2 + (94 - 99.95)2 + (95 - 99.95)2 + (96 - 99.95)2 + (97 - 99.95)2 + (98 - 99.95)2 + (99 - 99.95)2 + (100 - 99.95)2 + (101 - 99.95)2 + (102 - 99.95)2 + (103 - 99.95)2 + (104 - 99.95)2 + (105 - 99.95)2 + (106 - 99.95)2 + (107 - 99.95)2 + (108 - 99.95)2 + (109 - 99.95)2 + (110 - 99.95)2]/21} = 6.06
Итак, для графика 2 мы получили:
X = 99.95±6.06 ≈ 100±6 , что немного отличается от полученного "на глаз"
Квантиль
График 4. Функция распределения. 4-квантиль или квартиль
График 5. Функция распределения. 0.34-квантиль
Для анализа функции распределения ввели понятие квантиль. Квантиль - это случайная величина при заданном уровне вероятности, т.е.: квантиль для уровня вероятности 50% - это случайная величина на графике плотности вероятности, которая имеет вероятность 50%. На примере с графиком 3, квантиль уровня 0.5 = 99 (ближайшее значение, поскольку распределение дискретно и события со значением 99.3 просто не существует)
- 2-квантиль - медиана
- 4-квантиль - квартиль
- 10-квантиль - дециль
- 100-квантиль - перцентиль
То есть, если мы говорим о дециле (10-квантиле), то это означает, что мы разбили график на 10 частей, что соответствует девяти линяям, и для каждого дециля нашли значение случайной величины.
Также, используется обозначение x-квантиль, где х - дробное число, например, 0.34-квантиль, такая запись означает значение случайной величины при p = 0.34.
Для дискретного распределения квантиль необходимо выбирать следующим образом: квантиль гарантирует вероятность, поэтому, если рассчитанный квантиль не совпадает с одним и значений, необходимо выбирать меньшее значение.
Например, у нас дискретное распределение из 1325 значений, учитывая, что каждое значение имеет вероятность 1/1325, 10й квантиль будет иметь значение, которое не превышает 10% от 1325, то есть значение, равное или меньшее 132.5.
Построение интервалов
Квантили используют для построения доверительных интервалов, которые необходимы для исследования статистики не одного конкретного события (например, интерес - случайное число = 98), а для группы событий (например, интерес - случайное число между 96 и 99). Доверительный интервал бывает двух видов: односторонний и двусторонний. Параметр доверительного интервала - уровень доверия. Уровень доверия означает процент событий, которые можно считать успешными.
Двусторонний доверительный интервал
Двусторонний доверительный интервал строится следующим образом: мы задаёмся уровнем значимости, например, 10%, и выделяем область на графике так, что 90% всех событий попадут в эту область. Поскольку интервал двусторонний, то мы отсекаем по 5% с каждой стороны, т.е. мы ищем 5й перцентиль, 95й перцентиль и значения случайной величины между ними будут являться доверительной областью, значения за пределами доверительной области называются "критическая область"
Доверительный интервал
Левосторонний и правосторонний доверительные интервалы строятся аналогично двустороннему: для левостороннего интервала мы находим перцентиль уровня ['один' минус 'уровень значимости']. Таким образом, для построения доверительного левостороннего интервала уровня значимости 4% нам необходимо найти четвёртый перцентиль и всё, что справа - доверительный интервал, всё что слева - критическая область.
Итого
Среднее значение - математическое ожидание случайной величины, находится по формуле:
μ = E(X) = Σ(pi•Xi)
Среднеквадратичное отклонение - математическое ожидание удалённости значений от среднего, находится по формуле:
σ = √(σ2) = √[∑[(Xi - μ)2]/n]
n-квантиль - разделение функции распределения на n равных отрезков, основные типы квантилей:
- 2-квантиль - медиана
- 4-квантиль - квартили
- 10-квантиль - децили
- 100-квантиль - перцентили
Доверительный интервал уровня α - участок функции вероятности, содержащий α всех возможных значений. Двусторонний доверительный интервал строится отсечением (1-α)/2 справа и слева. Левосторонний и правосторонний доверительные интервалы строятся отсечением области (1-α) слева и справа соответственно.
Построить ряд распределения
Предположим, мы имеем 100 значений и все разные, например: масса тела Сомалийских пиратов. Такой набор данных обрабатывать неудобно, мы даже не можем представить их на обычном графике. Поэтому нам необходимо категоризировать имеющиеся данные и для этого мы делаем следующее:
Запишем наши данные в таблицу:
55 | 110 | 58 | 106 | 79 | 99 | 65 | 100 | 112 | 77 |
91 | 127 | 78 | 56 | 124 | 57 | 72 | 66 | 89 | 70 |
96 | 62 | 108 | 68 | 116 | 64 | 55 | 107 | 90 | 79 |
89 | 52 | 71 | 97 | 115 | 112 | 56 | 116 | 120 | 114 |
70 | 59 | 121 | 105 | 98 | 71 | 57 | 66 | 96 | 67 |
60 | 72 | 70 | 121 | 107 | 94 | 115 | 68 | 79 | 51 |
82 | 71 | 117 | 119 | 66 | 113 | 83 | 88 | 63 | 67 |
105 | 119 | 117 | 106 | 78 | 125 | 99 | 70 | 93 | 103 |
102 | 106 | 93 | 57 | 105 | 118 | 69 | 122 | 82 | 122 |
79 | 96 | 104 | 86 | 86 | 91 | 88 | 62 | 104 | 104 |
Таблица 3. Вес сомалийских пиратов |
Данные разобьём на группы, для начала предлагаю разбить на шесть интервалов:
Узнаём максимальное и минимальное значения, вычитаем их друг из друга и делим на количество интервалов - получили отрезки:
Максимальное значение: 127
Минимальное значение: 51
Разница: 127 - 51 = 76
Длина интервала: 76 / 6 = 12.67
Теперь посчитаем количество пиратов (весов, я имею ввиду) в каждом интервале:
# | Интервал | Количество элементов |
---|---|---|
1. | 51 - 63.67 | 15 |
2. | 63.67 - 76.34 | 19 |
3. | 76.34 - 89.01 | 16 |
4. | 89.01 - 101.68 | 14 |
5. | 101.68 - 114.35 | 19 |
6. | 114.35 - 127.02 | 17 |
Таблица 4. Количество элементов в интервалах |
Вуа-ля, наше распределение на графике:
Бонус
Интервалы лучше брать целыми числами, поэтому, если с выбранным количеством интервалов размер выходит нецелым, то можно раздвинуть диапазон значений, пример:
Значение интервала равно 12.67, число не является целым, поэтому отодвигаем верхнюю границу:
Остаток от деления: [(127 - 51) / 6] = 4
Подвинуть на: 2
Новый диапазон: [51;129]
Диапазон можно двигать как вверх, так и вниз, но лучше в обе стороны.
Совет
Принято делить распределение на 7-8 интервалов, но в каждой конкретной ситуации Вы можете выбрать отличное количество интервалов, впрочем, как и сделать их различной длины.
Список параметров
Итак, вот список основных параметров дискретного закона распределения:
Название | Символ | Формула |
---|---|---|
Математическое ожидание (среднее) | E(X) | Σ(pi•Xi) |
Центральный момент (среднеквадратичное отклонение) | σx | σ = √(σ2) = √[∑[(Xi - μ)2]/n] |
Длина интервала | R | max(x) - min(x) |
Мода | mo | max P(x = mo) |
1й квантиль | - | F(x) = 0.25 |
Медиана | me | F(x) = 0.5 |
Дециль | - | F(x) = 0.1 |
Таблица 5. Основные параметры дискретного закона распределения |
Шаблон гистограммы в OpenOffice Calc
Файл histogram_mock.ods содержит шаблон построения гистограммы.