Математическое описание
Смотря на закон распределения, мы можем понять, какова вероятность того или иного события, можем сказать, какова вероятность, что произойдёт группа событий, а в этой статье мы рассмотрим, как наши выводы "на глаз" перевести в математически обоснованное утверждение.
Крайне важное определение: математическое ожидание - это площадь под графиком распределения. Если мы говорим о дискретном распределении - это сумма событий умноженных на соответсвующие вероятности, также известно как момент:
(2) E(X) = Σ(pi•Xi) E - от английского слова Expected (ожидание)
Для математического ожидания справедливы равенства:
(3) E(X + Y) = E(X) + E(Y)
(4) E(X•Y) = E(X) • E(Y)
Момент степени k:
(5) νk = E(Xk)
Центральный момент степени k:
(6) μk = E[X - E(X)]k
Среднее значение
Среднее значение (μ) закона распределения - это математическое ожидание случайной величины (случайная величина - это событие), например, сколько в среднем посетителей заходит в магазин в час:
Кол-во посетителей | 0 | 1 | 2 | 3 | 4 | 5 | 6 |
Количество наблюдений | 49 | 28 | 109 | 52 | 31 | 49 | 82 |
Таблица 1. Количество посетителей в час |
Чтобы найти среднее значение всех результатов необходимо сложить всё вместе и разделить на количество результатов:
μ = (49 • 0 + 28 • 1 + 109 • 2 + 52 • 3 + 31 • 4 + 49 • 5 + 82 • 6) / 400 = 1263/400 = 3.16
То же самое мы можем проделать используя формулу 2:
μ = M(X) = Σ(Xi•pi) = 0 • 0.12 + 1 • 0.07 + 2 • 0.27 + 3 • 0.13 + 4 • 0.08 + 5 • 0.12 + 6 • 0.21 = 3.16 Момент первой степени, формула (5)
Собственно, формула 2 представляет собой среднее арифметическое всех значений
Итог: в среднем, 3.16 посетителя в час
Количество посетителей | 0 | 1 | 2 | 3 | 4 | 5 | 6 |
Вероятность (%) | 12.3 | 7 | 27.3 | 13 | 7.8 | 12.3 | 20.5 |
Таблица 2. Закон распределения количества посетителей |
Отклонение от среднего
Посмотрите на это распределение, можно предположить, что в среднем случайная величина равна 100±5, поскольку кажется, что таких значений несравнимо больше чем тех, что меньше 95 или больше 105:
Среднее значение по формуле (2): μ = 99.95, но как посчитать, насколько далеко все значения находятся от среднего? Вам должна быть знакома запись 100±5. Что бы получить это значение ±, нам необходимо определить диапазон значений вокруг среднего. И мы могли бы использовать в качестве меры удалённости "разность" между средним и случайными величинами:
(7) xi - μ
но сумма таких расстояний, а следовательно и любое производное от этого числа, будет равно нулю, поэтому в качестве меры выбрали квадрат разниц между величинами и средним значением:
(8) (xi - μ)2
Соответственно, среднее значение удалённости - это математическое ожидание квадратов удалённости:
(9) σ2 = E[(X - E(X))2] Поскольку вероятности любой удалённости равносильны - вероятность каждого из них - 1/n, откуда: (10) σ2 = E[(X - E(X))2] = ∑[(Xi - μ)2]/n Она же формула центрального момента (6) второй степени
σ возведена в квадрат, поскольку вместо расстояний мы взяли квадрат расстояний. σ2 называется дисперсией. Корень из дисперсии называется средним квадратическим отклонением, или среднеквадратическим отклоненим, и его используют в качестве меры разброса:
(11) μ±σ
(12) σ = √(σ2) = √[∑[(Xi - μ)2]/n]
Возвращаясь к примеру, посчитаем среднеквадратическое отклонение для графика 2:
σ = √(∑(x-μ)2/n) = √{[(90 - 99.95)2 + (91 - 99.95)2 + (92 - 99.95)2 + (93 - 99.95)2 + (94 - 99.95)2 + (95 - 99.95)2 + (96 - 99.95)2 + (97 - 99.95)2 + (98 - 99.95)2 + (99 - 99.95)2 + (100 - 99.95)2 + (101 - 99.95)2 + (102 - 99.95)2 + (103 - 99.95)2 + (104 - 99.95)2 + (105 - 99.95)2 + (106 - 99.95)2 + (107 - 99.95)2 + (108 - 99.95)2 + (109 - 99.95)2 + (110 - 99.95)2]/21} = 6.06
Итак, для графика 2 мы получили:
X = 99.95±6.06 ≈ 100±6 , что немного отличается от полученного "на глаз"
Квантиль
График 4. Функция распределения. 4-квантиль или квартиль
График 5. Функция распределения. 0.34-квантиль
Для анализа функции распределения ввели понятие квантиль. Квантиль - это случайная величина при заданном уровне вероятности, т.е.: квантиль для уровня вероятности 50% - это случайная величина на графике плотности вероятности, которая имеет вероятность 50%. На примере с графиком 3, квантиль уровня 0.5 = 99 (ближайшее значение, поскольку распределение дискретно и события со значением 99.3 просто не существует)
- 2-квантиль - медиана
- 4-квантиль - квартиль
- 10-квантиль - дециль
- 100-квантиль - перцентиль
То есть, если мы говорим о дециле (10-квантиле), то это означает, что мы разбили график на 10 частей, что соответствует девяти линяям, и для каждого дециля нашли значение случайной величины.
Также, используется обозначение x-квантиль, где х - дробное число, например, 0.34-квантиль, такая запись означает значение случайной величины при p = 0.34.
Для дискретного распределения квантиль необходимо выбирать следующим образом: квантиль гарантирует вероятность, поэтому, если рассчитанный квантиль не совпадает с одним и значений, необходимо выбирать меньшее значение.
Например, у нас дискретное распределение из 1325 значений, учитывая, что каждое значение имеет вероятность 1/1325, 10й квантиль будет иметь значение, которое не превышает 10% от 1325, то есть значение, равное или меньшее 132.5.
Построение интервалов
Квантили используют для построения доверительных интервалов, которые необходимы для исследования статистики не одного конкретного события (например, интерес - случайное число = 98), а для группы событий (например, интерес - случайное число между 96 и 99). Доверительный интервал бывает двух видов: односторонний и двусторонний. Параметр доверительного интервала - уровень доверия. Уровень доверия означает процент событий, которые можно считать успешными.
Двусторонний доверительный интервал
Двусторонний доверительный интервал строится следующим образом: мы задаёмся уровнем значимости, например, 10%, и выделяем область на графике так, что 90% всех событий попадут в эту область. Поскольку интервал двусторонний, то мы отсекаем по 5% с каждой стороны, т.е. мы ищем 5й перцентиль, 95й перцентиль и значения случайной величины между ними будут являться доверительной областью, значения за пределами доверительной области называются "критическая область"
Доверительный интервал
Левосторонний и правосторонний доверительные интервалы строятся аналогично двустороннему: для левостороннего интервала мы находим перцентиль уровня ['один' минус 'уровень значимости']. Таким образом, для построения доверительного левостороннего интервала уровня значимости 4% нам необходимо найти четвёртый перцентиль и всё, что справа - доверительный интервал, всё что слева - критическая область.
Итого
Среднее значение - математическое ожидание случайной величины, находится по формуле:
μ = E(X) = Σ(pi•Xi)
Среднеквадратичное отклонение - математическое ожидание удалённости значений от среднего, находится по формуле:
σ = √(σ2) = √[∑[(Xi - μ)2]/n]
n-квантиль - разделение функции распределения на n равных отрезков, основные типы квантилей:
- 2-квантиль - медиана
- 4-квантиль - квартили
- 10-квантиль - децили
- 100-квантиль - перцентили
Доверительный интервал уровня α - участок функции вероятности, содержащий α всех возможных значений. Двусторонний доверительный интервал строится отсечением (1-α)/2 справа и слева. Левосторонний и правосторонний доверительные интервалы строятся отсечением области (1-α) слева и справа соответственно.
Построить ряд распределения
Предположим, мы имеем 100 значений и все разные, например: масса тела Сомалийских пиратов. Такой набор данных обрабатывать неудобно, мы даже не можем представить их на обычном графике. Поэтому нам необходимо категоризировать имеющиеся данные и для этого мы делаем следующее:
Запишем наши данные в таблицу:
118 | 134 | 95 | 105 | 75 | 133 | 106 | 88 | 98 | 96 |
112 | 106 | 101 | 123 | 131 | 105 | 108 | 97 | 129 | 103 |
87 | 129 | 118 | 88 | 75 | 74 | 110 | 94 | 74 | 132 |
62 | 122 | 131 | 96 | 93 | 110 | 82 | 134 | 117 | 99 |
62 | 112 | 96 | 121 | 107 | 110 | 95 | 99 | 64 | 130 |
100 | 82 | 90 | 63 | 114 | 135 | 125 | 103 | 98 | 124 |
135 | 88 | 124 | 62 | 116 | 123 | 62 | 109 | 96 | 129 |
85 | 118 | 66 | 69 | 88 | 90 | 106 | 67 | 87 | 72 |
74 | 91 | 121 | 88 | 64 | 83 | 91 | 112 | 88 | 77 |
71 | 90 | 88 | 128 | 101 | 103 | 98 | 82 | 135 | 101 |
Таблица 3. Вес сомалийских пиратов |
Данные разобьём на группы, для начала предлагаю разбить на девять интервалов:
Узнаём максимальное и минимальное значения, вычитаем их друг из друга и делим на количество интервалов - получили отрезки:
Максимальное значение: 135
Минимальное значение: 62
Разница: 135 - 62 = 73
Длина интервала: 73 / 9 = 8.12
Теперь посчитаем количество пиратов (весов, я имею ввиду) в каждом интервале:
# | Интервал | Количество элементов |
---|---|---|
1. | 62 - 70.12 | 10 |
2. | 70.12 - 78.24 | 8 |
3. | 78.24 - 86.36 | 5 |
4. | 86.36 - 94.48 | 16 |
5. | 94.48 - 102.6 | 16 |
6. | 102.6 - 110.72 | 14 |
7. | 110.72 - 118.84 | 9 |
8. | 118.84 - 126.96 | 8 |
9. | 126.96 - 135.08 | 14 |
Таблица 4. Количество элементов в интервалах |
Вуа-ля, наше распределение на графике:
Бонус
Интервалы лучше брать целыми числами, поэтому, если с выбранным количеством интервалов размер выходит нецелым, то можно раздвинуть диапазон значений, пример:
Значение интервала равно 8.12, число не является целым, поэтому отодвигаем верхнюю границу:
Остаток от деления: [(135 - 62) / 9] = 1
Подвинуть на: 8
Новый диапазон: [62;143]
Диапазон можно двигать как вверх, так и вниз, но лучше в обе стороны.
Совет
Принято делить распределение на 7-8 интервалов, но в каждой конкретной ситуации Вы можете выбрать отличное количество интервалов, впрочем, как и сделать их различной длины.
Список параметров
Итак, вот список основных параметров дискретного закона распределения:
Название | Символ | Формула |
---|---|---|
Математическое ожидание (среднее) | E(X) | Σ(pi•Xi) |
Центральный момент (среднеквадратичное отклонение) | σx | σ = √(σ2) = √[∑[(Xi - μ)2]/n] |
Длина интервала | R | max(x) - min(x) |
Мода | mo | max P(x = mo) |
1й квантиль | - | F(x) = 0.25 |
Медиана | me | F(x) = 0.5 |
Дециль | - | F(x) = 0.1 |
Таблица 5. Основные параметры дискретного закона распределения |
Шаблон гистограммы в OpenOffice Calc
Файл histogram_mock.ods содержит шаблон построения гистограммы.