Закон распределения пуассона математическое ожидание и дисперсия. Распределение Пуассона
Рассмотрим распределение Пуассона, вычислим его математическое ожидание, дисперсию, моду. С помощью функции MS EXCEL ПУАССОН.РАСП() построим графики функции распределения и плотности вероятности. Произведем оценку параметра распределения, его математического ожидания и стандартного отклонения.
Сначала дадим сухое формальное определение распределения, затем приведем примеры ситуаций, когда распределение Пуассона (англ. Poisson distribution ) является адекватной моделью для описания случайной величины.
Если случайные события происходят в заданный период времени (или в определенном объеме вещества) со средней частотой λ(лямбда ), то число событий x , произошедших за этот период времени, будет иметь распределение Пуассона .
Применение распределения Пуассона
Примеры, когда Распределение Пуассона является адекватной моделью:
- число вызовов, поступивших на телефонную станцию за определенный период времени;
- число частиц, подвергнувшихся радиоактивному распаду за определенный период времени;
- число дефектов в куске ткани фиксированной длины.
Распределение Пуассона является адекватной моделью, если выполняются следующие условия:
- события происходят независимо друг от друга, т.е. вероятность последующего события не зависит от предыдущего;
- средняя частота событий постоянна. Как следствие, вероятность события пропорциональна длине интервала наблюдения;
- два события не могут произойти одновременно;
- число событий должно принимать значения 0; 1; 2…
Примечание : Хорошей подсказкой, что наблюдаемая случайная величина имеет распределение Пуассона, является тот факт, что приблизительно равно (см. ниже).
Ниже представлены примеры ситуаций, когда Распределение Пуассона не может быть применено:
- число студентов, которые выходят из университета в течение часа (т.к. средний поток студентов не постоянен: во время занятий студентов мало, а в перерыве между занятиями число студентов резко возрастает);
- число землетрясений амплитудой 5 баллов в год в Калифорнии (т.к. одно землетрясение может вызвать повторные толчки сходной амплитуды – события не независимы);
- число дней, которые пациенты проводят в отделении интенсивной терапии (т.к. число дней, которое пациенты проводят в отделении интенсивной терапии всегда больше 0).
Примечание : Распределение Пуассона является приближением более точных дискретных распределений: и .
Примечание : О взаимосвязи распределения Пуассона и Биномиального распределения можно прочитать в статье . О взаимосвязи распределения Пуассона и Экспоненциального распределения можно прочитать в статье про .
Распределение Пуассона в MS EXCEL
В MS EXCEL, начиная с версии 2010, для Распределения Пуассона имеется функция ПУАССОН.РАСП() , английское название - POISSON.DIST(), которая позволяет вычислить не только вероятность того, что за заданный период времени произойдет х событий (функцию плотности вероятности p(x), см. формулу выше), но и (вероятность того, что за заданный период времени произойдет не меньше x событий).
До MS EXCEL 2010 в EXCEL была функция ПУАССОН() , которая также позволяет вычислить функцию распределения и плотность вероятности p(x). ПУАССОН() оставлена в MS EXCEL 2010 для совместимости.
В файле примера приведены графики плотности распределения вероятности и интегральной функции распределения .
Распределение Пуассона имеет скошенную форму (длинный хвост справа у функции вероятности), но при увеличении параметра λ становится все более симметричным.
Примечание : Среднее и дисперсия (квадрат ) равны параметру распределения Пуассона – λ (см. файл примера лист Пример ).
Задача
Типичным применением Распределения Пуассона в контроле качества является модель количества дефектов, которые могут появиться в приборе или устройстве.
Например, при среднем количестве дефектов в микросхеме λ (лямбда) равном 4, вероятность, что случайно выбранная микросхема будет иметь 2 или меньше дефектов, равна: =ПУАССОН.РАСП(2;4;ИСТИНА)=0,2381
Третий параметр в функции установлен = ИСТИНА, поэтому функция вернет интегральную функцию распределения , то есть вероятность того, что число случайных событий окажется в диапазоне от 0 до 4 включительно.
Вычисления в этом случае производятся по формуле:
Вероятность того, что случайно выбранная микросхема будет иметь ровно 2 дефекта, равна: =ПУАССОН.РАСП(2;4;ЛОЖЬ)=0,1465
Третий параметр в функции установлен = ЛОЖЬ, поэтому функция вернет плотность вероятности.
Вероятность того, что случайно выбранная микросхема будет иметь больше 2-х дефектов, равна: =1-ПУАССОН.РАСП(2;4;ИСТИНА) =0,8535
Примечание : Если x не является целым числом, то при вычислении формулы . Формулы =ПУАССОН.РАСП(2 ; 4; ЛОЖЬ) и =ПУАССОН.РАСП(2,9 ; 4; ЛОЖЬ) вернут одинаковый результат.
Генерация случайных чисел и оценка λ
При значениях λ>15 , Распределение Пуассона хорошо аппроксимируется Нормальным распределением со следующими параметрами: μ=λ , σ 2 =λ .
Подробнее о связи этих распределений, можно прочитать в статье . Там же приведены примеры аппроксимации, и пояснены условия, когда она возможна и с какой точностью.
СОВЕТ : О других распределениях MS EXCEL можно прочитать в статье .
Снова напомним
ситуацию, которая была названа схемой
Бернулли: производится
n
независимых
испытаний, в каждом из которых некоторое
событие А
может появиться с одной и той же
вероятностью р
.
Тогда для определения вероятности того,
что в этих n
испытаниях событие А
появится
ровно k
раз (такая вероятность обозначалась
P
n
(k
)
) может быть точно вычислена по формуле
Бернулли
,
гдеq
=1−
p
. Однако при большом числе испытаний n
расчеты по формуле Бернулли становятся
очень неудобными, так как приводят к
действиям с очень большими числами.
Поэтому (если помните −
это когда-то проходилось при изучении
схемы и формулы Бернулли при изучении
первой части теории вероятностей
«Случайные события») при больших n
предлагались значительно более удобные
(хотя и приближенные) формулы, которые
оказывались тем точнее, чем больше n
(формула Пуассона, локальная и интегральная
формула Муавра-Лапласа). Если в схеме
Бернулли число опытов n
велико, а вероятность р
появления события А
в каждом испытании мала, то хорошее
приближение дает упомянутая формула
Пуассона
,
где параметра
=
n
∙
p
. Эта формула и приводит к распределению
Пуассона. Дадим точные определения
Дискретная случайная величина Х имеет распределение Пуассона , если она принимает значения 0, 1, 2, ... с вероятностями р 0 , р 1 , ... , которые вычисляются по формуле
а число а является параметром распределения Пуассона. Обращаем внимание, что возможных значений с.в. Х бесконечно много − это все целые неотрицательные числа. Таким образом, д.с.в Х с распределением Пуассона имеет следующий закон распределения:
При вычислении математического ожидания (по их определению для д.с.в. с известным законом распределения) придется теперь считать не конечные суммы, а суммы соответствующих бесконечных рядов (так как таблица закона распределения имеет бесконечно много столбцов). Если же посчитать суммы этих рядов, то окажется, что и математическое ожидание, и дисперсия случайной величины Х с распределением Пуассона совпадает с параметром а этого распределения:
,
.
Найдем моду d
(X
)
распределенной по Пуассону случайной
величины Х
.
Применим тот же самый прием, что был
использован для вычисления моды
биномиально распределенной случайной
величины. По определению моды d
(X
)=
k
,
если вероятность
наибольшая среди всех вероятностей
р
0
, р
1
, ...
. Найдем
такое число k
(это целое
неотрицательное число). При таком k
вероятность p
k
должна быть не меньше соседних с ней
вероятностей:
p
k
−1
≤
p
k
≤
p
k
+1
. Подставив вместо каждой вероятности
соответствующую формулу, получим, что
число k
должно удовлетворять двойному неравенству:
.
Если расписать формулы для факториалов и провести простые преобразования, можно получить, что левое неравенство дает k ≤ а , а правое k ≥ а −1 . Таким образом, число k удовлетворяет двойному неравенству а −1 ≤ k ≤ а , т.е. принадлежит отрезку [а −1, а ] . Поскольку длина этого отрезка, очевидно, равна 1 , то в него может попасть либо одно, либо 2 целых числа. Если число а целое, то в отрезке [а −1, а ] имеется 2 целых числа, лежащих на концах отрезка. Если же число а не целое, то в этом отрезке есть только одно целое число.
Таким образом, если число а целое, то мода распределенной по Пуассону случайной величины Х принимает 2 соседних значения: d (X )=а−1 и d (X )=а . Если же число а не целое, то мода имеет одно значение d (X )= k , где k есть единственное целое число, удовлетворяющее неравенству а −1 ≤ k ≤ а , т.е. d (X )= [а ] .
Пример . Завод отправил на базу 5000 изделий. Вероятность того, что в пути изделие повредится, равно 0.0002 . Какова вероятность, что повредится 18 изделий? Каково среднее значение поврежденных изделий? Каково наивероятнейшее число поврежденных изделий и какова его вероятность?
Как сразу стали поступать запросы: «Где Пуассон? Где задачи на формулу Пуассона?» и т.п . И поэтому я начну с частного применения распределения Пуассона – ввиду большой востребованности материала.
Задача до боли эйфории знакома:
И следующие две задачи принципиально отличаются от предыдущих:
Пример 4
Случайная величина подчинена закону Пуассона с математическим ожиданием . Найти вероятность того, что данная случайная величина примет значение, меньшее, чем ее математическое ожидание.
Отличие состоит в том, что здесь речь идёт ИМЕННО о распределении Пуассона.
Решение
: случайная величина принимает значения с вероятностями:
По условию, , и тут всё просто: событие состоит в трёх несовместных исходах :
Вероятность того, что случайная величина примет значение, меньшее, чем ее математическое ожидание.
Ответ :
Аналогичная задача на понимание:
Пример 5
Случайная величина подчинена закону Пуассона с математическим ожиданием . Найти вероятность того, что данная случайная величина примет положительное значение.
Решение и ответ в конце урока.
Помимо приближения биномиального распределения (Примеры 1-3), распределение Пуассона нашло широкое применение в теории массового обслуживания для вероятностной характеристики простейшего потока событий. Постараюсь быть лаконичным:
Пусть в некоторую систему поступают заявки (телефонные звонки, приходящие клиенты и т.д.). Поток заявок называют простейшим , если он удовлетворяет условиям стационарности , отсутствия последствий и ординарности . Стационарность подразумевает то, что интенсивность заявок постоянна и не зависит от времени суток, дня недели или других временнЫх рамок. Иными словами, не бывает «часа пик» и не бывает «мёртвых часов». Отсутствие последствий означает, что вероятность появления новых заявок не зависит от «предыстории», т.е. нет такого, что «одна бабка рассказала» и другие «набежали» (или наоборот, разбежались). И, наконец, свойство ординарности характеризуется тем, что за достаточно малый промежуток времени практически невозможно появление двух или бОльшего количества заявок. «Две старушки в двери?» – нет уж, увольте.
Итак, пусть в некоторую систему поступает простейший поток заявок со средней интенсивностью заявок в минуту (в час, в день или в произвольный промежуток времени). Тогда вероятность того, что за данный промежуток времени , в систему поступит ровно заявок, равна:
Пример 6
Звонки в диспетчерскую такси представляет собой простейший пуассоновский поток со средней интенсивностью 30 вызовов в час. Найти вероятность того, что: а) за 1 мин. поступит 2-3 вызова, б) в течение пяти минут будет хотя бы один звонок.
Решение
: используем формулу Пуассона:
а) Учитывая стационарность потока, вычислим среднее количество вызовов за 1 минуту:
вызова – в среднем за одну минуту.
По теореме сложения вероятностей несовместных событий:
– вероятность того, что за 1 минуту в диспетчерскую поступит 2-3 вызова.
б) Вычислим среднее количество вызов за пять минут:
На этой странице мы собрали примеры решения учебных задач, где используется распределение Пуассона.
Краткая теория
Рассмотрим некоторый поток событий, в котором события наступают независимо друг от друга и с некоторой фиксированной средней интенсивностью $\lambda$ (событий в единицу времени). Тогда случайная величина $X$, равная числу событий $k$, произошедших за фиксированное время, имеет распределение Пуассона . Вероятности вычисляются по следующей формуле:
$$ P(X=k)=\frac{\lambda^k}{k!}\cdot e^{-\lambda}, k=0,1,2,... $$
Для пуассоновской случайной величины математическое ожидание и дисперсия совпадают с интенсивностью потока событий:
$$M(X)=\lambda, \quad D(X)=\lambda.$$
Распределение Пуассона играет важную роль в теории массового обслуживания . При увеличении $\lambda$ данное распределение стремится к нормальному распределению $N(\lambda, \sqrt{\lambda})$. В свою очередь, оно само является "приближенной" моделью биномиального распределения при больших $n$ и крайне малых $p$ (см. теорию про формулу Пуассона).
Примеры решенных задач
Задача 1.
Среднее число самолетов, взлетающих с полевого аэродрома за одни сутки, равно 10. Найти вероятность того, что за 6 часов взлетят:
А) три самолета,
Б) не менее двух самолетов.
Задача 2.
На автовокзале время прибытия автобусов различных рейсов объявляет дежурный. Появление информации о различных рейсах происходит случайной и независимо друг от друга. В среднем на автовокзал прибывает 5 рейсов каждые полчаса.
А) Составьте ряд распределения числа сообщений о прибытии автобусов в течение получаса.
Б) Найдите числовые характеристики этого распределения.
В) Запишите функцию распределения вероятностей и постройте ее график.
Г) Чему равна вероятность того, что в течение получаса прибудут не менее трех автобусов?
Д) Чему равна вероятность того, что в течение четверти часа не прибудет ни один автобус?
Задача 3. АТС получает в среднем за час 480 вызовов. Определить вероятность того, что за данную минуту она получит: ровно 3 вызова; от 2 до 5 вызовов.
Задача 4.
Случайная величина $X$ распределена по закону Пуассона с параметром $\lambda=0,8$. Необходимо:
А) выписать формулу для вычисления вероятности $P(X=m)$;
Б) найти вероятность $P(1 \le X \lt 3)$;
В) найти математическое ожидание $M(2X+5)$ и дисперсию $D(5-2X)$.
Задача 5. Среднее число ошибочных соединений, приходящееся на одного телефонного абонента в единицу времени, равно 8. Какова вероятность того, что для данного абонента число ошибочных соединений будет больше 4?
Задача 6. В среднем в магазин заходят 3 человека в минуту. Найти вероятность того, что за 2 минуты в магазин зайдет не более 1 человека.
Задача 7.
Автомобиль проходит технический осмотр и обслуживание. Число неисправностей, обнаруженных во время техосмотра, распределяется по закону Пуассона с параметром 0,63. Если неисправностей не обнаружено, техническое обслуживание автомобиля продолжается в среднем 2 ч. Если обнаружены одна или две неисправности, то на устранение каждой из них тратится в среднем еще полчаса. Если обнаружено больше двух неисправностей, то автомобиль становится на профилактический ремонт, где он находится в среднем 4 ч.
Определите закон распределения среднего времени $T$ обслуживания и ремонта автомобиля и его математическое ожидание $M(T)$.
Во многих практически важных приложениях большую роль играет распределение Пуассона. Многие из числовых дискретных величин являются реализациями пуассоновского процесса, обладающего следующими свойствами:
- Нас интересует, сколько раз происходит некое событие в заданной области возможных исходов случайного эксперимента. Область возможных исходов может представлять собой интервал времени, отрезок, поверхность и т.п.
- Вероятность данного события одинакова для всех областей возможных исходов.
- Количество событий, происходящих в одной области возможных исходов, не зависит от количества событий, происходящих в других областях.
- Вероятность того, что в одной и той же области возможных исходов данное событие происходит больше одного раза, стремится к нулю по мере уменьшения области возможных исходов.
Чтобы глубже понять смысл пуассоновского процесса, предположим, что мы исследуем количество клиентов, посещающих отделение банка, расположенное в центральном деловом районе, во время ланча, т.е. с 12 до 13 часов. Предположим, требуется определить количество клиентов, приходящих за одну минуту. Обладает ли эта ситуация особенностями, перечисленными выше? Во-первых, событие, которое нас интересует, представляет собой приход клиента, а область возможных исходов - одноминутный интервал. Сколько клиентов придет в банк за минуту - ни одного, один, два или больше? Во-вторых, разумно предположить, что вероятность прихода клиента на протяжении минуты одинакова для всех одноминутных интервалов. В-третьих, приход одного клиента в течение любого одноминутного интервала не зависит от прихода любого другого клиента в течение любого другого одноминутного интервала. И, наконец, вероятность того, что в банк придет больше одного клиента стремится к нулю, если временной интервал стремится к нулю, например, становится меньше 0,1 с. Итак, количество клиентов, приходящих в банк во время ланча в течение одной минуты, описывается распределением Пуассона.
Распределение Пуассона имеет один параметр, обозначаемый символом λ (греческая буква «лямбда») – среднее количество успешных испытаний в заданной области возможных исходов. Дисперсия распределения Пуассона также равна λ, а его стандартное отклонение равно . Количество успешных испытаний Х пуассоновской случайной величины изменяется от 0 до бесконечности. Распределение Пуассона описывается формулой:
где Р(Х) - вероятность X успешных испытаний, λ - ожидаемое количество успехов, е - основание натурального логарифма, равное 2,71828, X - количество успехов в единицу времени.
Вернемся к нашему примеру. Допустим, что в течение обеденного перерыва в среднем в банк приходят три клиента в минуту. Какова вероятность того, что в данную минуту в банк придут два клиента? А чему равна вероятность того, что в банк придут более двух клиентов?
Применим формулу (1) с параметром λ = 3. Тогда вероятность того, что в течение данной минуты в банк придут два клиента, равна
Вероятность того, что в банк придут более двух клиентов, равна Р(Х > 2) = Р(Х = 3) + Р(Х = 4) + … + Р(Х = ∞) . Поскольку сумма всех вероятностей должна быть равной 1, члены ряда, стоящего в правой части формулы, представляют собой вероятность дополнения к событию Х≤ 2. Иначе говоря, сумма этого ряда равна 1 – Р(Х ≤ 2). Таким образом, Р(Х> 2) = 1 – Р(Х≤2) = 1 – [Р(Х = 0) + Р(Х = 1) + Р(Х = 2)]. Теперь, используя формулу (1), получаем:
Таким образом, вероятность того, что в банк в течение минуты придут не больше двух клиентов, равна 0,423 (или 42,3%), а вероятность того, что в банк в течение минуты придут больше двух клиентов, равна 0,577 (или 57,7%).
Такие вычисления могут показаться утомительными, особенно если параметр λ достаточно велик. Чтобы избежать сложных вычислений, многие пуассоновские вероятности можно найти в специальных таблицах (рис. 1). Например, вероятность того, что в заданную минуту в банк придут два клиента, если в среднем в банк приходят три клиента в минуту, находится на пересечении строки X = 2 и столбца λ = 3. Таким образом, она равна 0,2240 или 22,4%.
Рис. 1. Пуассоновская вероятность при λ = 3
Сейчас вряд ли кто-то будет пользоваться таблицами, если под рукой есть Excel с его функцией =ПУАССОН.РАСП() (рис. 2). Эта функция имеет три параметра: число успешных испытаний Х , среднее ожидаемое количество успешных испытаний λ, параметр Интегральная , принимающий два значения: ЛОЖЬ – в этом случае вычисляется вероятность числа успешных испытаний Х (только Х), ИСТИНА – в этом случае вычисляется вероятность числа успешных испытаний от 0 до Х.
Рис. 2. Расчет в Excel вероятностей распределения Пуассона при λ = 3
Аппроксимация биноминального распределения с помощью распределения Пуассона
Если число n велико, а число р - мало, биномиальное распределение можно аппроксимировать с помощью распределения Пуассона. Чем больше число n и меньше число р , тем выше точность аппроксимации. Для аппроксимации биномиального распределения используется следующая модель Пуассона.
где Р(Х) - вероятность X успехов при заданных параметрах n и р , n - объем выборки, р - истинная вероятность успеха, е - основание натурального логарифма, X - количество успехов в выборке (X = 0, 1, 2, …, n ).
Теоретически случайная величина, имеющая распределение Пуассона, принимает значения от 0 до ∞. Однако в тех ситуациях, когда распределение Пуассона применяется для приближения биномиального распределения, пуассоновская случайная величина - количество успехов среди n наблюдений - не может превышать число n . Из формулы (2) следует, что с увеличением числа n и уменьшением числа р вероятность обнаружить большое количество успехов уменьшается и стремится к нулю.
Как говорилось выше, математическое ожидание µ и дисперсия σ 2 распределения Пуассона равны λ. Следовательно, при аппроксимации биномиального распределения с помощью распределения Пуассона для приближения математического ожидания следует применять формулу (3).
(3) µ = Е(Х) = λ = np
Для аппроксимации стандартного отклонения используется формула (4).
Обратите внимание на то, что стандартное отклонение, вычисленное по формуле (4), стремится к стандартному отклонению в биномиальной модели – , когда вероятность успеха p стремится к нулю, и, соответственно, вероятность неудачи 1 – р стремится к единице.
Предположим, что 8% шин, произведенных на некотором заводе, являются бракованными. Чтобы проиллюстрировать применение распределения Пуассона для аппроксимации биномиального распределения, вычислим вероятность обнаружить одну дефектную шину в выборке, состоящей из 20 шин. Применим формулу (2), получим
Если бы мы вычислили истинное биномиальное распределение, а не его приближение, то получили бы следующий результат:
Однако эти вычисления довольно утомительны. В то же время, если вы используете Excel для вычисления вероятностей, то применение аппроксимации в виде распределения Пуассона становится излишним. На рис. 3 показано, что трудоемкость вычислений в Excel одинакова. Тем не менее, этот раздел, на мой взгляд, полезен понимаем того, что при некоторых условиях биноминальное распределение и распределение Пуассона дают близкие результаты.
Рис. 3. Сравнение трудоемкости расчетов в Excel: (а) распределение Пуассона; (б) биноминальное распределение
Итак, в настоящей и двух предыдущих заметках были рассмотрены три дискретных числовых распределения: , и Пуассона. Чтобы лучше представлять, как эти распределения соотносятся друг с другом приведем небольшое дерево вопросов (рис. 4).
Рис. 4. Классификация дискретных распределений вероятностей
Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 320–328