Биномиальное распределение. Дискретные распределения в MS EXCEL

Рассмотрим Биномиальное распределение, вычислим его математическое ожидание, дисперсию, моду. С помощью функции MS EXCEL БИНОМ.РАСП() построим графики функции распределения и плотности вероятности. Произведем оценку параметра распределения p, математического ожидания распределения и стандартного отклонения. Также рассмотрим распределение Бернулли.

Определение. Пусть проводятся n испытаний, в каждом из которых может произойти только 2 события: событие «успех» с вероятностью p или событие «неудача» с вероятностью q=1-p (так называемая Схема Бернулли, Bernoulli trials).

Вероятность получения ровно x успехов в этих n испытаниях равна:

Примечание: Порядок получения успехов значения не имеет. Если важен порядок, то см. статью Отрицательное Биномиальное распределение.

Количество успехов в выборке x является случайной величиной, которая имеет Биномиальное распределение (англ. Binomial distribution) p и nявляются параметрами этого распределения.

Примечание: Запись  означает количество сочетаний из n элементов по x. Для сочетаний также используется запись . Подробнее о сочетаниях см. статью Сочетания без повторений: Комбинаторика в MS EXCEL.

Напомним, что для применения схемы Бернулли и соответственно Биномиального распределения, должны быть выполнены следующие условия:

  • каждое испытание должно иметь ровно два исхода, условно называемых «успехом» и «неудачей».
  • результат каждого испытания не должен зависеть от результатов предыдущих испытаний (независимость испытаний).
  • вероятность успеха p должна быть постоянной для всех испытаний.

Биномиальное распределение в MS EXCEL

В MS EXCEL, начиная с версии 2010, для Биномиального распределения имеется функция БИНОМ.РАСП(), английское название - BINOM.DIST(), которая позволяет вычислить вероятность того, что в выборке будет ровно х «успехов» (т.е. функцию плотности вероятности p(x), см. формулу выше), и интегральную функцию распределения (вероятность того, что в выборке будет x или меньше «успехов», включая 0).

СОВЕТ: Подробнее о Функции распределения и Плотности вероятности см. статью Функция распределения и плотность вероятности в MS EXCEL.

До MS EXCEL 2010 в EXCEL была функция БИНОМРАСП(), которая также позволяет вычислить функцию распределения и плотность вероятности p(x). БИНОМРАСП() оставлена в MS EXCEL 2010 для совместимости.

В файле примера приведены графики плотности распределения вероятности и интегральной функции распределения.

Биномиальное распределения имеет обозначение B(n; p).

Примечание: Для построения интегральной функции распределения идеально подходит диаграмма типа График, для плотности распределенияГистограмма с группировкой. Подробнее о построении диаграмм читайте статью Основные типы диаграмм.

Примечание: Для удобства написания формул в файле примера созданы Имена для параметров Биномиального распределения: n и p.

В файле примера приведены различные расчеты вероятности с помощью функций MS EXCEL:

Как видно на картинке выше, предполагается, что:

  • В бесконечной совокупности, из которой делается выборка, содержится 10% (или 0,1) годных элементов (параметр p, третий аргумент функции =БИНОМ.РАСП())
  • Чтобы вычислить вероятность, того что в выборке из 10 элементов (параметр n, второй аргумент функции) будет ровно 5 годных элементов (первый аргумент), нужно записать формулу: =БИНОМ.РАСП(5; 10; 0,1; ЛОЖЬ)
  • Последний, четвертый элемент, установлен =ЛОЖЬ, т.е. возвращается значение функции плотности распределения.

Если значение четвертого аргумента =ИСТИНА, то функция БИНОМ.РАСП() возвращает значение интегральной функции распределения или просто Функцию распределения. В этом случае можно рассчитать вероятность того, что в выборке количество годных элементов будет из определенного диапазона, например, 2 или меньше (включая 0).

Для этого нужно записать формулу:
= БИНОМ.РАСП(2; 10; 0,1; ИСТИНА)

Примечание: При нецелом значении х, дробная часть отбрасывается. Например, следующие формулы вернут одно и тоже значение:
=БИНОМ.РАСП(2; 10; 0,1; ИСТИНА)
=БИНОМ.РАСП(2,9; 10; 0,1; ИСТИНА)

Примечание: В файле примера плотность вероятности и функция распределения также вычислены с использованием определения и функции ЧИСЛКОМБ().

Показатели распределения

В файле примера на листе Пример имеются формулы для расчета некоторых показателей распределения:

Выведем формулу математического ожидания Биномиального распределения, используя Схему Бернулли.

По определению случайная величина Х в схеме Бернулли (Bernoulli random variable) имеет функцию распределения:

Это распределение называется распределение Бернулли.

Примечание: распределение Бернулли – частный случай Биномиального распределения с параметром n=1.

Найдем математическое ожидание (среднее, mean) распределения Бернулли (x принимает только 2 значения).

Предположим, что мы провели n последовательных испытаний Бернулли и у нас сформировалась выборка, состоящая из n элементов: x1, x2, …, xn (каждое из которых равно 0 или 1). Сумма этих случайных величин Y=X1+X2+…+Xn, в свою очередь, также является случайной величиной и, как мы помним, будет иметь Биномиальное распределение с параметрами n и p.

Учитывая, что математическое ожидание для каждого xi равно p, то для соответствующего Биномиального распределения μ=p*n.

Аналогичным образом, можно вычислить дисперсию Биномиального распределения.

Для этого сначала найдем дисперсию (второй момент, variance) распределения Бернулли:

Соответственно, дисперсия для Биномиального распределения равна σ2=n*p*(1-p)= n*p*q.

Генерация случайных чисел. Распределение Бернулли

С помощью надстройки Пакет анализа можно сгенерировать случайные числа, извлеченные из распределения Бернулли.

СОВЕТ: О надстройке Пакет анализа можно прочитать в статье Надстройка Пакет анализа MS EXCEL.

Сгенерируем 3 массива по 100 чисел с различными вероятностями успеха: 0,1; 0,5 и 0,9. Для этого в окне Генерация случайных чисел установим следующие параметры для каждой вероятности p:

Примечание: Если установить опцию Случайное рассеивание (Random Seed), то можно выбрать определенный случайный набор сгенерированных чисел. Например, установив эту опцию =25 можно сгенерировать на разных компьютерах одни и те же наборы случайных чисел (если, конечно, другие параметры распределения совпадают). Значение опции может принимать целые значения от 1 до 32 767. Название опции Случайное рассеивание может запутать. Лучше было бы ее перевести как Номер набора со случайными числами.

В итоге будем иметь 3 столбца по 100 чисел, на основании которых можно, например, оценить вероятность успеха p по формуле: Число успехов/100 (см. файл примера лист ГенерацияБернулли).

Примечание: Для распределения Бернулли с p=0,5 можно использовать формулу =СЛУЧМЕЖДУ(0;1), которая соответствует дискретному равномерному распределению

Генерация случайных чисел. Биномиальное распределение

С помощью надстройки Пакет анализа можно сгенерировать случайные числа, извлеченные из Биномиального распределения.

Сгенерируем 3 массива по 100 чисел с различными вероятностями успеха: 0,1; 0,5; 0,9. Количество испытаний n установим 20. Для этого в окне Генерация случайных чисел установим следующие параметры для каждой вероятности p:

В итоге будем иметь 3 столбца чисел, на основании которых можно, например, оценить вероятность успеха p по формуле: Среднее значение успехов/n (см. файл примера лист ГенерацияБином).

Примечание: Для генерирования массива чисел, распределенных по Биномиальному закону, можно использовать формулу =БИНОМ.ОБР(20; p; СЛЧИС()), где p – вероятность успеха. Функция СЛЧИС() генерирует непрерывное равномерное распределение от 0 до 1, что как раз соответствует диапазону изменения вероятности (см. файл примера лист ГенерацияБином).

Оценка параметра p

В схеме Бернулли оценить параметр распределения p можно по формуле =СУММ(B14:B113)/СЧЁТ(B14:B113). В формуле предполагается, что массив случайных чисел находится в диапазоне B14:B113.

Оценить параметр Биномиального распределения p можно по формуле = СРЗНАЧ(B13:B112)/n (предполагается, что случайные числа сгенерированы формулой =БИНОМ.ОБР(n; p; СЛЧИС()). Также в формуле предполагается, что массив случайных чисел находится в диапазоне B13:B112.

Обратная функция БИНОМ.ОБР()

Вспомним график функции Биномиального распределения:

Решим задачу. Предположим, что для целей контроля качества нам требуется определить наибольшее допустимое количество дефектных изделий, которое еще позволяет обойтись без отбраковки всей партии.

Задана величина выборки из партии (n=20) и р=0,2 - доля дефектных изделий, которая обычно наблюдается в данном производственном процессе. Также пусть задана вероятность допустить ошибку 1-го рода (см. статью про уровень доверия) равная 90%. Пороговый приемочный критерий можно вычислить по формуле =БИНОМ.ОБР(20; 0,2; 90%). Формула вернет значение 6 - наибольшее количество дефектных изделий, допустимое в выборке.

Примечание: Третий аргумент функции БИНОМ.ОБР() называется Альфа (α error, type I error, риск производителя, альфа-риск) и представляет собой вероятность допустить ошибку 1-го рода при проверке статистической гипотезы (см. статью Проверка статистических гипотез в MS EXCEL о равенстве среднего значения распределения (дисперсия известна)).

Предположим, что в выборке обнаружилось 7 дефектных изделий. Это означает, что «очень вероятна» ситуация, что изменилась доля дефектных изделий p, которая является характеристикой нашего производственного процесса. Хотя такая ситуация «очень вероятна», но существует вероятность (альфа-риск, ошибка 1-го рода, «ложная тревога»), что все же p осталась без изменений, а увеличенное количество дефектных изделий обусловлено случайностью выборки.

Как видно на рисунке ниже, 7 – количество дефектных изделий, которое допустимо для процесса с p=0,21 при том же значении Альфа. Это служит иллюстрацией, что при превышении порогового значения дефектных изделий в выборке, p «скорее всего» увеличилось. Фраза «скорее всего» означает, что существует всего лишь 10% вероятность (100%-90%) того, что отклонение доли дефектных изделий выше порогового вызвано только сучайными причинами.

Таким образом, превышение порогового количества дефектных изделий в выборке, может служить сигналом, что процесс расстроился и стал выпускать больший процент бракованных изделий.

Примечание: До MS EXCEL 2010 в EXCEL была функция КРИТБИНОМ(), которая эквивалентна БИНОМ.ОБР(). КРИТБИНОМ() оставлена в MS EXCEL 2010 и выше для совместимости.

Связь Биномиального распределения с другими распределениями

Если параметр n Биномиального распределения стремится к бесконечности, а p стремится к 0, то в этом случае Биномиальное распределение может быть аппроксимировано Распределением Пуассона.
Можно сформулировать условия, когда приближение распределением Пуассона работает хорошо:

  • p<0,1 (чем меньше p и больше n, тем приближение точнее);
  • p>0,9 (учитывая, что q=1-p, вычисления в этом случае необходимо производить через qх нужно заменить на n-x). Следовательно, чем меньше q и больше n, тем приближение точнее).

При 0,1<=p<=0,9 и n*p>10 Биномиальное распределение можно аппроксимировать Нормальным распределением.

В свою очередь, Биномиальное распределение может служить хорошим приближением Гипергеометрического распределения, когда размер совокупности N Гипергеометрического распределения гораздо больше размера выборки n (т.е., N>>n или n/N<<1).

Подробнее о связи вышеуказанных распределений, можно прочитать в статье Взаимосвязь некоторых распределений друг с другом в MS EXCEL. Там же приведены примеры аппроксимации, и пояснены условия, когда она возможна и с какой точностью.

СОВЕТ: О других распределениях MS EXCEL можно прочитать в статье Распределения случайной величины в MS EXCEL.

Связанные статьи

Похожие задачи
Прочитайте другие статьи, решающие похожие задачи в MS Excel. Это позволит Вам решать широкий класс подобных задач.
Средняя: 5 (2 оценок)
Яндекс.Метрика