Двухвыборочный z-тест для средних в MS EXCEL

Рассмотрим использование MS EXCEL при проверке статистических гипотез о разнице средних значений 2-х распределений в случае известных дисперсий. Вычислим значение тестовой статистики Z0, рассмотрим процедуру «двухвыборочный z-тест», вычислим Р-значение (Р-value). С помощью надстройки Пакет анализа сделаем «двухвыборочный z-тест».

Имеется две независимых случайных величины. Эти случайные величины имеют распределения с неизвестными средними значениями μи μ2. Дисперсии этих распределений известны и равны σ12 и σ22 соответственно (в общем случае дисперсии могут быть не равны). Из этих распределений получены две выборки размером n1 и n2.

Необходимо произвести проверку гипотезы о разнице средних значений этих распределений: μ- μ2 (англ. Hypothesis Tests for a Difference in Means, Variances Known).

Нулевая гипотеза H0 звучит так: разница средних значений равна Δ0, т.е. Δ= (μ- μ2). Часто предполагается, что Δ0=0, следовательно, μ= μ2 (значение Δзадается исследователем исходя из условий решаемой задачи).

Альтернативная гипотеза H1:- μ2)<>Δ0. Т.е. нам требуется проверить двухстороннюю гипотезу. Для этого делается по одной выборке из каждого распределения.

Примечание: Про построение соответствующего двухстороннего доверительного интервала можно прочитать в этой статье Доверительный интервал для разницы средних значений 2-х распределений (дисперсии известны) в MS EXCEL.

СОВЕТ: Для проверки гипотез нам потребуется знание следующих понятий:

Сначала дадим точечную оценку для Δ0.

Точечной оценкой для μ- μ2 является разница между средними значениями, вычисленными на основании выборок из этих (независимых) распределений, т.е. Хср1- Хср2. Это следует из свойства математического ожидания:
Е(Хср1- Хср2)= Е(Хср1)-Е(Хср2)= μ- μ2

Хср1- Хср2 является случайной величиной, и как любая другая случайная величина, она имеет свое распределение вероятности. В данном случае, эта случайная величина распределена по нормальному закону. Это следует из того, что Хср1 и Хср2 распределены по нормальному закону (см. статью про ЦПТ), а их линейная комбинация Хср1- Хср2 также имеет нормальное распределение (см. статью про нормальное распределение).

Теперь вычислим дисперсию этого распределения. На основании свойств дисперсии имеем, что VAR(Хср1- Хср2)= VAR(Хср1)+ VAR(Хср2) = σ12/n1+ σ22/n2. Следовательно, стандартное отклонение точечной оценки равно

Если вычисленное на основе выборок значение Хср1- Хср2 будет «существенно отличаться» от Δ(нулевая гипотеза), то это будет являться основанием для принятия альтернативной гипотезы.

Выражение «существенно отличаться» означает, что Хср1- Хср2, не попадет в определенную область значений. Эту область значений называют доверительным интервалом.

Часто ширину доверительного интервала определяют в стандартных отклонениях случайной величины, которая является точечной оценкой искомого параметра (в нашем случае стандартное отклонение величины Хср1- Хср2 равно . Т.к. величина Хср1- Хср2 имеет нормальное распределение, то с вероятностью 95% значение этой величины, вычисленное на основании выборок, попадет в интервал ограниченный +/-2 стандартных отклонений относительно Δ0. Если это не произошло, то это является основанием для отклонения нулевой гипотезы, т.к. такое событие считается маловероятным (если справедлива нулевая гипотеза).

Для иллюстрации вышесказанного, в файле примера на листе Сигма известна построена диаграмма с доверительным интервалом (для случая двухсторонней гипотезы).  

Здесь доверительный интервал построен не относительно значения Δ0, а относительно величины Хср1- Хср2, вычисленной на основании выборок. Если Δпопадает в доверительный интервал, то у нас нет основания отвергать нулевую гипотезу. Если Δокажется за пределами доверительного интервала, то будет принята альтернативная гипотеза.

Значения выборок в файле примера генерируются с помощью формулы =НОРМ.ОБР(СЛЧИС();B38;B7). Поэтому, при нажатии клавиши F9 или при изменении данных на листе, значения выборок генерируются заново. Это приводит изменению значения Хср1- Хср2 и, соответственно, к изменению границ интервала.

Примечание: Доверительный интервал можно построить и относительно Δ0. В этом случае его границы не будут изменяться при обновлении значений выборок. Но, величина Хср1- Хср2 будет по-прежнему изменяться. Если Хср1- Хср2 окажется за пределами доверительного интервала, то будет принята альтернативная гипотеза.

СОВЕТ: Перед проверкой гипотез о равенстве средних значений полезно построить двумерную гистограмму, чтобы визуально определить центральную тенденцию и разброс данных в обеих выборок.

Примечание: Вышеуказанные распределения не обязательно являются нормальными. Однако, требуется чтобы выполнялись условия применимости Центральной предельной теоремы.

Теперь рассмотрим проверку гипотез с помощью процедуры z-тест.

Двухвыборочный z-тест для средних

Процедура проверки гипотезы о разности средних значений 2-х распределений в случае известных дисперсий имеет специальное название: двухвыборочный z-тест для средних (z-Test: hypothesis tests for a difference in means, variances known).

По аналогии с одновыборочным z-тестом, тестовой статистикой для проверки гипотез данного вида является случайная величина Z:

где Хср1 и Хср2средние выборок, а n1 и n2 – размеры этих выборок.

Данная тестовая статистика, как и любая другая случайная величина, имеет свое распределение. В процедуре проверки гипотез это распределение называют «эталонным распределением», англ. Reference distribution. В нашем случае Z-статистика имеет стандартное нормальное распределение.

Установим требуемый уровень значимости α (альфа) = 0,05 (допустимую для данной задачи ошибку первого рода, т.е. вероятность отклонить нулевую гипотезу, когда она верна).

Напомним, что значение, которое приняла z-статистика обозначим Z0.

Если вычисленное на основе выборок значение Z0, в случае двухсторонней гипотезы, будет в области значений ограниченной нижним и верхним α/2-квантилями стандартного нормального распределения, то у нас не будет основания отвергнуть нулевую гипотезу. Это утверждение эквивалентно рассмотренному выше случаю, когда Хср1- Хср2 окажется в пределах соответствующего доверительного интервала (действительно, согласно вышеуказанной формуле, Zявляется стандартизированным значением Хср1- Хср2).

Примечание: Верхний α/2-квантиль - этотакое значение случайной величиныz, что P(z>=Zα/2)=α/2. Верхний α/2-квантиль стандартного нормального распределения обычно обозначают Zα/2. Подробнее о квантилях распределений см. статью Квантили распределений MS EXCEL.

В нашем случае, необходимо будет вычислить только верхний α/2-квантиль, т.к. он равен соответствующему нижнему квантилю со знаком минус. Следовательно, условие отклонения нулевой гипотезы можно записать как |Z0|>Zα/2.

Чтобы в MS EXCEL вычислить значение Zα/2 для различных уровней значимости (10%; 5%; 1%) - используйте формулу =НОРМ.СТ.ОБР(1-α/2).

Итак, если формула =ABS(Z0) вернет значение больше, чем результат формулы =НОРМ.СТ.ОБР(1-α/2), то это означает, что необходимо отвергнуть нулевую гипотезу (вычисления приведены файле примера на листе Сигма известна).

Для односторонней альтернативной гипотезы- μ2)>Δ0, нулевая гипотеза будет отвергнута в случае Z0>Zα.

Для односторонней альтернативной гипотезы- μ2)<Δ0, нулевая гипотеза будет отвергнута в случае Z0<-Zα.

Вычисление Р-значения

При проверке гипотез, помимо z-теста, большое распространение получил еще один эквивалентный подход, основанный на вычислении p-значения (p-value). Поясним его на основе двухсторонней гипотезы H0: μ- μ2= Δ0.

Напомним, что если двухсторонняя гипотеза Hутверждает, что μ- μ20, то она отвергается в случае если |Z0|>Zα/2. Выражение |Z0|>Zα/2 эквивалентно Z0>Zα/2 (для положительных Z0) и Z0<-Zα/2 (для отрицательных Z0), т.к. величина Zα/2 всегда положительная.

Вышеуказанные значения z-статистики имеют размерность анализируемой случайной величины, но их трудно интерпретировать. Чтобы облегчить понимание критерия отклонения нулевой гипотезы преобразуем неравенство |Z0|>Zα/2.

Вспомним график плотности функции распределения из статьи про квантили стандартного нормального распределения.

Выражение |Z0|>Zα/2 означает, что значение Zпопало в одну из выделенных областей. Вероятность события, что случайная величина z попадет в одну из этих областей равна альфа: Р(z>=Zα/2 или z<-Zα/2). Это следует из определений квантилей.

Сравним эту вероятность с вероятностью события, что случайная величина z примет значения z>=Z(если Zположительное) или z<Z(если Zотрицательное). Очевидно, что если вероятность этого события будет меньше альфа, то нулевую гипотезу нужно отклонить (это эквивалентно тому, что Zпопало в выделенные области и, как следствие, справедливо неравенство |Z0|>Zα/2).

Если Zбольше 0, то будем вычислять вероятность события, что случайная величина z>=Z0. В этом случае вероятность равна 1-Ф(Z0).

Примечание: Ф(z) – интегральная функция стандартного нормального распределения. В MS EXCEL эта функция вычисляется по формуле
=НОРМ.СТ.РАСП(Z0;ИСТИНА)

Если Zменьше 0, то будем вычислять вероятность события z<Z0. Эта вероятность равна Ф(Z0).

Чтобы учесть оба случая сразу, используем модуль числа |Z0|. Для положительного Zнаша вероятность равна 1-Ф(|Z0|). Для отрицательного Zнаша вероятность равна Ф(-|Z0|). Используя четность функции плотности стандартного нормального распределения Ф(-|Z0|) можно записать как 1-Ф(|Z0|).

Следовательно, суммарная вероятность равна 2*(1-Ф(|Z0|)). Эта величина Ф(Z0) называется p-значением (для двусторонней гипотезы).

Если p-значение меньше чем заданный уровень значимости α, то нулевая гипотеза отвергается и принимается альтернативная гипотеза. И наоборот, если p-значение больше α, то нулевая гипотеза не отвергается.

Другими словами, если p-значение меньше уровня значимости α, то это свидетельство того, что значение z-статистики, вычисленное на основе выборки, приняло маловероятное значение Z(маловероятное – это при условии истинности нулевой гипотезы).

В MS EXCEL p-значение для двухсторонней гипотезы вычисляется по формуле (вычисления приведены файле примера на листе Сигма известна):
=2*(1-НОРМ.СТ.РАСП(ABS(Z0);ИСТИНА))
Т.е. p-значение равно суммарной вероятности, что z-статистика примет значение больше |Z0| и меньше -|Z0|.

Для односторонней гипотезы μ- μ2> Δp-значение вычисляется как 1-Ф(Z0). В MS EXCEL p-значение в этом случае вычисляется по формуле
=1-НОРМ.СТ.РАСП(Z0;ИСТИНА)
Т.е. p-значение равно вероятности, что z-статистика примет значение больше Z0.

Для односторонней гипотезы μ- μ2< Δp-значение вычисляется как Ф(Z0). В MS EXCEL p-значение в этом случае вычисляется по формуле
=НОРМ.СТ.РАСП(Z0;ИСТИНА)
Т.е. p-значение равно вероятности, что z-статистика примет значение меньше Z0.

Примечание: В MS EXCEL есть функция Z.TEСT(), которая используется только для одновыборочного z-теста. Подробнее см. статью Проверка статистических гипотез в MS EXCEL о равенстве среднего значения распределения (дисперсия известна).

Пакет анализа

В надстройке Пакет анализа для проведения двухвыборочного z-теста имеется специальный инструмент: Двухвыборочный z-тест для средних (z-Test: Two Sample for Means).

После выбора инструмента откроется окно, в котором требуется заполнить следующие поля (см. файл примера лист Пакет анализа):

  • интервал переменной 1: ссылка на значения первой выборки. Ссылку указывать лучше с заголовком. В этом случае, при выводе результата надстройка выводит заголовки, которые делают результат нагляднее (в окне требуется установить галочку Метки);
  • интервал переменной 2: ссылка на значения второй выборки;
  • гипотетическая средняя разность: укажите значение Δ0, т.е. μ- μ2. В нашем случае, введем 0;
  • Дисперсия переменной 1 (известная): значение дисперсии распределения, из которого взята первая выборка. В нашем случае, введем 100;
  • Дисперсия переменной 2 (известная): значение дисперсии распределения, из которого взята вторая выборка. В нашем случае, введем 144;
  • Метки: если в полях интервал переменной 1 и интервал переменной 2 указаны ссылки вместе с заголовками столбцов, то эту галочку нужно установить. В противном случае надстройка не позволит провести вычисления и пожалуется, что «входной интервал содержит нечисловые данные»;
  • Альфа: уровень значимости;
  • Выходной интервал: диапазон ячеек, куда будут помещены результаты вычислений. Достаточно указать левую верхнюю ячейку этого диапазона.

В результате вычислений будет заполнен указанный Выходной интервал.

Тот же результат можно получить с помощью формул (см. файл примера лист Пакет анализа):

Разберем результаты вычислений, выполненных надстройкой:

  • Среднее: средние значения обеих выборок Хср1 и Хср2. Вычисления можно сделать с помощью формул =СРЗНАЧ(B32:B91) и =СРЗНАЧ(C32:C81);
  • Наблюдения: размер выборок. Вычисления можно сделать с помощью формул =СЧЁТ(B32:B91) и =СЧЁТ(C32:C81)
  • z: значение тестовой статистики Z (в наших обозначениях – это Z0). Вычисления можно сделать с помощью формулы =(СРЗНАЧ(B32:B91)- СРЗНАЧ(C32:C81))-0)/ КОРЕНЬ(100/СЧЁТ(B32:B91) +144/СЧЁТ(C32:C81))
  • P(Z<=z) одностороннее: р-значение в случае односторонней альтернативной гипотезы μ- μ20. Эквивалентная формула =1-НОРМ.СТ.РАСП(Z0;ИСТИНА);
  • z критическое одностороннее: Верхний α-Квантиль стандартного нормального распределения. Эквивалентная формула =НОРМ.СТ.ОБР(1- α);
  • P(Z<=z) двухстороннее: р-значение в случае двухсторонней альтернативной гипотезы μ- μ2<>Δ0. Эквивалентная формула =2*(1-НОРМ.СТ.РАСП(ABS(Z0);ИСТИНА));
  • z критическое двухстороннее: Верхний α/2-Квантиль стандартного нормального распределения. Эквивалентная формула =НОРМ.СТ.ОБР(1- α/2).

СОВЕТ: О проверке других видов гипотез см. статью Проверка статистических гипотез в MS EXCEL.

Связанные статьи

Похожие задачи
Прочитайте другие статьи, решающие похожие задачи в MS Excel. Это позволит Вам решать широкий класс подобных задач.
Средняя: 5 (1 оценка)