Двухвыборочный z-тест для средних в EXCEL. Примеры и описание

Рассмотрим использование MS EXCEL при проверке статистических гипотез о разнице средних значений 2-х распределений в случае известных дисперсий. Вычислим значение тестовой статистики Z ₀ , рассмотрим процедуру «двухвыборочный z-тест», вычислим Р-значение (Р- value ). С помощью надстройки Пакет анализа сделаем «двухвыборочный z-тест».

Имеется две независимых случайных величины. Эти случайные величины имеют распределения с неизвестными средними значениями μ ₁ и μ ₂ . Дисперсии этих распределений известны и равны σ ₁² и σ ₂² соответственно (в общем случае дисперсии могут быть не равны). Из этих распределений получены две выборки размером n ₁ и n ₂ .

Необходимо произвести проверку гипотезы о разнице средних значений этих распределений: μ ₁ - μ ₂ (англ. Hypothesis Tests for a Difference in Means, Variances Known).

Нулевая гипотеза H ₀ звучит так: разница средних значений равна Δ ₀ , т.е. Δ ₀ = (μ ₁ - μ ₂ ). Часто предполагается, что Δ ₀ =0, следовательно, μ ₁ = μ ₂ (значение Δ ₀ задается исследователем исходя из условий решаемой задачи).

Альтернативная гипотеза H ₁ : (μ ₁ - μ ₂ )<>Δ ₀ . Т.е. нам требуется проверить двухстороннюю гипотезу . Для этого делается по одной выборке из каждого распределения.

Примечание : Про построение соответствующего двухстороннего доверительного интервала можно прочитать в этой статье Доверительный интервал для разницы средних значений 2-х распределений (дисперсии известны) в MS EXCEL .

СОВЕТ : Для проверки гипотез нам потребуется знание следующих понятий:

Сначала дадим точечную оценку для Δ ₀ .

Точечной оценкой для μ ₁ - μ ₂ является разница между средними значениями, вычисленными на основании выборок из этих (независимых) распределений, т.е. Хср ₁ - Хср ₂ . Это следует из свойства математического ожидания : Е(Хср ₁ - Хср ₂ )= Е(Хср ₁ )-Е(Хср ₂ )= μ ₁ - μ ₂

Хср ₁ - Хср ₂ является случайной величиной, и как любая другая случайная величина, она имеет свое распределение вероятности. В данном случае, эта случайная величина распределена по нормальному закону . Это следует из того, что Хср ₁ и Хср ₂ распределены по нормальному закону (см. статью про ЦПТ ), а их линейная комбинация Хср ₁ - Хср ₂ также имеет нормальное распределение (см. статью про нормальное распределение ).

Теперь вычислим дисперсию этого распределения. На основании свойств дисперсии имеем, что VAR(Хср ₁ - Хср ₂ )= VAR(Хср ₁ )+ VAR(Хср ₂ ) = σ ₁² /n ₁ + σ ₂² /n ₂ . Следовательно, стандартное отклонение точечной оценки равно

Если вычисленное на основе выборок значение Хср ₁ - Хср ₂ будет «существенно отличаться» от Δ ₀ ( нулевая гипотеза ), то это будет являться основанием для принятия альтернативной гипотезы .

Выражение «существенно отличаться» означает, что Хср ₁ - Хср ₂ , не попадет в определенную область значений. Эту область значений называют доверительным интервалом .

Часто ширину доверительного интервала определяют в стандартных отклонениях случайной величины, которая является точечной оценкой искомого параметра (в нашем случае стандартное отклонение величины Хср ₁ - Хср ₂ равно . Т.к. величина Хср ₁ - Хср ₂ имеет нормальное распределение , то с вероятностью 95% значение этой величины, вычисленное на основании выборок , попадет в интервал ограниченный +/-2 стандартных отклонений относительно Δ ₀ . Если это не произошло, то это является основанием для отклонения нулевой гипотезы , т.к. такое событие считается маловероятным (если справедлива нулевая гипотеза ) .

Для иллюстрации вышесказанного, в файле примера на листе Сигма известна построена диаграмма с доверительным интервалом (для случая двухсторонней гипотезы ).

Здесь доверительный интервал построен не относительно значения Δ ₀ , а относительно величины Хср ₁ - Хср ₂ , вычисленной на основании выборок . Если Δ ₀ попадает в доверительный интервал , то у нас нет основания отвергать нулевую гипотезу . Если Δ ₀ окажется за пределами доверительного интервала, то будет принята альтернативная гипотеза .

Значения выборок в файле примера генерируются с помощью формулы =НОРМ.ОБР(СЛЧИС();B38;B7) . Поэтому, при нажатии клавиши F9 или при изменении данных на листе, значения выборок генерируются заново. Это приводит изменению значения Хср ₁ - Хср ₂ и, соответственно, к изменению границ интервала.

Примечание : Доверительный интервал можно построить и относительно Δ ₀ . В этом случае его границы не будут изменяться при обновлении значений выборок . Но, величина Хср ₁ - Хср ₂ будет по-прежнему изменяться. Если Хср ₁ - Хср ₂ окажется за пределами доверительного интервала, то будет принята альтернативная гипотеза .

СОВЕТ : Перед проверкой гипотез о равенстве средних значений полезно построить двумерную гистограмму , чтобы визуально определить центральную тенденцию и разброс данных в обеих выборок .

Примечание : Вышеуказанные распределения не обязательно являются нормальными . Однако, требуется чтобы выполнялись условия применимости Центральной предельной теоремы .

Теперь рассмотрим проверку гипотез с помощью процедуры z -тест .

Двухвыборочный z-тест для средних

Процедура проверки гипотезы о разности средних значений 2-х распределений в случае известных дисперсий имеет специальное название: двухвыборочный z-тест для средних (z-Test: hypothesis tests for a difference in means, variances known).

По аналогии с одновыборочным z-тестом , тестовой статистикой для проверки гипотез данного вида является случайная величина Z:

где Хср ₁ и Хср ₂ – средние выборок , а n ₁ и n ₂ – размеры этих выборок .

Данная тестовая статистика , как и любая другая случайная величина, имеет свое распределение. В процедуре проверки гипотез это распределение называют « эталонным распределением », англ. Reference distribution. В нашем случае Z -статистика имеет стандартное нормальное распределение .

Установим требуемый уровень значимости α (альфа) = 0,05 (допустимую для данной задачи ошибку первого рода , т.е. вероятность отклонить нулевую гипотезу , когда она верна).

Напомним, что значение, которое приняла z -статистика обозначим Z ₀ .

Если вычисленное на основе выборок значение Z ₀ , в случае двухсторонней гипотезы , будет в области значений ограниченной нижним и верхним α/2-квантилями стандартного нормального распределения, то у нас не будет основания отвергнуть нулевую гипотезу. Это утверждение эквивалентно рассмотренному выше случаю, когда Хср ₁ - Хср ₂ окажется в пределах соответствующего доверительного интервала (действительно, согласно вышеуказанной формуле, Z ₀ является стандартизированным значением Хср ₁ - Хср ₂ ) .

Примечание : Верхний α/2-квантиль - этотакое значение случайной величины z , что P ( z >= Z _α_/2 )=α/2. Верхний α/2-квантиль стандартного нормального распределения обычно обозначают Z _α/2 . Подробнее о квантилях распределений см. статью Квантили распределений MS EXCEL .

В нашем случае, необходимо будет вычислить только верхний α/2-квантиль, т.к. он равен соответствующему нижнему квантилю со знаком минус. Следовательно, условие отклонения нулевой гипотезы можно записать как |Z ₀ |>Z _α/2 .

Чтобы в MS EXCEL вычислить значение Z _α/2 для различных уровней значимости (10%; 5%; 1%) - используйте формулу =НОРМ.СТ.ОБР(1-α/2) .

Итак, если формула =ABS(Z ₀ ) вернет значение больше, чем результат формулы =НОРМ.СТ.ОБР(1-α/2) , то это означает, что необходимо отвергнуть нулевую гипотезу (вычисления приведены файле примера на листе Сигма известна ) .

Для односторонней альтернативной гипотезы (μ ₁ - μ ₂ )>Δ ₀ , нулевая гипотеза будет отвергнута в случае Z ₀ >Z _α .

Для односторонней альтернативной гипотезы (μ ₁ - μ ₂ )<Δ ₀ , нулевая гипотеза будет отвергнута в случае Z ₀<-Z _α .

Вычисление Р-значения

При проверке гипотез, помимо z -теста, большое распространение получил еще один эквивалентный подход, основанный на вычислении p -значения (p-value). Поясним его на основе двухсторонней гипотезы H ₀ : μ ₁ - μ ₂ = Δ ₀ .

Напомним, что если двухсторонняя гипотеза H ₀ утверждает, что μ ₁ - μ ₂ =Δ ₀ , то она отвергается в случае если |Z ₀ |>Z _α/2 . Выражение |Z ₀ |>Z _α/2 эквивалентно Z ₀ >Z _α/2 (для положительных Z ₀ ) и Z ₀<-Z _α/2 (для отрицательных Z ₀ ), т.к. величина Z _α/2 всегда положительная.

Вышеуказанные значения z -статистики имеют размерность анализируемой случайной величины, но их трудно интерпретировать. Чтобы облегчить понимание критерия отклонения нулевой гипотезы преобразуем неравенство |Z ₀ |>Z _α/2 .

Вспомним график плотности функции распределения из статьи про квантили стандартного нормального распределения .

Выражение |Z ₀ |>Z _α/2 означает, что значение Z ₀ попало в одну из выделенных областей. Вероятность события, что случайная величина z попадет в одну из этих областей равна альфа: Р(z>=Z _α/2 или z<-Z _α/2 ). Это следует из определений квантилей .

Сравним эту вероятность с вероятностью события, что случайная величина z примет значения z>=Z ₀ (если Z ₀ положительное) или z 0 (если Z ₀ отрицательное). Очевидно, что если вероятность этого события будет меньше альфа, то нулевую гипотезу нужно отклонить (это эквивалентно тому, что Z ₀ попало в выделенные области и, как следствие, справедливо неравенство |Z ₀ |>Z _α/2 ).

Если Z ₀ больше 0, то будем вычислять вероятность события, что случайная величина z>=Z ₀ . В этом случае вероятность равна 1-Ф(Z ₀ ).

Примечание : Ф(z) – интегральная функция стандартного нормального распределения . В MS EXCEL эта функция вычисляется по формуле =НОРМ.СТ.РАСП(Z ₀ ;ИСТИНА)

Если Z ₀ меньше 0, то будем вычислять вероятность события z 0 . Эта вероятность равна Ф(Z ₀ ).

Чтобы учесть оба случая сразу, используем модуль числа |Z ₀ |. Для положительного Z ₀ наша вероятность равна 1-Ф(|Z ₀ |). Для отрицательного Z ₀ наша вероятность равна Ф(-|Z ₀ |). Используя четность функции плотности стандартного нормального распределения Ф(-|Z ₀ |) можно записать как 1-Ф(|Z ₀ |).

Следовательно, суммарная вероятность равна 2*(1-Ф(|Z ₀ |)). Эта величина Ф(Z ₀ ) называется p -значением ( для двусторонней гипотезы ) .

Если p-значение меньше чем заданный уровень значимости α , то нулевая гипотеза отвергается и принимается альтернативная гипотеза . И наоборот, если p-значение больше α, то нулевая гипотеза не отвергается.

Другими словами, если p-значение меньше уровня значимости α, то это свидетельство того, что значение z -статистики , вычисленное на основе выборки, приняло маловероятное значение Z ₀ (маловероятное – это при условии истинности нулевой гипотезы ).

В MS EXCEL p -значение для двухсторонней гипотезы вычисляется по формуле (вычисления приведены файле примера на листе Сигма известна ): =2*(1-НОРМ.СТ.РАСП(ABS(Z ₀ );ИСТИНА)) Т.е. p-значение равно суммарной вероятности, что z -статистика примет значение больше |Z ₀ | и меньше -|Z ₀ |.

Для односторонней гипотезы μ ₁ - μ ₂ > Δ ₀ p -значение вычисляется как 1-Ф(Z ₀ ). В MS EXCEL p -значение в этом случае вычисляется по формуле =1-НОРМ.СТ.РАСП(Z ₀ ;ИСТИНА) Т.е. p-значение равно вероятности, что z -статистика примет значение больше Z ₀ .

Для односторонней гипотезы μ ₁ - μ ₂< Δ ₀ p -значение вычисляется как Ф(Z ₀ ). В MS EXCEL p -значение в этом случае вычисляется по формуле =НОРМ.СТ.РАСП(Z ₀ ;ИСТИНА) Т.е. p-значение равно вероятности, что z -статистика примет значение меньше Z ₀ .

Примечание : В MS EXCEL есть функция Z.TEСT() , которая используется только для одновыборочного z-теста . Подробнее см. статью Проверка статистических гипотез в MS EXCEL о равенстве среднего значения распределения (дисперсия известна) .

Пакет анализа

В надстройке Пакет анализа для проведения двухвыборочного z-теста имеется специальный инструмент: Двухвыборочный z-тест для средних (z-Test: Two Sample for Means).

После выбора инструмента откроется окно, в котором требуется заполнить следующие поля (см. файл примера лист Пакет анализа ):

интервал переменной 1 : ссылка на значения первой выборки . Ссылку указывать лучше с заголовком. В этом случае, при выводе результата надстройка выводит заголовки, которые делают результат нагляднее (в окне требуется установить галочку Метки );
интервал переменной 2 : ссылка на значения второй выборки ;
гипотетическая средняя разность : укажите значение Δ ₀ , т.е. μ ₁ - μ ₂ . В нашем случае, введем 0;
Дисперсия переменной 1 (известная) : значение дисперсии распределения, из которого взята первая выборка. В нашем случае, введем 100;
Дисперсия переменной 2 (известная) : значение дисперсии распределения, из которого взята вторая выборка. В нашем случае, введем 144;
Метки: если в полях интервал переменной 1 и интервал переменной 2 указаны ссылки вместе с заголовками столбцов, то эту галочку нужно установить. В противном случае надстройка не позволит провести вычисления и пожалуется, что « входной интервал содержит нечисловые данные »;
Альфа: уровень значимости ;
Выходной интервал: диапазон ячеек, куда будут помещены результаты вычислений. Достаточно указать левую верхнюю ячейку этого диапазона.

В результате вычислений будет заполнен указанный Выходной интервал.

Тот же результат можно получить с помощью формул (см. файл примера лист Пакет анализа ):

Разберем результаты вычислений, выполненных надстройкой:

Среднее : средние значения обеих выборок Хср ₁ и Хср ₂ . Вычисления можно сделать с помощью формул =СРЗНАЧ(B32:B91) и =СРЗНАЧ(C32:C81) ;
Наблюдения : размер выборок. Вычисления можно сделать с помощью формул =СЧЁТ(B32:B91) и =СЧЁТ(C32:C81)
z : значение тестовой статистики Z (в наших обозначениях – это Z ₀ ). Вычисления можно сделать с помощью формулы =(СРЗНАЧ(B32:B91)- СРЗНАЧ(C32:C81))-0)/ КОРЕНЬ(100/СЧЁТ(B32:B91) +144/СЧЁТ(C32:C81))
P(Z<=z) одностороннее : р-значение в случае односторонней альтернативной гипотезы μ ₁ - μ ₂ >Δ ₀ . Эквивалентная формула =1-НОРМ.СТ.РАСП(Z ₀ ;ИСТИНА) ;
z критическое одностороннее : Верхний α-Квантиль стандартного нормального распределения . Эквивалентная формула =НОРМ.СТ.ОБР(1- α) ;
P(Z<=z) двухстороннее: р-значение в случае двухсторонней альтернативной гипотезы μ ₁ - μ ₂<>Δ ₀ . Эквивалентная формула =2*(1-НОРМ.СТ.РАСП(ABS(Z ₀ );ИСТИНА)) ;
z критическое двухстороннее: Верхний α/2-Квантиль стандартного нормального распределения . Эквивалентная формула =НОРМ.СТ.ОБР(1- α/2) .

СОВЕТ : О проверке других видов гипотез см. статью Проверка статистических гипотез в MS EXCEL .

Двухвыборочный z-тест для средних в EXCEL

history 11 декабря 2016 г.

Двухвыборочный z-тест для средних

Вычисление Р-значения

Пакет анализа

home_work Excel2