Двухвыборочный t-тест с одинаковыми дисперсиями в EXCEL. Примеры и описание

Рассмотрим использование MS EXCEL при проверке статистических гипотез о разнице средних значений 2-х распределений в случае неизвестных дисперсий (дисперсии этих 2-х распределений одинаковы). Вычислим значение тестовой статистики t ₀ , рассмотрим соответствующую процедуру «двухвыборочный t -тест», вычислим Р-значение (Р- value ). С помощью надстройки Пакет анализа сделаем «Двухвыборочный t-тест с одинаковыми дисперсиями».

Имеется две независимых случайных величины. Эти случайные величины имеют распределения с неизвестными средними значениями μ ₁ и μ ₂ . Дисперсии этих распределений неизвестны, но равны между собой ( дисперсию обозначим σ ² ). Из этих распределений получены две выборки размером n ₁ и n ₂ .

Необходимо произвести проверку гипотезы о разнице средних значений этих распределений: μ ₁ - μ ₂ (англ. Hypothesis tests for a difference in means, populations with unknown but equal variances).

Нулевая гипотеза H ₀ звучит так: разница средних значений равна Δ ₀ , т.е. Δ ₀ = (μ ₁ - μ ₂ ). Часто предполагается, что Δ ₀ =0, следовательно, μ ₁ = μ ₂ (значение Δ ₀ задается исследователем исходя из условий решаемой задачи).

Альтернативная гипотеза H ₁ : (μ ₁ - μ ₂ )<>Δ ₀ . Т.е. нам требуется проверить двухстороннюю гипотезу .

Примечание : Про построение соответствующего двухстороннего доверительного интервала можно прочитать в этой статье Доверительный интервал для разницы средних значений 2-х распределений (дисперсии неизвестны, но равны) в MS EXCEL .

СОВЕТ : При первом знакомстве с процедурой двухвыборочного t -теста может быть полезным освежить в памяти процедуру одновыброчного t-теста для среднего при неизвестной дисперсии .

СОВЕТ : Для проверки гипотез нам потребуется знание следующих понятий:

Примечание : Вышеуказанные распределения не обязательно должны быть нормальными . Однако, требуется чтобы выполнялись условия применимости Центральной предельной теоремы . Если размеры выборок меньше 30, то для справедливости сделанных здесь выводов, необходимо, чтобы выборки были сделаны из нормального распределения .

Сначала дадим точечную оценку для Δ ₀ .

Точечной оценкой для Δ ₀ или для μ ₁ - μ ₂ является разница между средними значениями, вычисленными на основании выборок из этих (независимых) распределений, т.е. Хср ₁ - Хср ₂ . Это следует из свойства математического ожидания : Е(Хср ₁ - Хср ₂ )= Е(Хср ₁ )-Е(Хср ₂ )= μ ₁ - μ ₂

Хср ₁ - Хср ₂ является случайной величиной, и как любая другая случайная величина, она имеет свое распределение вероятности. В данном случае, эта случайная величина распределена по нормальному закону . Это следует из того, что Хср ₁ и Хср ₂ распределены по нормальному закону (см. статью про ЦПТ ), а их линейная комбинация Хср ₁ - Хср ₂ также имеет нормальное распределение (см. статью про нормальное распределение ).

Теперь вычислим дисперсию этого распределения. На основании свойств дисперсии имеем, что VAR(Хср ₁ - Хср ₂ )= VAR(Хср ₁ )+ VAR(Хср ₂ ) = σ ² /n ₁ + σ ² /n ₂ =σ ² (1/n ₁ + 1/n ₂ ).

Т.к. дисперсия σ ² нам неизвестна, то вместо нее используем ее оценку: так называемую объединенную оценку дисперсии s _p² (pooled estimate of variance).

Воспользуемся результатами статьи про двухвыборочный z-тест .

Из процедуры двухвыборочного z-теста известно, что тестовая статистика Z имеет стандартное нормальное распределение .

где Хср ₁ и Хср ₂ – средние выборок , а n ₁ и n ₂ – размеры этих выборок .

Заменив, неизвестное значение стандартного отклонения σ на ее оценку s _p , получим величину t:

Эта величина является тестовой статистикой ( t -статистикой ) для нашего двухвыборочного t -теста с одинаковыми дисперсиями . Известно, что t -статистика имеет распределение Стьюдента с n ₁ +n ₂ –2 степенями свободы. Значение, которое приняла t -статистика обозначим t ₀ .

Как и для z -теста , проверка двухсторонней гипотезы сводится к сравнению t ₀ с квантилями эталонного распределения , в данном случае распределения Стьюдента с n ₁ +n ₂ –2 степенями свободы. Эта процедура носит название двухвыборочный t -тест в случае одинаковых дисперсий (The two-sample pooled t-Test).

Если вычисленное на основе выборок значение t ₀ , в случае двухсторонней гипотезы , не попадет в область значений ограниченной нижним и верхним α /2-квантилями t - распределения с n ₁ +n ₂ –2 степенями свободы , то у нас будет основание отвергнуть нулевую гипотезу. Это утверждение эквивалентно случаю, когда Хср ₁ -Хср ₂ окажется вне пределов соответствующего доверительного интервала . В файле примера на листе Сигма неизвестна показана эквивалентность доверительного интервала и соответствующего двухвыборочного t -теста.

Примечание : Верхний α /2-квантиль - это такое значение случайной величины t _n1+n2–2 , что P ( t _n1+n2–2 >= t _α_{/2,

n1+n2–2} )= α /2. Подробнее о квантилях распределений см. статью Квантили распределений MS EXCEL .

В нашем случае, необходимо будет вычислить только верхний α /2-квантиль, т.к. он равен соответствующему нижнему квантилю со знаком минус. Следовательно, условие отклонения нулевой гипотезы можно записать как | t ₀ |>t _{α/2

,

n1+n2–2} .

Чтобы в MS EXCEL вычислить значение t _{α/2

,

n1+n2–2} для различных уровней значимости (10%; 5%; 1%) и степеней свобод можно использовать несколько формул: =СТЬЮДЕНТ.ОБР.2Х( α ; n ₁ +n ₂ –2) =СТЬЮДЕНТ.ОБР(1- α /2; n ₁ +n ₂ –2) =-СТЬЮДЕНТ.ОБР( α /2; n ₁ +n ₂ –2) =СТЬЮДРАСПОБР( α ; n ₁ +n ₂ –2)

Примечание : Подробнее про функции MS EXCEL, связанные с t - распределением см. статью t-распределение .

Итак, если при проверке двухсторонней гипотезы формула =ABS( t ₀ ) вернет значение больше, чем результат формулы =СТЬЮДЕНТ.ОБР.2Х( α ; n ₁ +n ₂ –2) , то это означает, что необходимо отвергнуть нулевую гипотезу (вычисления приведены в файле примера на листе Сигма неизвестна ) .

Для односторонней альтернативной гипотезы (μ ₁ - μ ₂ )>Δ ₀ , нулевая гипотеза будет отвергнута в случае t ₀ >t _{α

,

n1+n2–2} .

Для односторонней альтернативной гипотезы (μ ₁ - μ ₂ )<Δ ₀ , нулевая гипотеза будет отвергнута в случае t ₀<-t _{α

,

n1+n2–2} .

СОВЕТ : Перед проверкой гипотез о равенстве средних значений полезно построить двумерную гистограмму , чтобы визуально определить центральную тенденцию и разброс данных в обеих выборок .

Вычисление Р-значения

При проверке гипотез, помимо t -теста, большое распространение получил еще один эквивалентный подход, основанный на вычислении p -значения (p-value).

Если p-значение меньше чем заданный уровень значимости α , то нулевая гипотеза отвергается и принимается альтернативная гипотеза . И наоборот, если p-значение больше α , то нулевая гипотеза не отвергается.

В случае двусторонней гипотезы p-значение равно суммарной вероятности, что t -статистика примет значение больше | t ₀ | и меньше -| t ₀ |.

Подробнее про p -значение см., например, статью про двухвыборочный z-тест .

В MS EXCEL p -значение для двухсторонней гипотезы вычисляется по формуле: =2*(1-СТЬЮДЕНТ.РАСП(ABS( t ₀ ); n ₁ +n ₂ –2;ИСТИНА))

Примечание : Вычисления приведены в файле примера на листе Сигма неизвестна .

Для односторонней гипотезы μ ₁ - μ ₂ > Δ ₀ p -значение вычисляется по формуле: =1-СТЬЮДЕНТ.РАСП( t ₀ ; n ₁ +n ₂ –2;ИСТИНА) В этом случае p-значение равно вероятности, что t -статистика примет значение больше t ₀ .

Для односторонней гипотезы μ ₁ - μ ₂< Δ ₀ p -значение вычисляется по формуле: =СТЬЮДЕНТ.РАСП( t ₀ ; n ₁ +n ₂ –2;ИСТИНА) В этом случае p-значение равно вероятности, что t -статистика примет значение меньше t ₀ .

В файле примера на листе Сигма неизвестна показана эквивалентность проверки гипотезы через доверительный интервал , статистику t ₀ ( t -тест) и p -значение .

В MS EXCEL есть функция СТЬЮДЕНТ.TEСT() , которая вычисляет p-значение для 3-х различных двухвыборочных t -тестов (см. следующий раздел статьи) . К сожалению, эта функция может быть использована только для проверки гипотез с Δ ₀ =0, то есть для проверки гипотез о равенстве средних μ ₁ = μ ₂ . Об этом легко догадаться, т.к. среди ее параметров отсутствует параметр Гипотетическая разность средних , т.е. Δ ₀ .

Функция СТЬЮДЕНТ.ТЕСТ()

Функция СТЬЮДЕНТ.ТЕСТ() используется для оценки различия двух выборочных средних . До MS EXCEL 2010 имелась аналогичная функция ТТЕСТ() .

Примечание : В английской версии функция носит название T.TEST() , старая версия - TTEST() .

Функция СТЬЮДЕНТ.ТЕСТ() имеет 4 параметра. Первые два – это ссылки на диапазоны ячеек, содержащие выборки из 2-х сравниваемых распределений.

Третий параметр имеет название «хвосты». Этот параметр задает тип проверяемой гипотезы: односторонняя (=1) или двухсторонняя (=2). Если мы проверяем двухстороннюю гипотезу , то смотрим, не попало ли значение тестовой статистики t ₀ в один из 2-х хвостов соответствующего t-распределения . Если мы проверяем одностороннюю гипотезу (имеется ввиду гипотеза μ ₁< μ ₂ ), то «хвост» всего один.

Как было сказано выше, эта функция вычисляет p -значение для 3-х различных двухвыборочных t -тестов . За это отвечает четвертый параметр функции, который принимает значения от 1 до 3:

Парный двухвыборочный t-тест для средних ;
Двухвыборочный t-тест с одинаковыми дисперсиями ;
Двухвыборочный t-тест с разными дисперсиями .

Таким образом, p -значение для двухсторонней гипотезы (равные дисперсии ) вычисляется по формуле (см. файл примера ): =СТЬЮДЕНТ.ТЕСТ( выборка1 ; выборка2 ; 2; 2) или =2*(1-СТЬЮДЕНТ.РАСП(ABS( t ₀ ); n ₁ +n ₂ –2;ИСТИНА))

Для односторонней гипотезы μ ₁< μ ₂ p -значение вычисляется по формуле: =СТЬЮДЕНТ.ТЕСТ( выборка1 ; выборка2 ; 1; 2) или =СТЬЮДЕНТ.РАСП( t ₀ ; n ₁ +n ₂ –2;ИСТИНА)

Для односторонней гипотезы μ ₁ > μ ₂ p -значение вычисляется по формуле: =1-СТЬЮДЕНТ.ТЕСТ( выборка1 ; выборка2 ; 1; 2) или =1-СТЬЮДЕНТ.РАСП( t ₀ ; n ₁ +n ₂ –2;ИСТИНА)

Пакет анализа

В надстройке Пакет анализа для проведения двухвыборочного t -теста с одинаковыми дисперсиями имеется специальный инструмент: Двухвыборочный t -тест с одинаковыми дисперсиями (t-Test: Two-Sample Assuming Equal Variances).

После выбора инструмента откроется окно, в котором требуется заполнить следующие поля (см. файл примера лист Пакет анализа ):

интервал переменной 1 : ссылка на значения первой выборки . Ссылку указывать лучше с заголовком. В этом случае, при выводе результата надстройка выводит заголовки, которые делают результат нагляднее (в окне требуется установить галочку Метки );
интервал переменной 2 : ссылка на значения второй выборки ;
гипотетическая средняя разность : укажите значение Δ ₀ , т.е. μ ₁ - μ ₂ . В нашем случае, введем 0;
Метки: если в полях интервал переменной 1 и интервал переменной 2 указаны ссылки вместе с заголовками столбцов, то эту галочку нужно установить. В противном случае надстройка не позволит провести вычисления и пожалуется, что « входной интервал содержит нечисловые данные »;
Альфа: уровень значимости α;
Выходной интервал: диапазон ячеек, куда будут помещены результаты вычислений. Достаточно указать левую верхнюю ячейку этого диапазона.

В результате вычислений будет заполнен указанный Выходной интервал.

Тот же результат можно получить с помощью формул (см. файл примера лист Пакет анализа ):

Разберем результаты вычислений, выполненных надстройкой:

Среднее : средние значения обеих выборок Хср ₁ и Хср ₂ . Вычисления можно сделать с помощью функции СРЗНАЧ() ;
Дисперсия : дисперсии обеих выборок. Вычисления можно сделать с помощью функции ДИСП.В()
Наблюдения : размер выборок. Вычисления можно сделать с помощью функции СЧЁТ() ;
Объединенная дисперсия : Объединенная оценка дисперсии, т.е.величина s _p² ;
Df : число степеней свободы, т.е. величина n ₁ +n ₂ –2;
t -статистика : значение тестовой статистики t (в наших обозначениях – это t ₀ ). Вычисление t ₀ приведено в ячейке Е15 ;
P(T<=t) одностороннее : р-значение в случае односторонней альтернативной гипотезы μ ₁ - μ ₂ >Δ ₀ . Эквивалентная формула =1-СТЬЮДЕНТ.РАСП( t ₀ ; n ₁ +n ₂ –2;ИСТИНА) ;
t критическое одностороннее : Верхний α-квантиль t-распределения . Эквивалентная формула =СТЬЮДЕНТ.ОБР(1- α; n ₁ +n ₂ –2) ;
P(T<=t) двухстороннее: р-значение в случае двухсторонней альтернативной гипотезы μ ₁ - μ ₂<>Δ ₀ . Эквивалентная формула =2*(1-СТЬЮДЕНТ.РАСП(ABS( t ₀ ); n ₁ +n ₂ –2;ИСТИНА)) ;
t критическое двухстороннее: Верхний α/2-Квантиль t-распределения . Эквивалентная формула =СТЬЮДЕНТ.ОБР(1- α/2; n ₁ +n ₂ –2) .

СОВЕТ : О проверке других видов гипотез см. статью Проверка статистических гипотез в MS EXCEL .

Двухвыборочный t-тест с одинаковыми дисперсиями в EXCEL

history 11 декабря 2016 г.

Вычисление Р-значения

Функция СТЬЮДЕНТ.ТЕСТ()

Пакет анализа

home_work Excel2