Двухвыборочный t-тест с различными дисперсиями в EXCEL

Рассмотрим использование MS EXCEL при проверке статистических гипотез о разнице средних значений 2-х распределений в случае неизвестных дисперсий (дисперсии этих 2-х распределений разные). Вычислим значение тестовой статистики t 0 *, рассмотрим соответствующую процедуру «двухвыборочный t -тест», вычислим Р-значение (Р- value ). С помощью надстройки Пакет анализа сделаем «Двухвыборочный t-тест с различными дисперсиями».


Имеется две независимых случайных величины. Эти случайные величины имеют распределения с неизвестными средними значениями μ 1 и μ 2 . Дисперсии этих распределений неизвестны и не равны между собой (обозначим их σ 1 2 и σ 2 2 ). Из этих распределений получены две выборки размером n 1 и n 2 .

Необходимо произвести проверку гипотезы о разнице средних значений этих распределений: μ 1 - μ 2 (англ. Hypothesis tests for a difference in means, populations with unknown and unequal variances).

Нулевая гипотеза H 0 звучит так: разница средних значений равна Δ 0 , т.е. Δ 0 = (μ 1 - μ 2 ). Часто предполагается, что Δ 0 =0, следовательно, μ 1 = μ 2 (значение Δ 0 задается исследователем исходя из условий решаемой задачи).

Альтернативная гипотеза H 1 : (μ 1 - μ 2 )<>Δ 0 . Т.е. нам требуется проверить двухстороннюю гипотезу .

СОВЕТ : При первом знакомстве с процедурой двухвыборочного t -теста может быть полезным освежить в памяти процедуру одновыброчного t-теста для среднего при неизвестной дисперсии .

СОВЕТ : Для проверки гипотез нам потребуется знание следующих понятий:

Примечание : Вышеуказанные распределения не обязательно должны быть нормальными . Однако, требуется чтобы выполнялись условия применимости Центральной предельной теоремы . Если размеры выборок меньше 30, то для справедливости сделанных здесь выводов, необходимо, чтобы выборки были сделаны из нормального распределения .

Точечной оценкой для Δ 0 или для μ 1 - μ 2 является разница между средними значениями, вычисленными на основании выборок из этих (независимых) распределений, т.е. Хср 1 - Хср 2 .

Когда дисперсии распределений, из которых сделаны выборки, не равны между собой, не существует точной t -статистики для проверки нулевой гипотезы , как для случая с одинаковыми дисперсиями (см. статью Двухвыборочный t-тест с одинаковыми дисперсиями ). Однако, при условии истинности нулевой гипотезы , статистика t* :

приблизительно имеет t -распределение с v (ню) степенями свободы:

Процедура t -теста в случае разных дисперсий аналогична процедуре t -теста в случае одинаковых дисперсий , за исключением того, что вместо t -статистики используется вышеуказанная статистики t*. Значение, которое приняла t *-статистика обозначим t 0 *.

Проверка двухсторонней гипотезы сводится к сравнению t 0 * с квантилями эталонного распределения , в данном случае распределения Стьюдента с v степенями свободы. Эта процедура носит название двухвыборочный t -тест в случае разных дисперсий (The two-sample t-Test with unequal variances).

Если вычисленное на основе выборок значение t 0 *, в случае двухсторонней гипотезы , не попадет в область значений ограниченной нижним и верхним α /2-квантилями t - распределения с v степенями свободы , то у нас будет основание отвергнуть нулевую гипотезу. Это утверждение эквивалентно случаю, когда Хср 1 - Хср 2 окажется вне пределов соответствующего доверительного интервала . В файле примера на листе Сигма неизвестн а показана эквивалентность доверительного интервала и соответствующего двухвыборочного t -теста.

Примечание : Про построение соответствующего двухстороннего доверительного интервала можно прочитать в этой статье Доверительный интервал для разницы средних значений 2-х распределений (дисперсии неизвестны и не равны) в MS EXCEL .

Примечание : Верхний α /2-квантиль - это такое значение случайной величины t v , что P ( t v >= t α /2, v )= α /2. Подробнее о квантилях распределений см. статью Квантили распределений MS EXCEL .

Чтобы в MS EXCEL вычислить значение t α /2, v для различных уровней значимости (10%; 5%; 1%) и степеней свобод можно использовать несколько формул: =СТЬЮДЕНТ.ОБР.2Х( α ; v) =СТЬЮДЕНТ.ОБР(1- α /2; v) =-СТЬЮДЕНТ.ОБР( α /2; v) =СТЬЮДРАСПОБР( α ; v)

Примечание : Подробнее про функции MS EXCEL, связанные с t - распределением см. статью t-распределение .

Примечание : Число степеней свободы v должно быть округлено до ближайшего целого .

Итак, если при проверке двухсторонней гипотезы формула =ABS(t 0 *) вернет значение больше, чем результат формулы =СТЬЮДЕНТ.ОБР.2Х( α ; v) , то это означает, что необходимо отвергнуть нулевую гипотезу (вычисления приведены файле примера на листе Сигма неизвестна ) .

Для односторонней альтернативной гипотезы 1 - μ 2 )>Δ 0 , нулевая гипотеза будет отвергнута в случае t 0 *> t α /2, v .

Для односторонней альтернативной гипотезы 1 - μ 2 )<Δ 0 , нулевая гипотеза будет отвергнута в случае t 0 *<- t α /2, v .

СОВЕТ : Перед проверкой гипотез о равенстве средних значений полезно построить двумерную гистограмму , чтобы визуально определить центральную тенденцию и разброс данных в обеих выборок .

Вычисление Р-значения

При проверке гипотез, помимо t -теста, большое распространение получил еще один эквивалентный подход, основанный на вычислении p -значения (p-value).

Если p-значение меньше чем заданный уровень значимости α , то нулевая гипотеза отвергается и принимается альтернативная гипотеза . И наоборот, если p-значение больше α , то нулевая гипотеза не отвергается.

В случае двусторонней гипотезы p-значение равно суммарной вероятности, что t -статистика примет значение больше |t 0 *| и меньше -|t 0 *|.

Подробнее про p -значение см., например, статью про двухвыборочный z-тест .

В MS EXCEL p -значение для двухсторонней гипотезы вычисляется по формуле: =2*(1-СТЬЮДЕНТ.РАСП(ABS(t 0 *); v;ИСТИНА))

Примечание : Вычисления приведены файле примера на листе Сигма неизвестна .

Для односторонней гипотезы μ 1 - μ 2 > Δ 0 p -значение вычисляется по формуле: =1-СТЬЮДЕНТ.РАСП(t 0 *; v;ИСТИНА) В этом случае p-значение равно вероятности, что t -статистика примет значение больше t 0 *.

Для односторонней гипотезы μ 1 - μ 2 < Δ 0 p -значение вычисляется по формуле: =СТЬЮДЕНТ.РАСП(t 0 *; v;ИСТИНА) В этом случае p-значение равно вероятности, что t -статистика примет значение меньше t 0 *.

В файле примера на листе Сигма неизвестна показана эквивалентность проверки гипотезы через доверительный интервал , статистику t * ( t -тест) и p -значение .

В MS EXCEL есть функция СТЬЮДЕНТ.TEСT() , которая вычисляет p-значение для 3-х различных двухвыборочных t -тестов (см. следующий раздел статьи) . К сожалению, эта функция может быть использована только для проверки гипотез с Δ 0 =0, то есть для проверки гипотез о равенстве средних μ 1 = μ 2 . Об этом легко догадаться, т.к. среди ее параметров отсутствует параметр Гипотетическая разность средних , т.е. Δ 0 .

Функция СТЬЮДЕНТ.ТЕСТ()



Функция СТЬЮДЕНТ.ТЕСТ() используется для оценки различия двух выборочных средних . До MS EXCEL 2010 имелась аналогичная функция ТТЕСТ() .

Примечание : В английской версии функция носит название T.TEST(), старая версия - TTEST().

Функция СТЬЮДЕНТ.ТЕСТ() имеет 4 параметра. Первые два – это ссылки на диапазоны ячеек, содержащие выборки из 2-х сравниваемых распределений.

Третий параметр имеет название «хвосты». Этот параметр задает тип проверяемой гипотезы: односторонняя (=1) или двухсторонняя (=2). Если мы проверяем двухстороннюю гипотезу , то смотрим, не попало ли значение тестовой статистики в один из 2-х хвостов соответствующего t-распределения . Если мы проверяем одностороннюю гипотезу (имеется ввиду гипотеза μ 1 < μ 2 ), то «хвост» всего один.

Как было сказано выше, эта функция вычисляет p -значение для 3-х различных двухвыборочных t -тестов . За это отвечает четвертый параметр функции, который принимает значения от 1 до 3:

  1. Парный двухвыборочный t-тест для средних ;
  2. Двухвыборочный t-тест с одинаковыми дисперсиями ;
  3. Двухвыборочный t-тест с разными дисперсиями.

Таким образом, p -значение для двухсторонней гипотезы (равные дисперсии ) вычисляется по формуле (см. файл примера ): =СТЬЮДЕНТ.ТЕСТ( выборка1 ; выборка2 ; 2; 3) или =2*(1-СТЬЮДЕНТ.РАСП(ABS(t 0 *); v;ИСТИНА))

Для односторонней гипотезы μ 1 < μ 2 p -значение вычисляется по формуле: =СТЬЮДЕНТ.ТЕСТ( выборка1 ; выборка2 ; 1; 3) или =СТЬЮДЕНТ.РАСП(t 0 *; v;ИСТИНА)

Для односторонней гипотезы μ 1 > μ 2 p -значение вычисляется по формуле: =1-СТЬЮДЕНТ.ТЕСТ( выборка1 ; выборка2 ; 1; 3) или =1-СТЬЮДЕНТ.РАСП(t 0 *; v;ИСТИНА)

К сожалению, результаты, возвращаемые функцией СТЬЮДЕНТ.ТЕСТ() и формулой на основе функции СТЬЮДЕНТ.РАСП() незначительно отличаются (в 4-м знаке после запятой). Причем различие проявляется только для случая с неравными дисперсиями.

Какой результат правильный? В поддержку формулы на основе функции СТЬЮДЕНТ.РАСП() выступает надстройка Пакет анализа , которая возвращает аналогичный ей результат (см. ниже).

Пакет анализа

В надстройке Пакет анализа для проведения двухвыборочного t -теста с различными дисперсиями имеется специальный инструмент: Двухвыборочный t -тест с различными дисперсиями (t-Test: Two-Sample Assuming Unequal Variances).

После выбора инструмента откроется окно, в котором требуется заполнить следующие поля (см. файл примера лист Пакет анализа ):

  • интервал переменной 1 : ссылка на значения первой выборки . Ссылку указывать лучше с заголовком. В этом случае, при выводе результата надстройка выводит заголовки, которые делают результат нагляднее (в окне требуется установить галочку Метки );
  • интервал переменной 2 : ссылка на значения второй выборки ;
  • гипотетическая средняя разность : укажите значение Δ 0 , т.е. μ 1 - μ 2 . В нашем случае, введем 0;
  • Метки: если в полях интервал переменной 1 и интервал переменной 2 указаны ссылки вместе с заголовками столбцов, то эту галочку нужно установить. В противном случае надстройка не позволит провести вычисления и пожалуется, что « входной интервал содержит нечисловые данные »;
  • Альфа: уровень значимости ;
  • Выходной интервал: диапазон ячеек, куда будут помещены результаты вычислений. Достаточно указать левую верхнюю ячейку этого диапазона.

В результате вычислений будет заполнен указанный Выходной интервал.

Тот же результат можно получить с помощью формул (см. файл примера лист Пакет анализа ):

Разберем результаты вычислений, выполненных надстройкой:

  • Среднее : средние значения обеих выборок Хср 1 - Хср 2 . Вычисления можно сделать с помощью функции СРЗНАЧ() ;
  • Дисперсия : дисперсии обеих выборок. Вычисления можно сделать с помощью функции ДИСП.В()
  • Наблюдения : размер выборок. Вычисления можно сделать с помощью функции СЧЁТ()
  • Df : число степеней свободы. Вычисление v приведено в ячейке Е10 ;
  • t -статистика : значение тестовой статистики t (в наших обозначениях – это t 0 *). Вычисление t 0 * приведено в ячейке Е16 ;
  • P(T<=t) одностороннее : р-значение в случае односторонней альтернативной гипотезы μ 1 - μ 2 0 . Эквивалентная формула =1-СТЬЮДЕНТ.РАСП(t 0 *; v ; ИСТИНА) ;
  • t критическое одностороннее : Верхний α -квантиль t-распределения. Эквивалентная формула =СТЬЮДЕНТ.ОБР(1- α ; v) ;
  • P(T<=t) двухстороннее: р-значение в случае двухсторонней альтернативной гипотезы μ 1 - μ 2 <>Δ 0 . Эквивалентная формула =2*(1-СТЬЮДЕНТ.РАСП(ABS(t 0 *); v; ИСТИНА)) ;
  • t критическое двухстороннее: Верхний α /2-Квантиль t-распределения . Эквивалентная формула =СТЬЮДЕНТ.ОБР(1- α /2; v) .

Отметим, что значения P(T<=t) двухстороннее и P(T<=t) одностороннее не совпадают в 4-м знаке после запятой с соответствующими результатами функции СТЬЮДЕНТ.ТЕСТ() . Например,

  • 0,398457254347491 (результат, возвращаемый надстройкой)
  • 0,398359475709341 (результат, возвращаемый функцией)

Это первый, замеченный мной случай в MS EXCEL, когда результат зависит от применяемого инструмента.

СОВЕТ : О проверке других видов гипотез см. статью Проверка статистических гипотез в MS EXCEL .

© Copyright 2013 - 2020 Excel2.ru. All Rights Reserved