Двухвыборочный t-тест с различными дисперсиями в MS EXCEL

Рассмотрим использование MS EXCEL при проверке статистических гипотез о разнице средних значений 2-х распределений в случае неизвестных дисперсий (дисперсии этих 2-х распределений разные). Вычислим значение тестовой статистики t0*, рассмотрим соответствующую процедуру «двухвыборочный t-тест», вычислим Р-значение (Р-value). С помощью надстройки Пакет анализа сделаем «Двухвыборочный t-тест с различными дисперсиями».

Имеется две независимых случайных величины. Эти случайные величины имеют распределения с неизвестными средними значениями μи μ2. Дисперсии этих распределений неизвестны и не равны между собой (обозначим их σ12 и σ22). Из этих распределений получены две выборки размером n1 и n2.

Необходимо произвести проверку гипотезы о разнице средних значений этих распределений: μ- μ2 (англ. Hypothesis tests for a difference in means, populations with unknown and unequal variances).

Нулевая гипотеза H0 звучит так: разница средних значений равна Δ0, т.е. Δ= (μ- μ2). Часто предполагается, что Δ0=0, следовательно, μ= μ2 (значение Δзадается исследователем исходя из условий решаемой задачи).

Альтернативная гипотеза H1: (μ- μ2)<>Δ0. Т.е. нам требуется проверить двухстороннюю гипотезу.

СОВЕТ: При первом знакомстве с процедурой двухвыборочного t-теста может быть полезным освежить в памяти процедуру одновыброчного t-теста для среднего при неизвестной дисперсии.

СОВЕТ: Для проверки гипотез нам потребуется знание следующих понятий:

Примечание: Вышеуказанные распределения не обязательно должны быть нормальными. Однако, требуется чтобы выполнялись условия применимости Центральной предельной теоремы. Если размеры выборок меньше 30, то для справедливости сделанных здесь выводов, необходимо, чтобы выборки были сделаны из нормального распределения.

Точечной оценкой для Δ0 или для μ- μ2 является разница между средними значениями, вычисленными на основании выборок из этих (независимых) распределений, т.е. Хср1- Хср2.

Когда дисперсии распределений, из которых сделаны выборки, не равны между собой, не существует точной t-статистики для проверки нулевой гипотезы, как для случая с одинаковыми дисперсиями (см. статью Двухвыборочный t-тест с одинаковыми дисперсиями). Однако, при условии истинности нулевой гипотезы, статистика t*:

приблизительно имеет t-распределение с v (ню) степенями свободы:

Процедура t-теста в случае разных дисперсий аналогична процедуре t-теста в случае одинаковых дисперсий, за исключением того, что вместо t-статистики используется вышеуказанная статистики t*. Значение, которое приняла t*-статистика обозначим t0*.

Проверка двухсторонней гипотезы сводится к сравнению t0* с квантилями эталонного распределения, в данном случае распределения Стьюдента с v степенями свободы. Эта процедура носит название двухвыборочный t-тест в случае разных дисперсий (The two-sample t-Test with unequal variances).

Если вычисленное на основе выборок значение t0*, в случае двухсторонней гипотезы, не попадет в область значений ограниченной нижним и верхним α/2-квантилями t-распределения с v степенями свободы, то у нас будет основание отвергнуть нулевую гипотезу. Это утверждение эквивалентно случаю, когда Хср1- Хср2 окажется вне пределов соответствующего доверительного интервала. В файле примера на листе Сигма неизвестна показана эквивалентность доверительного интервала и соответствующего двухвыборочного t-теста.

Примечание: Про построение соответствующего двухстороннего доверительного интервала можно прочитать в этой статье Доверительный интервал для разницы средних значений 2-х распределений (дисперсии неизвестны и не равны) в MS EXCEL.

Примечание: Верхний α/2-квантиль - это такое значение случайной величины tv, что P(tv>=tα/2, v)=α/2. Подробнее о квантилях распределений см. статью Квантили распределений MS EXCEL.

Чтобы в MS EXCEL вычислить значение tα/2, v для различных уровней значимости (10%; 5%; 1%) и степеней свобод можно использовать несколько формул:
=СТЬЮДЕНТ.ОБР.2Х(α; v)
=СТЬЮДЕНТ.ОБР(1- α /2; v)
=-СТЬЮДЕНТ.ОБР(α /2; v)
=СТЬЮДРАСПОБР(α; v)

Примечание: Подробнее про функции MS EXCEL, связанные с t-распределением см. статью t-распределение.

Примечание: Число степеней свободы v должно быть округлено до ближайшего целого.

Итак, если при проверке двухсторонней гипотезы формула =ABS(t0*) вернет значение больше, чем результат формулы =СТЬЮДЕНТ.ОБР.2Х(α; v), то это означает, что необходимо отвергнуть нулевую гипотезу (вычисления приведены файле примера на листе Сигма неизвестна).

Для односторонней альтернативной гипотезы- μ2)>Δ0, нулевая гипотеза будет отвергнута в случае t0*> tα/2, v.

Для односторонней альтернативной гипотезы- μ2)<Δ0, нулевая гипотеза будет отвергнута в случае t0*<-tα/2, v.

СОВЕТ: Перед проверкой гипотез о равенстве средних значений полезно построить двумерную гистограмму, чтобы визуально определить центральную тенденцию и разброс данных в обеих выборок.

Вычисление Р-значения

При проверке гипотез, помимо t-теста, большое распространение получил еще один эквивалентный подход, основанный на вычислении p-значения (p-value).

Если p-значение меньше чем заданный уровень значимости α, то нулевая гипотеза отвергается и принимается альтернативная гипотеза. И наоборот, если p-значение больше α, то нулевая гипотеза не отвергается.

В случае двусторонней гипотезы p-значение равно суммарной вероятности, что t-статистика примет значение больше |t0*| и меньше -|t0*|.

Подробнее про p-значение см., например, статью про двухвыборочный z-тест.

В MS EXCEL p-значение для двухсторонней гипотезы вычисляется по формуле:
=2*(1-СТЬЮДЕНТ.РАСП(ABS(t0*); v;ИСТИНА))

Примечание: Вычисления приведены файле примера на листе Сигма неизвестна.

Для односторонней гипотезы μ- μ2> Δp-значение вычисляется по формуле:
=1-СТЬЮДЕНТ.РАСП(t0*; v;ИСТИНА)
В этом случае p-значение равно вероятности, что t-статистика примет значение больше t0*.

Для односторонней гипотезы μ- μ2< Δ0 p-значение вычисляется по формуле:
=СТЬЮДЕНТ.РАСП(t0*; v;ИСТИНА)
В этом случае p-значение равно вероятности, что t-статистика примет значение меньше t0*.

В файле примера на листе Сигма неизвестна показана эквивалентность проверки гипотезы через доверительный интервал, статистику t* (t-тест) и p-значение.

В MS EXCEL есть функция СТЬЮДЕНТ.TEСT(), которая вычисляет p-значение для 3-х различных двухвыборочных t-тестов (см. следующий раздел статьи). К сожалению, эта функция может быть использована только для проверки гипотез с Δ0=0, то есть для проверки гипотез о равенстве средних μ= μ2. Об этом легко догадаться, т.к. среди ее параметров отсутствует параметр Гипотетическая разность средних, т.е. Δ0.

Функция СТЬЮДЕНТ.ТЕСТ()

Функция СТЬЮДЕНТ.ТЕСТ() используется для оценки различия двух выборочных средних. До MS EXCEL 2010 имелась аналогичная функция ТТЕСТ().

Примечание: В английской версии функция носит название T.TEST(), старая версия - TTEST().

Функция СТЬЮДЕНТ.ТЕСТ() имеет 4 параметра. Первые два – это ссылки на диапазоны ячеек, содержащие выборки из 2-х сравниваемых распределений.

Третий параметр имеет название «хвосты». Этот параметр задает тип проверяемой гипотезы: односторонняя (=1) или двухсторонняя (=2). Если мы проверяем двухстороннюю гипотезу, то смотрим, не попало ли значение тестовой статистики в один из 2-х хвостов соответствующего t-распределения. Если мы проверяем одностороннюю гипотезу (имеется ввиду гипотеза μ1 < μ2), то «хвост» всего один.

Как было сказано выше, эта функция вычисляет p-значение для 3-х различных двухвыборочных t-тестов. За это отвечает четвертый параметр функции, который принимает значения от 1 до 3:

  1. Парный двухвыборочный t-тест для средних;
  2. Двухвыборочный t-тест с одинаковыми дисперсиями;
  3. Двухвыборочный t-тест с разными дисперсиями.

Таким образом, p-значение для двухсторонней гипотезы (равные дисперсии) вычисляется по формуле (см. файл примера):
=СТЬЮДЕНТ.ТЕСТ(выборка1; выборка2; 2; 3) или
=2*(1-СТЬЮДЕНТ.РАСП(ABS(t0*); v;ИСТИНА))

Для односторонней гипотезы μ< μ2 p-значение вычисляется по формуле:
=СТЬЮДЕНТ.ТЕСТ(выборка1; выборка2; 1; 3) или
=СТЬЮДЕНТ.РАСП(t0*; v;ИСТИНА)

Для односторонней гипотезы μ> μ2 p-значение вычисляется по формуле:
=1-СТЬЮДЕНТ.ТЕСТ(выборка1; выборка2; 1; 3) или
=1-СТЬЮДЕНТ.РАСП(t0*; v;ИСТИНА)

К сожалению, результаты, возвращаемые функцией СТЬЮДЕНТ.ТЕСТ() и формулой на основе функции СТЬЮДЕНТ.РАСП() незначительно отличаются (в 4-м знаке после запятой). Причем различие проявляется только для случая с неравными дисперсиями.

Какой результат правильный? В поддержку формулы на основе функции СТЬЮДЕНТ.РАСП() выступает надстройка Пакет анализа, которая возвращает аналогичный ей результат (см. ниже).

Пакет анализа

В надстройке Пакет анализа для проведения двухвыборочного t-теста с различными дисперсиями имеется специальный инструмент: Двухвыборочный t-тест с различными дисперсиями (t-Test: Two-Sample Assuming Unequal Variances).

После выбора инструмента откроется окно, в котором требуется заполнить следующие поля (см. файл примера лист Пакет анализа):

  • интервал переменной 1: ссылка на значения первой выборки. Ссылку указывать лучше с заголовком. В этом случае, при выводе результата надстройка выводит заголовки, которые делают результат нагляднее (в окне требуется установить галочку Метки);
  • интервал переменной 2: ссылка на значения второй выборки;
  • гипотетическая средняя разность: укажите значение Δ0, т.е. μ- μ2. В нашем случае, введем 0;
  • Метки: если в полях интервал переменной 1 и интервал переменной 2 указаны ссылки вместе с заголовками столбцов, то эту галочку нужно установить. В противном случае надстройка не позволит провести вычисления и пожалуется, что «входной интервал содержит нечисловые данные»;
  • Альфа: уровень значимости;
  • Выходной интервал: диапазон ячеек, куда будут помещены результаты вычислений. Достаточно указать левую верхнюю ячейку этого диапазона.

В результате вычислений будет заполнен указанный Выходной интервал.

Тот же результат можно получить с помощью формул (см. файл примера лист Пакет анализа):

Разберем результаты вычислений, выполненных надстройкой:

  • Среднее: средние значения обеих выборок Хср1- Хср2. Вычисления можно сделать с помощью функции СРЗНАЧ();
  • Дисперсия: дисперсии обеих выборок. Вычисления можно сделать с помощью функции ДИСП.В()
  • Наблюдения: размер выборок. Вычисления можно сделать с помощью функции СЧЁТ()
  • Df: число степеней свободы. Вычисление v приведено в ячейке Е10;
  • t-статистика: значение тестовой статистики t (в наших обозначениях – это t0*). Вычисление t0* приведено в ячейке Е16;
  • P(T<=t) одностороннее: р-значение в случае односторонней альтернативной гипотезы μ- μ20. Эквивалентная формула =1-СТЬЮДЕНТ.РАСП(t0*; v; ИСТИНА);
  • t критическое одностороннее: Верхний α-квантиль t-распределения. Эквивалентная формула =СТЬЮДЕНТ.ОБР(1- α; v);
  • P(T<=t) двухстороннее: р-значение в случае двухсторонней альтернативной гипотезы μ- μ2<>Δ0. Эквивалентная формула =2*(1-СТЬЮДЕНТ.РАСП(ABS(t0*); v; ИСТИНА));
  • t критическое двухстороннее: Верхний α/2-Квантиль t-распределения. Эквивалентная формула =СТЬЮДЕНТ.ОБР(1- α/2; v).

Отметим, что значения P(T<=t) двухстороннее и P(T<=t) одностороннее не совпадают в 4-м знаке после запятой с соответствующими результатами функции СТЬЮДЕНТ.ТЕСТ(). Например,

  • 0,398457254347491 (результат, возвращаемый надстройкой)
  • 0,398359475709341 (результат, возвращаемый функцией)

Это первый, замеченный мной случай в MS EXCEL, когда результат зависит от применяемого инструмента.

СОВЕТ: О проверке других видов гипотез см. статью Проверка статистических гипотез в MS EXCEL.

Связанные статьи

Похожие задачи
Прочитайте другие статьи, решающие похожие задачи в MS Excel. Это позволит Вам решать широкий класс подобных задач.
Средняя: 5 (4 оценок)
Яндекс.Метрика