Двухфакторный дисперсионный анализ с повторениями в MS EXCEL

Пусть имеется случайная переменная Y, значения которой мы можем измерять. Исследователь предполагает, что эта переменная зависит от 2-х факторов, значения которых мы можем контролировать, т.е. задавать с требуемой точностью. Покажем как методом дисперсионного анализа проверить гипотезу о наличии или отсутствии влияния указанных факторов на зависимую переменную Y.

Disclaimer: Эта статья – о применении MS EXCEL для целей Дисперсионного анализа, поэтому данную статью не стоит рассматривать, как пересказ главы из учебника по статистике. Статья не обладает ни полнотой, ни строгостью изложения положений статистической науки. Теоретические отступления приведены лишь из соображения логики изложения. Использование данной статьи для изучения теории Дисперсионного анализа – плохая идея. Хорошая идея - найти в этой статье формулы MS EXCEL для проведения Дисперсионного анализа.

Напомним, что дисперсионный анализ (ANOVA, ANalysis Of VAriance) позволяет проверить гипотезу о равенстве средних значений выборок (взяты ли выборки из одного распределения или из разных распределений). Данная задача возникает, например, когда необходимо исследовать зависимость некой количественной величины Y от одной или нескольких переменных (факторов), которые мы можем контролировать (устанавливать их значения). Действительно, если фактор оказывает влияние на зависимую переменную Y, то при разных уровнях фактора мы должны в среднем получать различные значения Y, т.е. мы должны получить «заметно отличающиеся» средние значения выборок. В статье будет показано, что значит средние выборок «заметно отличаются».

В этой статье рассмотрим метод дисперсионного анализа в случае двух факторов (Фактор А и Фактор В) (Two Factor ANOVA with Replication).

СОВЕТ: Перед прочтением этой статьи рекомендуется освежить в памяти Однофакторный дисперсионный анализ.

Обозначения

Отдельные, заданные значения каждого фактора называются уровнями (levels) или испытаниями (treatments).

Уровни фактора А будем обозначать буквой j (j изменяется от 1 до a). Уровни фактора В будем обозначать буквой i (i изменяется от 1 до b). Каждой паре уровней факторов соответствует одна выборка, которая состоит из m измерений, каждое измерение будем обозначать буквой k (k от 1 до m). Таким образом, измеренные значения Y при уровне j фактора А и при уровне i фактора В будем обозначать yijk. Всего выборок a*b.

Предполагается, что дисперсии всех выборок σ2 неизвестны, но равны между собой.

Рассмотрим двухфакторный дисперсионный анализ при решении задачи.

Задача

В компании, изготавливающей изделия путем механообработки, необходимо исследовать влияние на качество изделия двух факторов: Метода обработки поверхности детали, и Исходного материала детали (используется сталь с различным легированием).

Метод обработки представляет собой фактор А, который может принимать 3 значения (Метод 1, Метод 2, Метод 3), а Исходный материал представляет собой фактор В, который может принимать 2 значения (№ 1, № 2). Качество изделий будем определять по количеству дефектных изделий в партии (это будет зависимой переменной Y).

Всего различных комбинаций 2-х факторов 6=3*2=a*b. Для каждой комбинации факторов было проведено по 3 измерения (т.е. m=3). Исходные данные приведены в файле примера.

Другими словами мы имеем 6 выборок по 3 значения в каждой. Средние этих выборок для каждой комбинации факторов ij можно вычислить по формуле:

Также для дальнейших вычислений нам потребуется вычислить еще несколько средних значений. Во-первых, вычислим среднее всех измерений, относящихся к каждому уровню i Фактора А:

Во-вторых, вычислим среднее всех измерений, относящихся к каждому уровню j Фактора В:

Взаимодействие факторов

Теперь, используя эти 6 средних значений, построим диаграмму, которая состоит из 2-х рядов.

По оси Х (абсцисс) отложены уровни Фактора А, по оси ординат отложены средние значения переменной Y (среднее количество дефектов для заданных уровней факторов). Средние значения сгруппированы по 2-м уровням Фактора В (Синяя и красная линии. Каждая линия представляет собой отдельный ряд диаграммы).

Как видно из диаграммы – синяя и красная линии практически параллельны друг другу. Это означает, что взаимодействие между факторами практически отсутствует (они не влияют друг на друга). Действительно, выбор метода обработки никак не может влиять на выбор конкретного исходного материала.

Вот еще одна диаграмма, демонстрирующая независимость 2-х факторов.

Обратная ситуация показана на диаграмме ниже, когда оба фактора взаимодействуют.

Из этой диаграммы видно, что при уровне №1 фактора В (синяя линия) количество дефектов сначала возрастает, затем снижается (когда мы переходим от метода №1 к №2, затем к №3). Мы наблюдаем диаметрально противоположную ситуацию при уровне №2 фактора В (красная линия): количество дефектов сначала снижается, а затем возрастает. В этом случае говорят о наличии взаимодействия факторов.

В случае взаимодействия факторов А и В, эффект от их взаимодействия может быть рассмотрен как некий третий фактор АВ. Чтобы пояснить это рассмотрим задачу анализа влияния на урожайность свеклы 2-х факторов: Вид семян и Тип почвы. Очевидно, что факторы Вид семян и Тип почвы не являются независимыми: можно утверждать, что для всех с/х культур на разных почвах разные типы семян дадут разную всхожесть. Различные комбинации Вид семян - Тип почвы могут сильно влиять на урожайность и поэтому взаимодействие факторов может вносить определенный вклад в разброс исходных данных.

Взаимодействие факторов было рассмотрено столь подробно, так как отсутствие или наличие взаимодействия принципиально влияет на ход дисперсионного анализа. При отсутствии взаимодействия влияние каждого фактора на переменную Y может быть рассмотрено по отдельности. При наличии взаимодействия анализировать влияние каждого фактора по отдельности нельзя. Альтернативным вариантом анализа в этом случае является однофакторный дисперсионный анализ, целью которого может быть поиск оптимального сочетания 2-х факторов.

Возвращаемся к диаграммам взаимодействия. Очевидно, что делать заключение о наличии или отсутствии взаимодействия факторов невозможно лишь по взаимному расположению линий на диаграмме. Для формулирования утверждения о взаимодействии требуется составить математическое выражение. Это выражение должно вычисляться на основании исходных данных, а результат должен сравниваться с неким критическим значением. Займемся этим в следующем разделе.

Определяем причины изменчивости исходных данных

По аналогии с однофакторным дисперсионным анализом общую изменчивость (разброс) значений Y относительно общего среднего (SST = Sum of Squares Total, общая сумма квадратов) определим как сумму нескольких компонентов, в данном случае 4-х:

SST=SSA+SSB+ SSвзаим+SSE

  • SSA – изменчивость, которую можно объяснить выбором метода обработки (фактор А)
  • SSВ - изменчивость обусловленная выбором материала детали (фактор В)
  • SSвзаим - изменчивость обусловленная взаимодействием 2-х факторов
  • SSE - ошибка модели (Error Sum of Squares).

 SST и все 4 компонента вычисляются на основании имеющихся исходных данных:

Примечание: Вычисления SST и всех 4-х компонентов выполнены в файле примера.

Также в дисперсионном анализе используется понятие среднего квадрата отклонений (Mean Square) или сокращенно MS. Соответственно для SST имеем MST=SST/(N-1), где N= a*b*m является общим количеством измерений (18). Для других SS степени свободы приведены в таблице ниже.

Таким образом, MS имеет смысл средней изменчивости на 1 наблюдение (с некоторой поправкой). Эта поправка отражает тот факт, что MS должна вычисляться не делением SS на соответствующее количество наблюдений, а делением на число степеней свободы (degrees of freedom, DF). Например, чтобы вычислить MST, мы из N (общего количества наблюдений) должны вычесть 1, т.к. в выражении SST присутствует одно (1) среднее значение (аналогично тому, как мы делали при вычислении дисперсии).

В случае двухфакторного дисперсионного анализа формируется 3 нулевых гипотезы.

  • Гипотеза Н0взаим об отсутствии взаимодействия Фактора А и Фактора В. Альтернативная гипотеза Н1взаим формулируется о наличии взаимодействия.
  • гипотеза Н01 заключается в том, что уровень фактора А (метод обработки поверхности) не влияет на измеренные значения Y (количество дефектов), т.е. средние значения выборок, относящиеся к различным уровням Фактора А не отличаются статистически значимо (их различие может быть объяснено лишь случайностью выборок).
  • гипотеза Н02 заключается в том, что уровень фактора В (Исходный материал) не влияет на измеренные значения Y (количество дефектов), т.е. средние значения выборок, относящиеся к различным уровням Фактора В не отличаются статистически значимо.

Сначала тестируют гипотезу об отсутствии взаимодействия между факторами. Мы можем отклонить Н0взаим в пользу Н1взаим при заданном уровне значимости α (альфа), если вычисленное значение тестовой статистики F= MSвзаим /MSE больше Fкритич альфа – значения случайной величины F имеющей распределение Фишера с (b-1)*(a-1) и a*b*(m-1) степенями свободы.

Если взаимодействие между факторами отсутствует, то можно начинать тестировать гипотезы Н01 и Н02. При наличии взаимодействия анализировать влияние каждого фактора по отдельности нельзя. Альтернативным вариантом анализа в этом случае является однофакторный дисперсионный анализ, целью которого может быть поиск оптимального сочетания 2-х факторов.

Чтобы проверить гипотезы необходимо вычислить значения тестовых статистик и сравнить их с соответствующими критическими значениями Fкритич, вычисленными для заданного уровня значимости альфа. Если вычисленное значение F01= MSА/MSE больше F1критич, то нулевую гипотезу Н01 об отсутствии влияния уровней Фактора А отклоняют. Аналогичные умозаключения справедливы и для Фактора В.

Проверить гипотезу Н01 можно и через вычисление p-значения, которое представляет собой вероятность того, что случайная величина F1= MSА/MSE примет значение более F01. Далее p-значение сравнивают с уровнем значимости. Если p-значение менее уровня значимости, то нулевую гипотезу отклоняют. Действительно, если вычисленное значение F01 получить маловероятно, то это ставит под сомнение справедливость того, что случайная величина F1= MSА/MSE имеет распределение Фишера с a-1 и a*b*(m-1) степенями свободы, а следовательно и саму нулевую гипотезу. В этом случае мы можем считать, что справедлива альтернативная гипотеза: уровни фактора А влияют на зависимую переменную Y.

Вычисления в MS EXCEL

В файле примера приведено решение вышеуказанной задачи: вычислены средние значения выборок, суммы квадратов (SS), степеней свобод, средние квадратов отклонений (MS).

Для вычислений критических значений в MS EXCEL имеется специальная функция =F.ОБР.ПХ()

Формула для вычисления F1критич= F.ОБР.ПХ(a-1; a*b*(m-1);альфа)

В MS EXCEL первое p-значение (вероятность того, что случайная величина F1= MSА/MSE примет значение более F01) можно вычислить по формуле:

=F.РАСП.ПХ((MSА/MSE; a-1; a*b*(m-1))

Второе p-значение (вероятность того, что случайная величина F2= MSВ/MSE примет значение более F02) вычисляется по аналогичным формулам.

В нашей задаче p-значения получились 0,000 и 0,253, что значительно меньше обычно принимаемого в качестве уровня значимости 0,05. Таким образом, обе нулевых гипотезы отклоняются.


Связанные статьи

Похожие задачи
Прочитайте другие статьи, решающие похожие задачи в MS Excel. Это позволит Вам решать широкий класс подобных задач.
Средняя: 5 (1 оценка)