Реализация однофакторного дисперсионного анализа в среде Statistica 10
Разнообразие роста 12 взрослых человек: 7 женщин и 5 мужчин заданы в таблице:
№
Пол
Рост
1
Мужчина
186
2
Женщина
169
3
Женщина
166
4
Мужчина
188
5
Женщина
172
6
Женщина
179
7
Женщина
165
8
Мужчина
174
9
Женщина
163
10
Мужчина
162
11
Женщина
162
12
Мужчина
190
Провести однофакторный дисперсионный анализ: сравнить, значимо ли отличаются мужчины и женщины в охарактеризованной группе по росту.
Создадим таблицу в программе Statistica, куда внесем данные из примера.
Тест на нормальность распределения
Дальнейшие рассуждения основываются на том, что распределение в рассматриваемой выборке нормальное или близкое к нормальному.
Если распределение далеко от нормального, дисперсия не является адекватной мерой его изменчивости. Впрочем, дисперсионный анализ относительно устойчив к отклонениям распределения от нормальности.
Тест этих данных на нормальность можно провести двумя способами:
Первый способ – Statistics/Basic Statistics/Descriptive Statistics (Рис.7.1)Вкладка Normality (Рис.7.2).
Во вкладке Normality можно выбрать используемые тесты нормальности распределения.
При нажатии на кнопку Frequency tables появится частотная таблица, а на кнопку Histograms — гистограмма. На таблице и гистограмме будут приведены результаты различных тестов.
Рис.7.1 Окно Basic Statistics and Tables
Рис. 7.2 Окно Descriptive Statistics
2) Второй способ связан с использованием соответствующих возможностей при построении гистограмм.
В диалоге построения гистограмм (Graphs/Histograms...) следует выбрать вкладку Advanced (Рис.7.3).
В ее нижней части есть блок Statistics. Отметим на ней Shapiro-Wilk test и Kolmogorov-Smirnov test, как это показано на рисунке.
Рис.7.3 Статистические тесты на нормальность распределения в диалоге построения гистограмм
Рис.7.4 Гистограмма, построенная с параметрами,
указанными на предыдущем рисунке
Как видно по гистограмме (Рис.7.4), распределение роста в нашей выборке отличается от нормального (в середине — «провал»).
Третья строка в заголовке графика указывает параметры нормального распределения, к которому оказалось ближе всего наблюдаемое распределение. Генеральное среднее составляет 173, генеральное стандартное отклонение — 10,4. Внизу во врезке на графике указаны результаты тестов на нормальность. D — это критерий Колмогорова-Смирнова, а SW-W — Шапиро-Вилка.
Как видно, для всех использованных тестов отличия распределения по росту от нормального распределения оказались незначимыми (во всех случаях р>0,05).
Дисперсионный анализ относительно устойчив к отклонениям от нормальности, поэтому применяется в статистике.
Однофакторный анализ в Statistica 10
Чтобы проанализировать данный пример с помощью простейшего варианта дисперсионного анализа, нужно запустить для файла с соответствующими данными процедуру Statistics/ANOVA и выбрать в окне Type of analysis вариант One-way ANOVA (однофакторный дисперсионный анализ), а в окне Specification method – вариант Quick specs dialog (Рис.7.5).
В открывшемся окне быстрого диалога в поле Variables (Переменные)нужно указать те столбцы, которые содержат данные, изменчивость которых мы изучаем (Dependent - Зависимые переменные; в нашем случае: столбец- Рост), а также столбец, содержащий значения, разбивающие изучаемую величину на группы (Categorical factor - Категориальный фактор; в нашем случае: столбец - Пол) (Рис.7.6).
В данном варианте анализа, в отличие от многофакторного анализа, может рассматриваться только один фактор.
Рис.7.5 Диалог General ANOVA / MANOVA (Дисперсионный анализ)
В окне Factor codes (Коды факторов) следует указать те значения рассматриваемого фактора, которые нужно обрабатывать в ходе данного анализа.
Все имеющиеся значения можно посмотреть с помощью кнопки Zoom; если, как в нашем примере, нужно рассматривать все значения фактора (а для пола в нашем примере их всего два), можно нажать кнопку All (Все).
Когда заданы обрабатываемые столбцы и коды фактора, нажимая кнопку OK можно перейти в окно быстрого анализа результатов: ANOVA Results 1, во вкладку Quick (Быстрый) (Рис.7.7).
Рис. 7.7 Вкладка Quick (Быстрый) окна результатов дисперсионного анализа
Кнопка All effects/Graphs (Все эффекты/Графики)позволяет увидеть, как соотносятся средние двух групп.
Над графиком указывается число степеней свободы, значения «F»и «p» для рассматриваемого фактора (Рис.7.8).
Рис.7.8 Графическое отображение результатов дисперсионного анализа
Кнопка All effects (Все эффекты) позволяет получить таблицу дисперсионного анализа (Рис.7.9).
Рис.7.9 Таблица с результатами дисперсионного анализа
В нижней строке таблицы указана сумма квадратов, количество степеней свободы и средние квадраты для ошибки (внутригрупповой изменчивости).
На строку выше – аналогичные показатели для исследуемого фактора (в данном случае: признак – Пол), a также критерий «F», и уровень его значимости.
То, что действие рассматриваемого фактора оказалось значимым, показывает выделение красным цветом.
В первой строке приведены данные по показателю «Intercept», данные этой строки можно проигнорировать.