Электронная таблица
- Критерий Фишера 2xN таблицы сопряженности
- Приближенный критерий хи-квадрат
- Кластеризация факторов равного риска
- Точный тест Харди-Вайнберга для множественных аллелей
- Точный тест взаимодействия генов
1.1 Точный критерий Фишера 2xN
Покажем, что для малых выборок необходимо использовать точные методы. Запустим
электронную таблицу. Откроем файл test.sp. Выберем меню Analyse --> Fisher Test, см. рис.1.1:
Рис.1.1 Меню анализа электронной таблицы
Выделим мышью прямоугольную область ячеек B2:D3 и нажмем кнопку ОК, см.рис.1.2:
Рис.1.2 Выделение прямоугольной области 2х3 ячеек
В нижнем окне появится результат выполнения точного критерия Фишера, см.рис.1.3:
Рис.1.3 Вывод результата точного критерия Фишера.
Из рис.1.3 видно, то результат точного критерия Фишера
p-value=0.06363 , что почти
в три раза больше, чем для приближенного критерия хи-квадрат
p-value=0.023. Это означает, что на уровне значимости 0.05 по методу хи-квадрат выборки контроль и больные отличаются по возрастному составу, а в соответствии с точным методом Фишера - нет.
Алгоритм взят из
[1,2].
1.2 Приближенный критерий Фишера 2xN
Для практики абсолютная точность вычисления значимости не нужна, достаточно лишь нескольких знаков после запятой. Ограничение точности позволяет значительно ускорить получение результата и проводить вычисления для больших таблиц. Откроем файл fisher18.sp. Выберем меню Analyse --> Fisher 2xN Test..., выделим ячейки с числами, в поле Accuracy введем желаемую точность - число 2, см. рис.1.4:
Рис.1.4 Задание точности - 2 цифры после запятой.
и нажмем кнопку ОК. Результат появится через несколько секунд, см.рис.1.5:
Рис.1.5 Результат приближенного Фишера с двумя знаками после запятой.
Точные вычисления для таблицы рис.1.5 дают
p-value=
0.051572 см.
[1]. Из рис.1.5 видно, что первые 2 цифры после запятой совпадают.
Литература
- Requena F., Ciudad N., 2005. A major improvement to the Network Algorithm for Fisher’s Exact Test in 2xc contingency tables.
- Requena F., Ciudad N., 2003. The Maximum Probability 2xc Contingency Tables and the Maximum Probability Points of the Multivariate Hypergeometric Distribution.
[К оглавлению]
2.Приближенный критерий хи-квадрат
Покажем, какие кнопки нажимать, чтобы посчитать хи-квадрат. Откроем файл cluster_test.sp. Выберем меню Analyse --> Chi-squared test. Выделяем в таблице прямоугольную область с числами и нажимаем кнопку ОК. Для таблиц размерности 2х2 рекомендуется включить поправку Йейтса (Yates correction) на непрерывность, см.рис 2.1
Рис.2.1 Вычисление хи-квадрат.
Из рис.1.4 видно, что
p-value<0.05, следовательно на уровне значимости 0.05 частоты некоторых факторов в 2-х выборках отличаются.
Литература
- Saul A. Teukolsky, 2002. Numerical recipes in C. The Art of Scientific Computing. Second edition.
[К оглавлению]
3. Кластеризация факторов равного риска
Покажем, какие кнопки нажимать, чтобы сгруппировать факторы в 2-х выборках по степени риска. Откроем файл cluster_test.sp. С помощью критерия
хи-квадрат, а еще лучше
Фишера, убеждаемся, что строки и/или столбцы таблицы зависимы на желаемом уровне значимости, см.рис.2.1. Выберем меню Analyse --> Risk cluster... Выделяем прямоугольную 2х
N область с числами. Сверху от чисел должны находиться произвольные имена факторов, слева - имена выборок и нажимаем кнопку ОК, см. рис.3.1а.
Рис.3.1а Горизонтальная таблица с названиями факторов и выборок.
или рис.3.1б, где сверху - имена выборок, слева - имена факторов:
Рис.3.1б Вертикальная таблица с названиями факторов и выборок.
Результат в виде отдельной таблицы появится снизу в окне Results, см.рис.3.2
Рис.3.2 Результат кластеризации в виде 2-х таблиц.
На рис.3.2 показан результат кластеризации факторов по степени риска. В верхней таблице
Equal risk clusters в первой строке показана значимость
P-value полученного набора кластеров. Во второй строке - количество кластеров. В последующих строках с именами факторов показана принадлежность факторов определенным кластерам, отсортированная по убыванию риска попадания в выборку "Больные". Первые два фактора входят в кластер 1, третий фактор - в кластер 2. Делаем вывод: на уровне значимости 0.045 (см.рис.2.1) выделены
два кластера, различающиеся уровнем риска.
В нижней таблице
Odds and Frequencies Ratio показаны отношения шансов и частот для кластеров. В первом столбце показан номер кластера. Во втором и третьем - численности пациентов в выборке "Контроль" и "Больные" для кластера. В четвертом столбце
Frequencies ratio - отношение частот численностей выборок "Больные" к "Контроль" 23/14=1,64. Видно, что отношение частот для первого кластера больше 1, следовательно этот кластер "рискованный". Для второго кластера отношение частот 6/15=0,4 < 1, следовательно он "защитный". В последнем столбце
Odds ratio показано отношение шансов данного кластера к следующему. Для редких болезней оно показывает во сколько раз возрастает риск попасть в группу "Больные" под воздействием факторов данного кластера, по отношению к следующему кластеру. Из рис.3.2 видно, что вероятность заболеть для лиц, принадлежащих кластеру 1 в 4,10714 раза больше, чем принадлежащих кластеру 2. Ячейка отношения шансов для кластера 2 оставлена пустой, т.к. следующего после него кластера 3 не существует. В случае нулевых знаменателей при вычислении отношения частот и шансов нули заменяются на 1/2 и соответствующие величины выводятся в скобках.
Литература
[К оглавлению]
4. Точный тест Харди-Вайнберга для множественных аллелей
Покажем, какие кнопки нажимать, чтобы проверить генотипы выборки на равновесие Харди-Вайнберга. Откроем файл
hardy_weinberg.sp. В первой строке показано количество генотипов: n
11=0, n
12=3, n
13=5, n
14=3. Вторая строка: n
22=1, n
23=18, n
24=7 и т.д. Ячейки ниже главной диагонали n
ij для i<j оставлены
пустыми из-за симметрии матрицы генотипов. Выберем меню Analyse --> Exact Hardy-Weinberg... Выделяем 4х4 область ячеек с числами и нажимаем кнопку ОК, см. рис.4.1.
Рис.4.1 Выделенная область генотипов и результат теста.
Из рис.4.1 видно, что
P_VALUE=0.0174423<0.05. Следовательно, на уровне значимости 0.05 гипотеза о равновесии Харди-Вайнберга отклоняется. Алгоритм взят из
[1].
Литература
- Satoshi Aoki, 2003, Network algorithm for the exact test of Hardy-Weinberg
proportion for multiple alleles
4. Точный тест на равенство взаимодействия генов
Покажем, какие кнопки нажимать, чтобы проверить отсутствие взаимодействия между двумя генами с произвольным количеством аллелей. Частоты аллелей в сравниваемых популяциях должны быть одинаковыми. Пусть ген A имеет 3, а ген B - 2 аллеля. Откроем файл
interaction3x2.sp. В первой строке показаны названия аллелей гена А, в первом столбце - гена В, которые повторяются по вертикали два раза. Это означает, что вверху расположена первая выборка гаплотипов, внизу - вторая. Выберем меню Analyse --> Gene interaction...Выделяем прямоугольную область ячеек двух выборок с числами, см. рис.5.1.
Рис.5.1 Выделенная область гаплотипов двух выборок.
и нажимаем кнопку ОК. В нижнем окне появится результат расчета, см.рис.5.2.
Рис.5.2 Результат теста взаимодействия двух генов.
Уровень значимости теста
P-VALUE=0,03, поэтому делаем
вывод: на уровне значимости 0,03 гипотеза о равенстве взаимодействия генов А и В отклоняется. Это означает, что некоторые условные вероятности в популяциях отличаются.
Литература