Doctor Stat

Электронная таблица

  1. Критерий Фишера 2xN таблицы сопряженности
  2. Приближенный критерий хи-квадрат
  3. Кластеризация факторов равного риска
  4. Точный тест Харди-Вайнберга для множественных аллелей
  5. Точный тест взаимодействия генов

1.1 Точный критерий Фишера 2xN

Покажем, что для малых выборок необходимо использовать точные методы. Запустим электронную таблицу. Откроем файл test.sp. Выберем меню Analyse --> Fisher Test, см. рис.1.1:

Меню

Рис.1.1 Меню анализа электронной таблицы

Выделим мышью прямоугольную область ячеек B2:D3 и нажмем кнопку ОК, см.рис.1.2:

Выделение области

Рис.1.2 Выделение прямоугольной области 2х3 ячеек

В нижнем окне появится результат выполнения точного критерия Фишера, см.рис.1.3:

Результат

Рис.1.3 Вывод результата точного критерия Фишера.

Из рис.1.3 видно, то результат точного критерия Фишера p-value=0.06363 , что почти в три раза больше, чем для приближенного критерия хи-квадрат p-value=0.023. Это означает, что на уровне значимости 0.05 по методу хи-квадрат выборки контроль и больные отличаются по возрастному составу, а в соответствии с точным методом Фишера - нет.
Алгоритм взят из [1,2].

1.2 Приближенный критерий Фишера 2xN

Для практики абсолютная точность вычисления значимости не нужна, достаточно лишь нескольких знаков после запятой. Ограничение точности позволяет значительно ускорить получение результата и проводить вычисления для больших таблиц. Откроем файл fisher18.sp. Выберем меню Analyse --> Fisher 2xN Test..., выделим ячейки с числами, в поле Accuracy введем желаемую точность - число 2, см. рис.1.4:

2цифры

Рис.1.4 Задание точности - 2 цифры после запятой.

и нажмем кнопку ОК. Результат появится через несколько секунд, см.рис.1.5:

2цифры

Рис.1.5 Результат приближенного Фишера с двумя знаками после запятой.

Точные вычисления для таблицы рис.1.5 дают p-value=0.051572 см.[1]. Из рис.1.5 видно, что первые 2 цифры после запятой совпадают.

Литература

  1. Requena F., Ciudad N., 2005. A major improvement to the Network Algorithm for Fisher’s Exact Test in 2xc contingency tables.
  2. Requena F., Ciudad N., 2003. The Maximum Probability 2xc Contingency Tables and the Maximum Probability Points of the Multivariate Hypergeometric Distribution.

[К оглавлению]

2.Приближенный критерий хи-квадрат

Покажем, какие кнопки нажимать, чтобы посчитать хи-квадрат. Откроем файл cluster_test.sp. Выберем меню Analyse --> Chi-squared test. Выделяем в таблице прямоугольную область с числами и нажимаем кнопку ОК. Для таблиц размерности 2х2 рекомендуется включить поправку Йейтса (Yates correction) на непрерывность, см.рис 2.1

Меню

Рис.2.1 Вычисление хи-квадрат.

Из рис.1.4 видно, что p-value<0.05, следовательно на уровне значимости 0.05 частоты некоторых факторов в 2-х выборках отличаются.

Литература

[К оглавлению]

3. Кластеризация факторов равного риска

Покажем, какие кнопки нажимать, чтобы сгруппировать факторы в 2-х выборках по степени риска. Откроем файл cluster_test.sp. С помощью критерия хи-квадрат, а еще лучше Фишера, убеждаемся, что строки и/или столбцы таблицы зависимы на желаемом уровне значимости, см.рис.2.1. Выберем меню Analyse --> Risk cluster... Выделяем прямоугольную 2хN область с числами. Сверху от чисел должны находиться произвольные имена факторов, слева - имена выборок и нажимаем кнопку ОК, см. рис.3.1а.

горизонт.таблица

Рис.3.1а Горизонтальная таблица с названиями факторов и выборок.

или рис.3.1б, где сверху - имена выборок, слева - имена факторов:

вертикал.таблица

Рис.3.1б Вертикальная таблица с названиями факторов и выборок.

Результат в виде отдельной таблицы появится снизу в окне Results, см.рис.3.2

Меню

Рис.3.2 Результат кластеризации в виде 2-х таблиц.

На рис.3.2 показан результат кластеризации факторов по степени риска. В верхней таблице Equal risk clusters в первой строке показана значимость P-value полученного набора кластеров. Во второй строке - количество кластеров. В последующих строках с именами факторов показана принадлежность факторов определенным кластерам, отсортированная по убыванию риска попадания в выборку "Больные". Первые два фактора входят в кластер 1, третий фактор - в кластер 2. Делаем вывод: на уровне значимости 0.045 (см.рис.2.1) выделены два кластера, различающиеся уровнем риска.

В нижней таблице Odds and Frequencies Ratio показаны отношения шансов и частот для кластеров. В первом столбце показан номер кластера. Во втором и третьем - численности пациентов в выборке "Контроль" и "Больные" для кластера. В четвертом столбце Frequencies ratio - отношение частот численностей выборок "Больные" к "Контроль" 23/14=1,64. Видно, что отношение частот для первого кластера больше 1, следовательно этот кластер "рискованный". Для второго кластера отношение частот 6/15=0,4 < 1, следовательно он "защитный". В последнем столбце Odds ratio показано отношение шансов данного кластера к следующему. Для редких болезней оно показывает во сколько раз возрастает риск попасть в группу "Больные" под воздействием факторов данного кластера, по отношению к следующему кластеру. Из рис.3.2 видно, что вероятность заболеть для лиц, принадлежащих кластеру 1 в 4,10714 раза больше, чем принадлежащих кластеру 2. Ячейка отношения шансов для кластера 2 оставлена пустой, т.к. следующего после него кластера 3 не существует. В случае нулевых знаменателей при вычислении отношения частот и шансов нули заменяются на 1/2 и соответствующие величины выводятся в скобках.

Литература

[К оглавлению]

4. Точный тест Харди-Вайнберга для множественных аллелей

Покажем, какие кнопки нажимать, чтобы проверить генотипы выборки на равновесие Харди-Вайнберга. Откроем файл hardy_weinberg.sp. В первой строке показано количество генотипов: n11=0, n12=3, n13=5, n14=3. Вторая строка: n22=1, n23=18, n24=7 и т.д. Ячейки ниже главной диагонали nij для i<j оставлены пустыми из-за симметрии матрицы генотипов. Выберем меню Analyse --> Exact Hardy-Weinberg... Выделяем 4х4 область ячеек с числами и нажимаем кнопку ОК, см. рис.4.1.

Меню

Рис.4.1 Выделенная область генотипов и результат теста.

Из рис.4.1 видно, что P_VALUE=0.0174423<0.05. Следовательно, на уровне значимости 0.05 гипотеза о равновесии Харди-Вайнберга отклоняется. Алгоритм взят из [1].

Литература

  1. Satoshi Aoki, 2003, Network algorithm for the exact test of Hardy-Weinberg proportion for multiple alleles

4. Точный тест на равенство взаимодействия генов

Покажем, какие кнопки нажимать, чтобы проверить отсутствие взаимодействия между двумя генами с произвольным количеством аллелей. Частоты аллелей в сравниваемых популяциях должны быть одинаковыми. Пусть ген A имеет 3, а ген B - 2 аллеля. Откроем файл interaction3x2.sp. В первой строке показаны названия аллелей гена А, в первом столбце - гена В, которые повторяются по вертикали два раза. Это означает, что вверху расположена первая выборка гаплотипов, внизу - вторая. Выберем меню Analyse --> Gene interaction...Выделяем прямоугольную область ячеек двух выборок с числами, см. рис.5.1.

Меню

Рис.5.1 Выделенная область гаплотипов двух выборок.

и нажимаем кнопку ОК. В нижнем окне появится результат расчета, см.рис.5.2.

Результат

Рис.5.2 Результат теста взаимодействия двух генов.

Уровень значимости теста P-VALUE=0,03, поэтому делаем вывод: на уровне значимости 0,03 гипотеза о равенстве взаимодействия генов А и В отклоняется. Это означает, что некоторые условные вероятности в популяциях отличаются.

Литература