Аналитичен процес

Кохортен анализ

Версияv1.0|Шест статистически анализа|Вътрешно кодово име Prism

Анализът на варианти класифицира индивидуални пациенти. Кохортният анализ обединява класифицирани проби в единна матрица и изпълнява статистически тестове на популационно ниво. Кои гени носят излишък от редки варианти в тази болестна кохорта? Кои биологични пътища са замесени? Кои сигнали се потвърждават срещу публикувани GWAS? Кои пациенти носят варианти със съставна хетерозиготност в същия ген? Helena отговаря на тези въпроси с методология с изследователска прецизност.

Без повторно извикване на варианти. Без повторна анотация. Услугата използва предварително класифицирани проби от анализа на варианти и добавя статистики на популационно ниво, запазвайки ACMG контекста и избягвайки дублирано изчисление.

Съдържание

01Клинично и изследователско позициониране 02Архитектура на процеса 03Матрица на кохортни варианти 04Контрол на качеството на кохортата 05Тестване на натоварване на ниво ген 06Обогатяване на пътища 07Анализ на pLoF и честотен анализ 08GWAS репликация и полигенни оценки 09Номиниране на кандидат-гени 10Входни и изходни данни 11Стандарти и граници

Клинично и изследователско позициониране

Кохортният анализ свързва ACMG класификацията на отделния пациент с генетиката на заболяването на популационно ниво. Конкретни примери илюстрират къде променя отговора.

Три типа въпроси

Натоварване на гените в болестна кохорта. Кохорта от 176 проби за моногенен диабет се анализира за обогатяване с редки варианти в установени гени за предразположеност. Тестването на натоварване срещу gnomAD референция идентифицира кои гени носят значимо повече носители от очакваното, с FDR корекция през всички тествани гени и анализ на статистическата мощност за всеки ген.
Обогатяване на ниво път. Когато няколко значимо натоварени гени споделят общ биологичен път, този път е по-вероятно да е каузално замесен от който и да е единичен ген изолирано. Обогатяването на пътища извежда тези конвергентни сигнали като допълнително доказателство отвъд p-стойностите на ниво ген.
Съставна хетерозиготност между проби. Двойка хетерозиготни варианти в рецесивен ген е невидима на ниво пациент, ако нито един вариант не е независимо маркиран. Кохортният анализ идентифицира кандидати за съставна хетерозиготност за всяка проба с контекст на определяне на фаза, изведен от предварително класифицираните данни.

Архитектура на процеса

Шест последователни фази превръщат метаданните на кохортата и VCF файловете на отделните проби в пълен аналитичен продукт. Всяка фаза записва състояние, така че процесът може да се възобнови или повтори с различни параметри без повторно начало.

Масова класификация

За проби, които още не са класифицирани, услугата стартира стандартния процес за анализ на варианти за всяка от тях. Ограничение за паралелност гарантира, че клъстерът не се претоварва при обработка на стотици проби наведнъж.

Контрол на качеството

Показатели за всяка проба се изчисляват от всяка класифицирана база данни: брой варианти, съотношение транзиции към трансверзии, съотношение хетерозиготни към хомозиготни и средна дълбочина на четене. Средната стойност и стандартното отклонение на ниво кохорта се изчисляват, и проби, надхвърлящи конфигурируем праг по който и да е показател, се маркират като отклонения с посочване на конкретния показател.

Конструиране на матрица

Унифицираната матрица на кохортните варианти се изгражда чрез дедуплициран каталог на варианти и разредено генотипно представяне. Всяка проба се прикачва само за четене и се вмъква в кохортната база. Алелните честоти за цялата кохорта, броят носители и ACMG консенсус между пробите се изчисляват в финално преминаване.

Откриване на съставна хетерозиготност

Когато е предоставен генен панел, услугата идентифицира двойки хетерозиготни варианти в същия ген на проба, ограничени до кодиращи и сплайсингови последици. Шумов филтър изключва гени с прекомерен брой хетерозиготни варианти на проба, които обикновено отразяват честа вариация с ниска пенетрантност, а не причиняваща болест двуалелна загуба на функция.

Статистически анализ

Тестването на натоварване, обогатяването на пътища, анализът на pLoF, честотният анализ, GWAS репликацията и полигенното оценяване на риск работят като отделни анализи върху завършената матрица, всеки достъпен през API. Всеки анализ записва собствена таблица с резултати, индексирана по изпълнение.

Номиниране на кандидати

Тегловена система за оценяване обединява доказателствата от предходните фази и произвежда класиран списък с кандидат-гени с разбивка на оценките по компонент и разбираеми резюмета на доказателствата.

Кохортна вариантна матрица

Унифицираната матрица е основата за всеки последващ анализ. Архитектурните решения я правят управляема при стотици WGS проби, запазвайки пълна точност на ниво вариант.

Дедуплициран каталог на варианти

Всяка уникална комбинация chromosome, position, reference, alternate се съхранява веднъж през цялата кохорта. Това е основата за изчисление на алелните честоти за цялата кохорта и за сравнение на варианти между проби.

Разредена генотипна матрица

Само нереферентни генотипи се съхраняват, индексирани по идентификатор на вариант и идентификатор на проба. За типични болестни кохорти, където всяка проба носи варианти в малка част от генома, това е значително по-ефективно от плътно представяне.

ACMG consensus резолюция

Когато същият вариант е класифициран различно между пробите, кохортната матрица записва най-тежката класификация заедно с маркер за несъгласие. Вариант, класифициран като P (патогенен) в една проба и LB (вероятно доброкачествен) в друга, се третира като P (патогенен) на ниво кохорта за тестване на натоварване, като маркерът за несъгласие запазва несъгласието за преглед.

Статистики за цялата кохорта

Кохортната алелна честота, броят носители и броят хомозиготи се изчисляват веднъж и се съхраняват върху каталога на варианти. Статистическите анализи използват тези предварително изчислени стойности, без да преагрегират през пълната генотипна матрица.

Контрол на качеството на кохортата

Отклоняващи се проби нарушават статистиките на ниво кохорта. Контролът на качеството работи преди конструирането на матрицата с независимо оценявани показатели. Проба, маркирана по който и да е единичен показател, е достатъчна за преглед на отклонения.

Брой варианти

Общ брой извикани варианти на проба. Отклоненията могат да показват проблеми с подготовката на библиотеки, подравняването или замърсяване на пробата.

Транзиции спрямо трансверзии

Ti/Tv съотношението е класически показател за качество на секвениране. Съществено отклонение от очакваните стойности може да отразява проблеми с качеството на определяне на базите.

Съотношение хетерозиготни спрямо хомозиготни

Het/hom съотношението отразява произход и кръвно родство, но крайни отклонения могат да означават размяна на проби или замърсяване.

Средна дълбочина на четене

Средна дълбочина през всички варианти. Ниска дълбочина означава намалена чувствителност при определяне на вариантите и по-ниска достоверност при тяхната интерпретация.

Тестване на натоварване на ниво ген

Основният въпрос: кои гени носят излишно натоварване от редки варианти в кохортата спрямо референтна популация? Множество допълващи се методи работят върху всеки ген с FDR корекция през пълния набор тествани гени.

Fisher exact test

Двупосочна таблица на съчетания (contingency), сравняваща кохортните носители спрямо очакваните носители според gnomAD за всеки ген. Двустранен тест, улавящ както обогатяване, така и изчерпване. Стандартният метод за тестване на натоварване на ниво ген.

CMC (Combined Multivariate and Collapsing)

Двоично свиване на носители по ген. На генно ниво е еквивалентно на Fisher exact и осигурява методологична кръстосана проверка.

SKAT-O (незадължителен)

Sequence Kernel Association Test, optimised. Незадължителна R интеграция за дисперсионно-компонентно тестване. При липса на R се използва CMC.

Корекция за множествено тестване

Прилага се процент на грешно откриване (false discovery rate, FDR) по Benjamini-Hochberg през всички тествани гени. Отчитат се също p-стойности, коригирани по Bonferroni. Гените се маркират като значими, когато FDR е под конфигурирания праг.

Анализ на статистическата мощност

Минимално откриваемо съотношение на шансовете (odds ratio) при стандартна 80% мощност се изчислява за всеки ген. Това е съществен контекст за нулеви резултати: незначим ген с ниска мощност не е същото като незначим ген с висока мощност.

Маркер за несъгласие между методи

Когато два метода не се съгласяват по значимост, генът се маркира за ръчен преглед. Съгласувани сигнали между методите са по-силни от резултат на единичен метод.

Обогатяване на пътища

Когато значимо натоварени гени споделят общ биологичен път, този път е по-вероятно да е каузално замесен. Обогатяването на пътища е допълващ сигнал, а не заместител на доказателствата на ниво ген.

Метод. Fisher exact test, едностранна алтернатива, за всеки път. Таблицата на съчетания сравнява значимо натоварените гени, които са членове на пътя, срещу значимо натоварените гени, които не са.

Базов набор. Всички гени, тествани във фазата на burden, не всички гени в генома. Това е критично за коректност: тестване на път срещу пълния геном изкуствено завишава значимостта, защото обхватът на кохортата варира по ген.

Източници на пътища. KEGG, Reactome и биологични процеси от Gene Ontology. Изследователят предоставя дефинициите на пътищата; системата изпълнява теста и прилага корекция за множествено тестване през всички оценени пътища.

Изход. За всеки път списъкът с допринасящи значими гени се запазва. Изследователят вижда не само p-стойността на пътя, но и конкретните гени, които движат обогатяването.

Анализ на pLoF и честотен анализ

Два допълващи се анализа на единични варианти, насочени към различни класове сигнали.

Предполагаема загуба на функция (pLoF)

Варианти, променящи рамката (frameshift), генериращи стоп-кодон (stop-gained) или с канонични последици в местата на сплайсинг, са най-силните сигнали от единичен вариант за механизми на хаплонедостатъчност. Анализът на pLoF ги агрегира на ген, като извежда броя на носители на pLoF заедно с показатели за генна нетолерантност и ClinVar контекст.

Честота в кохортата спрямо gnomAD

Биномен тест за всеки вариант срещу конфигурираната gnomAD референция, с FDR корекция през всички тествани варианти. Броят на алелите се изчислява коректно, като използва хетерозиготни и хомозиготни генотипи, а посоката (обогатен или изчерпан) се отчита заедно с p-стойността.

GWAS репликация и полигенни оценки на риск

Допълнение от чести варианти към анализите на редки варианти. Тества как кохортата се държи при известни сигнали и при скали за оценка на риск, изведени от популационни данни.

Репликация на GWAS сигнали

За всеки известен GWAS сигнал (типично по rs идентификатор) кохортната алелна честота се тества срещу gnomAD референция. Изходът включва кохортната честота, p-стойността и сравнение с публикуваното съотношение на шансовете (odds ratio) за чертата.

Полигенно оценяване на риск

Полигенните оценки на риск се изчисляват на проба чрез файлове с теглата от PGS Catalog. Покритието на очакваните варианти се отчита заедно с оценката; под дефиниран праг оценката се маркира като само насочваща, с препоръка за данни от пълногеномно секвениране за изчисление с клинично качество. Перцентилът в рамките на кохортата се предоставя за относително сравнение.

Номиниране на кандидат-гени

Единична тегловена система за оценяване обединява доказателствата от всички предходни анализи и дава класиран списък с кандидат-гени с разбивки по компонент. Изследователите виждат и водещия кандидат, и конкретните причини за неговото класиране.

Натоварване

Генът достига значимост в теста за натоварване в кохортата срещу избраната контролна популация.

Път

Генът участва в път, който е значимо обогатен сред гените със значимост за натоварването.

Носители на pLoF

Генът има носители на предполагаема загуба на функция в кохортата. Вариантите с pLoF са най-силното доказателство от единичен вариант за механизми на хаплонедостатъчност.

GWAS припокриване

Геномната област на гена се припокрива с известен GWAS сигнал за заболяването или свързан фенотип.

Връзка с болест

Генът има предишна връзка с болест в ClinVar или OMIM. Установените болестни гени се претеглят различно от новооткритите кандидати.

Нетолерантност

Генът е с висока нетолерантност към загуба на функция или вариация с променен смисъл (missense) в общата популация (висок pLI или нисък LOEUF). Нетолерантността е силен предварителен индикатор за генна връзка с болест.

Носители със съставна хетерозиготност

Генът има проби от кохортата с двойки хетерозиготни варианти, предполагащи двуалелна загуба на функция. Нормализирано спрямо броя установени носители.

Изход. Класиран списък с гени кандидати с комбинирана оценка, разбивка на оценката по компонент и разбираемо резюме на доказателствата. Класиранията са възпроизводими: една и съща кохорта с едни и същи параметри дава един и същ резултат.

Входни и изходни данни

Какво получава услугата от предходните етапи и от изследователя и какво произвежда за преглед и последваща употреба.

От предходните етапи

N класифицирани бази данни от анализа на варианти (по една на проба от кохортата)

ACMG/AMP класификация, критерии и подкрепящи доказателства, приложени за всеки вариант

Анотации за всяка проба: генен символ, последствие, in silico предиктори, gnomAD честота, ClinVar контекст, HPO

Незадължителен генен панел за ограничаване на откриването на съставна хетерозиготност

Входове от изследователя

Име на кохортата, тип секвениране (WGS, WES или CES), контролна популация за сравнение по натоварване

Метаданни за всяка проба: идентификатор, пол, възраст, незадължителни HPO термини, незадължителна клинична подгрупа

Критерии за квалифициращи варианти: максимална алелна честота, минимално въздействие, филтър по последствие, включване на класификация (VUS, P/LP), стратегия за свиване

Незадължителен генен панел и дефиниции на пътища (KEGG, Reactome, биологични процеси от GO)

Незадължителни GWAS сигнали за репликация, незадължителни файлове с теглата от PGS Catalog за полигенна оценка на риска

Изходи за изследователя

Резултати от тестване на натоварване по ген: Fisher, CMC, SKAT-O p-стойности, FDR q-стойност, p-стойност по Bonferroni, минимално откриваемо съотношение на шансовете (odds ratio)

Резултати от обогатяване по пътища: Fisher p-стойност, FDR q-стойност, допринасящи значими гени

Обобщение на pLoF по ген: брой варианти, брой носители, показатели на нетолерантност, ClinVar контекст, HPO

Честотен анализ по вариант: алелен брой в кохортата срещу gnomAD с биномна p-стойност и посока (обогатен или изчерпан)

GWAS репликация по сигнал: алелна честота в кохортата, p-стойност, сравнение с публикувано съотношение на шансовете (odds ratio)

Полигенни оценки по проба с предупреждения за покритие и перцентил в рамките на кохортата

Класиране на кандидати по ген: комбинирана оценка, разбивка по компонент, резюме на доказателствата

Кандидатни двойки със съставна хетерозиготност по проба и по ген

Стандарти и граници

Услугата работи спрямо публикувани стандарти и в рамките на ясни изследователски и клинични граници.

ACMG/AMP

Класификацията на варианти следва ACMG/AMP 2015 със следващите ClinGen спецификации. Извършва се преди кохортния анализ от услугата за анализ на варианти за всяка проба. Услугата за кохортен анализ приема тази класификация като вход и не прекласифицира.

Препратка: Richards et al., Genetics in Medicine, 2015, PMID: 25741868

CMC метод

Combined Multivariate and Collapsing метод за тестване на натоварване от редки варианти. Утвърден подход за свиване при анализ на генно ниво.

Препратка: Li and Leal, AJHG, 2008, PMID: 18691683 (CMC method)

SKAT-O

Sequence Kernel Association Test, optimised. Дисперсионно-компонентен тест за асоциация на редки варианти. Незадължителна R интеграция с документиран резервен преход към CMC.

Препратка: Lee et al., AJHG, 2012, PMID: 22863193 (SKAT-O methodology)

Benjamini-Hochberg FDR

Корекция на процента на грешно откриване (false discovery rate), прилагана върху всички тествани гени за натоварване, върху пътища за обогатяване и върху варианти за честотен анализ. Стандартният подход за множествено тестване при високоразмерни геномни проучвания.

Препратка: Benjamini and Hochberg, JRSSB, 1995 (FDR control)

PGS Catalog

Изчислението на полигенната оценка на риска използва файлове с теглата от PGS Catalog. Покритието на очакваните варианти се отчита заедно с оценката, и под определен праг оценката се маркира като само насочваща.

Препратка: PGS Catalog, Lambert et al., Nature Genetics, 2021, PMID: 33692572

gnomAD

Стандартна контролна популация за тестване на натоварване и честотен анализ. Популационната стратификация е настройваема за всяко изпълнение на анализа (NFE по подразбиране).

Граници на докладването

Услугата произвежда статистически резултати от анализ, класиране на гени кандидати и доказателствени изходи за всяка проба. Не генерира клинични интерпретации, не взема индивидуални диагностични решения и не замества клиничен или експертен преглед. Целият изход е предназначен за преглед от квалифицирани изследователи и клинични генетици преди всяко клинично действие.

Местоположение на данните

Услугата работи в рамките на платформата Helena върху инфраструктура в ЕС, съвместима с GDPR Член 9 и техническите изисквания на 1+MG. Геномните данни от кохортата не напускат платформата по време на анализа.

Какво я отличава

Осем проектни решения, които правят кохортния анализ различен от стандартните инструменти за асоциация на редки варианти.

Вход с максимална точност

Работи върху предварително класифицирани проби от вариантния анализ. ACMG контекстът се запазва и използва като доказателство, а не се преизчислява. Без загуба на информация между класификацията по проба и кохортния анализ.

Шест анализа върху една матрица

Тестването на натоварване, обогатяването на пътища, анализът на pLoF, честотният анализ, GWAS репликацията и полигенната оценка на риска споделят една и съща кохортна матрица. Повторно изпълнение с различни параметри не изисква повторно зареждане на пробите.

Резултати, съобразени със статистическата мощност

Всеки резултат от натоварване включва минимално откриваемо съотношение на шансовете (odds ratio) при стандартна мощност. Нулевите резултати са тълкуеми: липсата на сигнал в статистически недостатъчно мощен ген не е равнозначна на липсата на сигнал в ген с достатъчна мощност.

Кръстосана проверка между методи

Fisher и CMC се прилагат на всеки тест за натоварване. SKAT-O се прилага, когато е наличен. Несъответствието между методите се извежда изрично, така че ръчно прегледаните сигнали са съгласувани.

ACMG консенсус в кохортата

Когато един и същ вариант е класифициран различно в отделните проби, най-тежката класификация се записва с изричен маркер за несъответствие. Консервативно за тестването на натоварване, прозрачно за преглед.

Тегловно класиране на кандидати

Единичен класиран списък обединява доказателствата от всичките шест анализа с разбивка по компонент и разбираеми резюмета. Изследователят вижда и водещия кандидат, и защо е водещ.

Архитектура с разредена матрица

Дедуплициран каталог на варианти плюс разредено генотипно съхранение се мащабира до стотици WGS проби без пълната памет на плътна N на M матрица.

Възпроизводими изпълнения

Всяко изпълнение записва версията на класификатора, критериите за квалифициращи варианти, контролната популация и генния панел. Повторно изпълнение на същата кохорта с нова версия на класификатора създава нов запис, а не презаписва предишните резултати.

Вижте кохортния анализ в действие

Заявете демонстрация, за да видите как Helena обработва реална кохорта цялостно - от класификация на всяка проба през статистически анализи до класирани кандидат-гени с пълна разбивка на доказателствата.

Свържете се с нас

ACMG методология Методология за скрининг Пълен процес За генетици