Аналитичен процес
Литературни доказателства
Ръчното търсене в PubMed е бавно, дава различни резултати при различни генетици и често пропуска важни публикации. Helena поддържа локална PubMed база, филтрирана за генетика, с предварително извлечени варианти, гени и фенотипи. Публикациите за всеки случай се класират чрез шесткомпонентно оценяване, съобразено с ACMG категориите на доказателства.
Резултатът е клинично търсене за под секунда с класирани публикации, разбивка по компонент и нива на сила по ACMG - интегрирано в работния процес за интерпретация, не като отделна задача.
Защо локална PubMed база
Клиничните лаборатории се нуждаят от литературни доказателства за ACMG класификацията. Директното използване на публичен PubMed има три основни проблема.
Три проблема
Забавяне. Публичният PubMed е бърз за единична заявка, но бавен за структурираните търсения по множество критерии и гени, каквито изисква клиничната интерпретация. Когато литературната справка е част от прегледа на всеки вариант, е нужен отговор за под секунда.
Непоследователност. Двама генетици, търсещи едно и също по едно и също време, могат да получат различни резултати заради разлики в класирането на PubMed. За лабораторните системи за качество и за преглед на минали случаи е нужна възпроизводимост.
Местоположение на данните. Изпращането на HPO термини и генни панели към публичния PubMed означава предаване на потенциално чувствителни данни извън платформата. Локалната база държи клиничното търсене в инфраструктурата на Helena в ЕС.
Процес на зареждане
Шест етапа превръщат суровия PubMed XML в клинично търсима локална база. Обработката е файл по файл и може да се възобнови: всеки файл преминава всички етапи преди да започне следващият, което позволява рестартиране след повреда без преработване на завършени файлове.
Изтегляне
Базовите файлове и файловете с ежедневни обновления от PubMed се изтеглят от NCBI FTP с паралелно сваляне и проверка на целостта. Базовият набор е около 1300 компресирани XML файла с десетки милиони статии.
Обработка
Компресираният XML се обработва поточно, без да се зарежда изцяло в паметта. Резултатът е структуриран запис за всяка публикация.
Филтриране
Публикациите се филтрират по подбрани MeSH дескриптори за генетична релевантност, по тип и по дата. Така входният обем се свежда до генетично ориентирано подмножество от около 7–8%.
Извличане
За всяка запазена публикация се извличат вариантни нотации, генни символи и фенотипни споменавания. Извлечените данни се проверяват в авторитетни референтни бази преди записване.
Зареждане
Извлечените записи се зареждат в локалната литературна база на групи. Повторната обработка на файл е идемпотентна - съществуващите записи се обновяват, не се дублират.
Почистване
Изтеглените компресирани XML файлове се премахват след успешна обработка, за да се освободи дисково място. Политиката за почистване е конфигурируема и може да запазва файлове за одит или диагностика.
Филтриране за генетична релевантност
Малка част от PubMed публикациите са генетично релевантни. Филтриращият слой свежда входа до фокусиран набор от генетично релевантни данни чрез три независими критерия.
Генетични MeSH дескриптори
Подбран набор от дескриптори на Medical Subject Headings показва, че публикацията се отнася до генетика или геномика. MeSH класификациите са най-надеждният сигнал за филтриране, защото се индексират професионално в източника.
Тип публикация
Приемат се описания на случаи, клинични проучвания, оригинални изследвания и обзорни статии. Редакционни материали, новини и подобни неизследователски формати се изключват от индексирания набор.
Праг за дата на публикация
Публикации, по-стари от конфигурирания праг за дата, се изключват. Стандартният праг отразява периода, през който съвременната генетична номенклатура и стандартите за докладване са се стабилизирали.
Извличане на варианти, гени и фенотипи
Слоят за извличане обработва обекти, които имат значение за клинична интерпретация, директно от текста и метаданните на публикацията. Именно това предварително извличане при зареждане, а не при търсене, осигурява отговор за под секунда.
Споменавания на варианти
HGVS cDNA и белтъчни нотации заедно със стари нотации се извличат от текста на публикацията. Нотацията се нормализира, така че единичен вариант, представен в различни формати в различни публикации, се разпознава еднозначно при търсене.
Споменавания на гени
Кандидат-генните символи се проверяват по референцията за човешки белтък-кодиращи гени. Това елиминира фалшиви съвпадения от често срещани съкращения, които се припокриват с негенни акроними. Броят споменавания за публикация се запазва като доказателство за централността на гена в публикацията.
Споменавания на фенотипи
Фенотипните имена се съпоставят с HPO, OMIM и MeSH идентификатори, когато са налични. Морфологичното съпоставяне гарантира, че вариации като множествено число и прилагателни форми водят до един и същи фенотип.
Клинично търсене
Шест стъпки превръщат клиничния контекст на случая в класирано множество литературни доказателства, записано и готово за предаване. Пълният процес цели отговор за под секунда за типични заявки.
Стъпка 1
Търсене в два източника
За всеки заявен ген услугата намира кандидат-публикации през два допълващи се източника. Първият е директно търсене срещу извлечените споменавания на гени, осигуряващо публикации, в които генът е идентифициран като значим обект. Вторият е текстово търсене през заглавия и резюмета, улавящо споменавания, които може да не са били формално извлечени. Двата източника се обединяват в единен набор от кандидати.
Стъпка 2
Обогатяване на публикации
Всяка кандидат-публикация се обогатява с пълни метаданни: заглавие, резюме, списание, дата на публикация, автори, DOI и PMC идентификатори, MeSH дескриптори и типове публикация. Броят споменавания на гени, споменавания на варианти за заявените гени и фенотипни споменавания се прикачват за подкрепа на последващото оценяване на релевантност.
Стъпка 3
Паралелно оценяване на релевантност
Обогатените публикации се оценяват по множество компоненти. Оценяването се извършва паралелно през работни процеси, заобикаляйки ограниченията на Python за паралелност, и доставя резултати за под секунда дори при стотици кандидат-публикации.
Стъпка 4
Филтриране и подреждане
Публикациите под минималния праг на релевантност се отхвърлят. Останалите се сортират по обща оценка в низходящ ред и се ограничават до заявения брой резултати.
Стъпка 5
Записване в базата на сесията
Най-добрите резултати се записват в базата на сесията заедно с данните за класификация на варианти. Генетикът получава двата типа данни от един файл на сесията.
Стъпка 6
Експорт за поточно предаване
Произвежда се компресиран JSON файл с по един запис на ред за потребителския интерфейс. Метаданните се излъчват на първия ред, резултатите следват по един на ред, а маркер за завършване затваря потока. Този формат позволява постепенно показване в интерфейса, докато резултатите се получават, вместо да се чака пълният пакет данни.
Скоринг на релевантност
Шест независими компонента се претеглят и комбинират в обща оценка на релевантност за всяка публикация. Всеки компонент улавя различен аспект на клиничната релевантност, а генетикът вижда пълната разбивка по компонент заедно с общата оценка.
Фенотипно съвпадение
Колко добре фенотипните споменавания в публикацията се припокриват с HPO термините на пациента. Морфологичното съпоставяне по основи на думите гарантира, че малки лексикални вариации не нарушават съвпадението. Водещият сигнал в оценката, защото фенотипното съвпадение е най-силният единичен индикатор, че публикацията е релевантна за случая.
Тип публикация
Описания на случаи и клинични проучвания се претеглят най-високо. Оригинални изследвания следват. Общи журнални статии и обзори се претеглят по-ниско. Йерархията отразява относителната стойност на всеки тип публикация като доказателство в ACMG класификацията на варианти.
Централност на гена
Колко често заявеният ген се споменава в публикацията. Публикация, която споменава гена от интерес десетки пъти в резюмето и основния текст, е по-централна за този ген, отколкото такава, която го споменава веднъж мимоходом. Оценката за централност е ограничена, така че малък брой публикации с много споменавания не доминират класирането.
Функционални данни
Дали публикацията описва функционални проучвания, релевантни за критериите за функционални доказателства по ACMG. Индикатори включват MeSH термини за животински модели, нокаут проучвания, експерименти с клетъчни линии и техники в молекулярната биология. Функционалните данни са ключово предусловие за функционалните доказателства по ACMG.
Съвпадение на вариант
Точно съвпадение на вариантна нотация между заявката и извлечените споменавания на варианти в публикацията получава най-висока оценка. Различен вариант в същия ген получава по-ниска. Този компонент улавя разликата между публикация за точния вариант на пациента и публикация за различен вариант в същия ген.
Актуалност
Публикациите губят актуалност линейно в рамките на зададения период. Публикация от текущата година получава най-висока оценка в този компонент; по-старите публикации получават прогресивно по-ниска. Актуалността е относително малък компонент, защото по-стари основополагащи публикации могат да останат авторитетни.
Сила на доказателствата по ACMG
Всяка класирана публикация е етикетирана с категория за сила на доказателствата, която съответства директно на доказателствените категории на ACMG/AMP. Изходът от литературното търсене не е просто списък с публикации, а структуриран набор от доказателства, готов за присвояване на ACMG критерии.
| Сила | Описание и съответствие по ACMG |
|---|---|
| Strong | Публикацията описва точния вариант и включва функционални проучвания. Кандидат-доказателство за ACMG PS3 (утвърдени функционални проучвания, показващи увреждащ ефект) или контекст за функционалния компонент на PP3. |
| Moderate | Публикацията описва точния вариант ИЛИ функционални данни, но не и двете. Кандидат-контекст за ACMG критерии с умерена сила. |
| Supporting | Публикацията описва гена с фенотипно припокриване със случая. Кандидат-контекст за ACMG PP4 (фенотип, силно специфичен за едно генетично заболяване) или друго подкрепящо доказателство. |
| Weak | Генът се споменава, но не присъства точен вариант или фенотипно специфичен контекст. Справочен материал за пълнота, а не директно ACMG доказателство. |
Входни и изходни данни
Какво получава системата от предходните етапи и от генетика, и какво произвежда за преглед и последващите модули.
От предходните етапи
Заявени гени на пациента от предходния анализ на варианти или от резултатите на фенотипното съпоставяне
HPO термини на пациента от клиничния контекст на случая
Незадължителни точни вариантни нотации от изхода на анализа на варианти за случая
Входове от генетика
Стартиране на търсене като част от стандартния работен процес за интерпретация на варианти
Незадължително ограничаване по генен панел, когато само определени гени са от интерес
Незадължителна конфигурация за брой резултати
Резултати за генетика
Класиран списък с публикации с обща оценка на релевантност за случая
Разбивка на оценката за всяка публикация по шестте компонента на релевантност
Етикет за сила на доказателствата за всяка публикация, съответстващ на ACMG категориите
Директни връзки към PubMed идентификатор, DOI и PMC, когато са налични
Подчертани съвпадения на варианти, брой споменавания на гени и фенотипни съвпадения за всяка публикация
Записани резултати в базата на сесията, достъпни заедно с класификациите на варианти
Компресиран JSON за поточно предаване и моментално визуализиране
Стандарти и граници
Услугата работи спрямо публикувани стандарти и в рамките на ясни клинични граници.
ACMG/AMP
Компонентите за оценяване на релевантност и етикетите за сила на доказателствата са съобразени с доказателствените категории на ACMG/AMP. Четирите нива на сила (Strong, Moderate, Supporting, Weak) съответстват на категориите критерии, които генетиците използват в класификацията, което осигурява директен мост между резултатите от литературното търсене и присвояването на ACMG критерии.
Препратка: Richards et al., Genetics in Medicine, 2015, PMID: 25741868
PubMed
Пълният базов набор на PubMed и потоците с ежедневни обновления са източник на всички литературни данни. PubMed се поддържа от U.S. National Library of Medicine в NCBI и индексира мнозинството биомедицински изследвания в световен мащаб. Локалната база се обновява редовно, така че новопубликувани изследвания са налични за клинично търсене скоро след появата им в PubMed.
Препратка: PubMed, U.S. National Library of Medicine, NCBI
MeSH
Medical Subject Headings са контролираният речник, поддържан от NLM за индексиране на биомедицинска литература. MeSH дескрипторите се използват както за филтриране (генетична релевантност), така и за оценяване (сигнал за функционални данни). MeSH индексирането се извършва от обучени NLM специалисти, осигурявайки най-високото качество на класификация на съдържанието.
Препратка: Medical Subject Headings (MeSH), U.S. National Library of Medicine
HPO
Human Phenotype Ontology предоставя структурирания фенотипен речник, използван за съпоставяне на фенотипни споменавания в публикации с HPO термините на пациента. Морфологичното съпоставяне по основи разширява HPO съпоставянето до лексикални варианти без да изисква точно търсене по термин.
Препратка: Kohler et al., Nucleic Acids Research, 2021, PMID: 33264411
HGNC
Генните символи, извлечени от публикации, се проверяват по одобрения набор символи на HGNC. Това елиминира фалшиви съвпадения от не-генни акроними и гарантира, че споменаванията на гени се нормализират последователно през публикации, използващи по-стари версии на генни символи.
Препратка: HUGO Gene Nomenclature Committee, hgnc.symbolreport
Граници на докладването
Услугата произвежда класирани списъци с публикации с оценки за релевантност и нива на сила по ACMG. Не генерира клинични интерпретации, не утвърждава патогенност и не замества директния преглед на изходни публикации от квалифициран клиничен генетик. Целият изход е справочен материал за клиничната преценка на генетика.
Местоположение на данните
Услугата работи в рамките на платформата Helena върху инфраструктура в ЕС, съвместима с GDPR Член 9 и техническите изисквания на 1+MG. Локалната PubMed база е разположена в същата инфраструктура в ЕС, така че клиничното търсене не предава данни на случая извън платформата.
Какво я отличава
Осем проектни решения, които правят литературните доказателства на Helena различни от стандартно PubMed търсене.
Локална база, търсене за под секунда
Пълната PubMed база се копира локално и се индексира за бързо извличане. Клиничното търсене връща класирани резултати далеч под секунда при типични заявки - достатъчно бързо, за да бъде рутинна част от работния процес за интерпретация на варианти, а не специален случай.
Генетично ориентиран набор данни
Подбран филтър, базиран на MeSH, свежда милиони статии до фокусирано генетично релевантно подмножество, премахвайки шум, който иначе би разредил резултатите от търсене. Съотношението на филтриране е консервативно и с тенденция към включване, когато релевантността е вероятна.
Предварително извлечени варианти, гени и фенотипи
Вариантните нотации, валидираните генни символи и фенотипните споменавания, съпоставени с HPO, се извличат при зареждане, а не при търсене. Генетикът вижда публикации, вече обогатени с обекти, които движат ACMG решенията.
Валидирани генни символи
Всеки кандидат-генен символ се проверява по одобрения набор символи на HGNC преди съхранение. Сблъсъците от често срещани съкращения - основният източник на фалшиви съвпадения при извличане на генни споменавания - се елиминират предварително.
Шесткомпонентно оценяване на релевантност
Тегловен модел за оценяване комбинира фенотипно съвпадение, тип публикация, централност на гена, сигнал за функционални данни, съвпадение на вариант и актуалност в едно класиране. Генетикът вижда разбивка по компонент заедно с общата оценка - с пълна прозрачност защо всяка публикация е получила точно тази позиция.
Нива на сила по ACMG
Всяка класирана публикация носи етикет за сила, който съответства директно на доказателствените категории на ACMG. Изходът от литературното търсене не е просто класиран списък с публикации, а категоризиран набор от доказателства, съобразен с критериите, които генетикът ще приложи в класификацията.
Интегрирано съхранение по сесия
Резултатите от търсенето се записват в същата база на сесията като класификациите на варианти. Интерфейсът зарежда и двата типа данни от един източник, което опростява архитектурата и осигурява съгласуваност за целия период на случая.
Съхранение на данните в ЕС
Локалната PubMed база работи в рамките на инфраструктурата на Helena в ЕС, така че клиничното търсене не предава данни на случая извън платформата. Това удовлетворява изискванията на GDPR Член 9 за работа с чувствителни данни и техническите изисквания на 1+MG.
Вижте литературните доказателства в действие
Заявете демонстрация, за да видите как Helena извършва цялостно литературно търсене за реален случай - от заявени гени и HPO термини до класирани публикации с разбивка на оценките по компонент и нива на сила, съобразени с ACMG.