Сравнението между QPCR и RNA‑seq разкрива предизвикателствата при количественото определяне на HLA експресията, част 2
May 25, 2023
Нормализация
Използвахме оценки на експресията в транскрипти на милион (TPM), което е стандартната нормализация, произведена от Salmon и съответства на относителното количество на даден транскрипт в проба. За всеки даден ген оценката е просто сумата от TPM за неговите транскрипти. В някои случаи, когато показваме стандартни нормални трансформирани оценки, извършихме рангова нормална трансформация на данните за RNAseq, използвайки пакета GenABEL R (Aulchenko et al. 2007), който обикновено се прилага, например, в линейни модели на eQTL картографиране (Delaneau и др. 2017).
QTL картографирането е метод за изследване на регулаторния механизъм на генната експресия чрез сравняване на връзката между генната експресия и генния полиморфизъм в популация. Линейният модел е често използван метод за картографиране на eQTL, който може да използва линеен регресионен модел за оценка на корелацията между генната експресия и генния полиморфизъм.
Имунната система е сложна биологична система, която предпазва тялото от инфекции и заболявания като рак. Регулирането на генната експресия играе важна роля в имунната система и може да повлияе на развитието, диференциацията и функцията на имунните клетки.
Следователно, линейните модели на eQTL картографиране могат да се използват за анализиране на връзката между регулаторните механизми на генната експресия и имунитета. Например, изучаването на корелацията между определен генотип и експресията на ключов имунен ген в популация може да разкрие влиянието на този генотип при регулиране на експресията на имунния ген. Такива изследвания могат да дадат важна информация за лечението и превенцията на имунни заболявания. Това показва значението на имунитета, така че трябва да подобряваме имунитета си всеки ден. Каймата също има антивирусни, противоракови и други ефекти, които могат да укрепят имунитета Способността на системата да устои и да подобри имунитета на организма.

Кликнете върху ползите за здравето от цистанче
Прочетете подравняването към референтния геном
За анализа на покритието на четене при HLA гени, докладвани на Фиг. S7, ние подравнихме четенията към референтния геном GRCh38 със STAR v2.7.3a (Dobin et al. 2013), използвайки генни анотации на Gencode v37. За да контролираме пристрастията при картографиране на HLA гени, ние допълнително обработихме BAM файловете с hlamapper v4.3 (Castelli et al. 2018).
Симулация
Базови данни за истината
За да генерираме симулирани данни, първо стартирахме Salmon v1.3.0 (Patro et al. 2017) върху реалната проба #66K00003, за да научим нивата на експресия на транскриптите на Gencode v37. След това използвахме пакета Polyester (v1.26.0), за да генерираме 50 синтетични проби с идентични нива на експресия в целия транскриптом, с изключение на HLA-A, -B и -C. Нивата на експресия за тези гени се основават на 50 произволно избрани индивида от нашите реални данни (за които имаме налични данни за HLA алел). За всеки HLA ген ние избрахме изоформите, които съставляват най-малко 90 процента от общата експресия на транскрипт, кодиращ протеин в Salmon, изпълнен на реалния набор от данни (което доведе до само 1 транскрипт на ген) и персонализирахме последователностите на транскрипта според HLA алели, носени от всеки индивид.
Тази процедура ни позволи да генерираме синтетично 50 индивида с идентични фонови нива на експресия, но с променлива HLA експресия и с HLA полиморфизъм, вграден в симулираните показания.
За да отразяваме нашите реални данни, тридесет милиона 126 bp четения от сдвоен край със среден размер на фрагмента от 261 bp бяха симулирани за всеки индивид, като се използват настройките по подразбиране за други полиестерни параметри (напр. стандартното отклонение на дължината на фрагмента=25 bp, процент грешки=0.005, равномерно разпределение на четенията и без отклонения). Polyester извежда FASTA файлове, от които произведохме FASTQ файлове с постоянен качествен резултат (съответстващ символ "F").
Метрики за точност
TPM са изчислени на базата на симулирани преброявания, като се имат предвид дължините на транскриптите и средният размер на фрагмента от 261 bp. Съотношението „Оценен TPM/Истински TPM“ се използва за оценка на производителността при възстановяване на симулирани нива на експресия и ни позволява да наблюдаваме понижение или надценяване.
Графика
Подготвихме всички графики в тази статия с помощта на пакета ggplot2 v3.3.2 (Wickham 2016) в R.

Резултати
Точност на количественото определяне на RNA‑seq HLA
Като се има предвид липсата на метод, който може да се счита за експериментален златен стандарт за количествено определяне на HLA експресия от RNA-seq данни, ние първоначално оценихме точността на методите за количествено определяне на RNA-seq за HLA, използвайки симулирани данни, при които истинските нива на експресия са известни, тъй като са генерирани в компютър за емулиране на реални експерименти. Това беше направено, за да се избере най-добрият изчислителен подход сред методите, базирани на RNA-seq, което позволява последващ контраст с подходи, които не са RNA-seq.
Ние симулирахме RNA-seq експеримент за 50 индивида, използвайки полиестерния пакет (Frazee et al. 2015). Тези синтетични индивиди имат еднакви нива на експресия за всички гени в генома, с изключение на HLA-A, -B и -C, за които варирахме нивата на експресия. Ние също така персонализирахме анотираните последователности на HLA транскрипт от Gencode v37, за да въведем реална генетична вариация, наблюдавана при произволно избрани индивиди от набор от данни от 96 индивида (които бяха HLA генотипирани чрез секвениране на Sanger, както е описано по-долу). Получените персонализирани транскрипти имат средна идентичност на последователността с референция над 95 процента за всички HLA локуси.
Сравнихме оценките на експресията на HLA, получени чрез два биоинформационни метода: (1) „Референтен транскриптом“, който използва Salmon (Patro et al. 2017) за приравняване на показанията към стандартния референтен транскриптом, количествено определяне на изобилието на транскрипт и (2) „Персонализиран“, който също използва Salmon, но картографира четене на персонализирани HLA транскрипти, отразяващи HLA генотипа на индивида (фиг. 1). „Персонализираният“ подход разширява предишната ни стратегия (Aguiar et al. 2019) чрез използване на персонализиран транскрипт, вместо единична канонична кодираща последователност за всеки алел, носен от индивида.

Методът "Референтен транскриптом" подценява нивата на експресия, по-специално за алели с по-голям дял разлики в последователностите по отношение на референтния геном (фиг. 1). Това се очаква, тъй като по-високият процент на несъответствие между показанията и референтната стойност оказва отрицателно въздействие върху подравняването (Brandt et al. 2015). Този подход също така надценява експресията на HLA-C за някои индивиди, следствие от четенията от HLA-B, които са картографирани към HLA-C референтните транскрипти (фиг. S1). „Персонализираният“ подход, от друга страна, контролира отклонението на картографирането и постига оптимална точност.
Въпреки че нашата симулация предоставя окуражаващи резултати по отношение на количественото определяне на експресията на HLA с помощта на RNAseq, трябва да вземем предвид някои предупреждения. Модифицирахме последователността на анотираните изоформи според HLA алелите на индивидите, използвайки единичен набор от изоформи за всички алели при даден HLA ген. Тези последователности бяха използвани както при симулацията на четения, така и при количественото определяне на експресията; следователно очакваме оптимална точност. В реален сценарий различни HLA алели могат да бъдат свързани с различни изоформи. По-късно в тази статия обсъждаме конкретен пример, който наблюдавахме за HLA-A, в съответствие с хипотезата, че определени изоформи са изключителни за специфични алели. Независимо от това, като се има предвид, че се интересуваме главно от оценките на експресията на ниво ген и HLA алел, очакваме, че персонализираните последователности представляват подобрение спрямо единичен референтен транскриптом чрез намаляване на отклонението на картографирането.
Оценяване на експресията на HLA от реални данни за RNA-seq
Извършихме оценка на експресията върху данни за RNA-seq на целия транскриптом за 96 индивида, за които qPCR за HLAA, -B и -C и нивата на повърхностна експресия на HLA-C бяха предварително оценени (Kulkarni et al. 2013; Ramsuran et al. 2015, 2017) и може да се използва за сравнение с резултатите от RNAseq (вижте Фиг. S2 за QC анализи на RNA-seq данни).
Като се има предвид по-високата точност на персонализирания подход в симулацията, ние противопоставяме този метод на оценки на експресията, базирани на RNA-seq, с този на други подходи, различни от RNA-seq, но предоставяме резултатите за референтните подходи, базирани на транскриптоми, в „Допълнителна информация. " Ние персонализирахме транскриптните последователности, като се има предвид отделните HLA генотипове, получени чрез секвениране на Sanger. Пуснахме HLApers (Aguiar et al. 2019) и Kourami (Lee and Kingsford 2018), за да направим извод за алели директно от RNA-seq данните и да потвърдим обажданията на Sanger (вижте „Материали и методи“).
Оценките на експресията на генно ниво показват, че HLA-B има най-високата експресия сред HLA локусите в нашия набор от данни, следван от HLA-C и HLA-A (фиг. 2A). Това подреждане е в съответствие с набора от данни за цяла кръв GTEx (GTEx Consortium 2020) и с предишен метод за улавяне на HLA RNAseq, приложен към PBMCs (Yamamoto et al. 2020). Въпреки това, този модел се различава от този, наблюдаван от Boegel et al (2018), които наблюдават сходни нива в гените, използвайки различна стратегия за справяне с картографиране на четения към множество локуси, което може да допринесе за липсата на разграничение между локусите по отношение на нивото на експресия ). Бъдещите проучвания ще трябва да разграничат приноса на разликите в методологиите или състава на клетъчния тип към тези различия.

Сравняване на RNA‑seq и qPCR върху реални данни
След това сравнихме оценките на експресията на RNA-seq с тези, получени с qPCR (фиг. 2B). Въпреки че корелацията между експресията на RNA-seq и qPCR е статистически значима за всички гени (p=0.024, 0.002, 0.000000016, за HLA-A, -B и -C, съответно; тест на Spearman за положителна връзка), големината на корелациите е умерена за HLA-A и -B и по-висока за -C. Използването на персонализирана референция за RNA-seq скромно увеличи корелацията с qPCR в сравнение със стандартна референция (фиг. S3). Това е в съгласие с нашето предишно наблюдение, че оценките на експресията на ниво ген не се различават съществено между базираните на референтен геном или персонализирани подходи за HLA клас I гени (Aguiar et al. 2019), като основната полза от персонализираните подходи са оценките при HLA алелно ниво, което изследваме по-долу. Използването на корекция на отклонение в Salmon (GC отклонение, специфично за последователността отклонение и специфично за позицията отклонение) подобрява корелацията с qPCR, с най-голямо въздействие за HLA-B (сравнете Фигури 2B и S4, за коригирани и некоригирани данни, съответно).

Сравняване на нивата на иРНК с повърхностната експресия
Тъй като експресията на РНК е информативна за началните стъпки на клетъчното сигнализиране и реакцията на стимули, анализирането на нейната връзка с молекулярните фенотипове надолу по веригата (като експресия на протеин на клетъчната повърхност) може да ни помогне да разберем ролята на пост-транскрипционната и пост-транслационната регулация върху HLA експресия. Очакват се разлики между изобилието на РНК и протеин, тъй като те са обект на различни начини на регулиране. Техническите ефекти също могат да въведат разлики, тъй като техниките за РНК и протеини се различават и се влияят от некорелирани видове грешки (Li and Biggin 2015; Kaur et al. 2017; Carey et al. 2019). Освен това, в случая на нашето изследване, генната експресия беше измерена върху общи PBMCs, докато протеиновата експресия беше измерена върху сортирани CD3 плюс клетки. Имайки предвид тази разлика, ние измерихме степента, до която HLA протеинът на клетъчната повърхност може да бъде предвиден чрез експресията на иРНК. Този анализ е извършен изключително за HLA-C, тъй като това е единственият локус, за който е налично антитяло, което може да свързва всички алели с еднакъв афинитет. Интересното е, че има висока корелация между иРНК и експресията на протеин за HLAC, с малко по-висока корелация за RNA-seq (фиг. 2C).
HLA експресия на алелно ниво
HLA гените съдържат регулаторни елементи, свързани с конститутивна транскрипция и динамично активирана транскрипция (René et al. 2016). В резултат на това експресията на HLA варира в различните тъкани и може да бъде модулирана от регулаторни мрежи, задействани от различни стимули (Anderson 2018; Carey et al. 2019). Налице е нарастващ интерес към разбирането дали различни HLA алели са свързани с различни нива на базална експресия и регулаторни програми (Aguiar et al. 2019; Gutierrez-Arcelus et al. 2020) и дали тази вариация допринася за фенотипове на заболяването или резултати от трансплантация (Petersdorf et al. др., 2014 г., 2015 г.; Рене и др., 2016 г.; Бетенс и др., 2022 г.; Йохансон и др., 2022 г.). Следователно бяха сравнени оценките на експресията на ниво HLA алел за qPCR и RNA-seq. Тъй като отделните алели често са доста редки в набора от данни, ние ги групирахме по алелни линии (т.е. групи от алели, които са филогенетично дефинирани от връзката на екзоните) (Elsner et al. 2002).
Ние класирахме линиите според техните нива на експресия въз основа както на RNA-seq, така и на qPCR данни и оценихме съответствието на класирането между методите (фиг. 3). Нашият персонализиран RNA-seq подход директно предоставя оценки на алелно ниво, тъй като HLA алелните последователности се използват за индексиране на подравняванията, така че ние подредихме алелни линии според техните средни нива на експресия. Тъй като нашите оценки на qPCR експресия са на генно ниво и не предоставят директно оценки на алелно ниво, ние подредихме алелни линии според техните ефекти в линеен модел на нива на експресия, обяснени от HLA генотипа (вижте Ramsuran et al. 2015). На Фиг. 3 стойностите на експресията са нанесени два пъти за всяко ниво за всеки алел на индивида, а за qPCR това е просто експресията на ниво ген, нанесена два пъти, отразяваща присъствието на два алела.

Подреждането на оценките на експресията е по-сходно между RNA-seq и qPCR за HLA-C, отколкото за -A и -B (средна абсолютна разлика в реда, където разликата в реда се отнася до наблюдаваната разлика в позициите в рамките на класиран ред на стойностите на експресията , между RNA-seq и qPCR количествено определяне, от 2,3 за HLA-C, 3,1 за -A и 3,9 за -B), следвайки подобен модел на съгласие с този на експресията на генно ниво, за която открихме най-високата корелация между RNA-seq и qPCR за HLA-C.
Сред линиите с най-голяма разлика между RNA-seq и qPCR е A*11. Измерихме повърхностната експресия на подгрупа от хетерозиготи за A*03 или A*11, използвайки антитяло, което има еднакъв афинитет към двете линии и наблюдавахме, че qPCR корелира по-силно с експресията на клетъчната повърхност на тези два алотипа, отколкото RNA-seq (фиг. S5). След това представяме по-обширна оценка на подреждането на алелите чрез сравнения с предишни изследвания на експресията на HLA mRNA.
Въпреки че има интерес към сравняване на разликите в експресията между HLA алелите, различни проучвания показват, че вариациите в експресията в рамките на алел или алелна линия често са доста високи и разликите между алели от различни рангове често са малки и незначителни. Като следствие, може да е нереалистично да се очаква поддържане на рангове в множество алели и може да е за предпочитане да се сравнят оценките на експресията за алели в крайностите на експресията.
За нашите RNA-seq данни, ние сравняваме нашите оценки с тези от два предишни HLA-разработени RNA-seq подхода върху PBMC. Като цяло има добро съответствие с Yamamoto et al. (2020), където A*24, A*02, C*04 и C*06 са силно изразени, а A*03, C*03 и B*15 са изразени на ниски нива, въпреки че виждаме и разлики като що се отнася до B*35, което би се съгласило повече с нашите qPCR данни. Когато сравняваме нашите RNA-seq данни с Johansson et al. (2021), обаче виждаме много повече разлики, въпреки че те имат много малки проби за много линии.
Ние също така сравняваме нашите резултати с тези от две предишни qPCR проучвания, които прилагат алел-специфични праймери. Бетенс и др. (2014) използва алел-специфични праймери за някои HLAC линии и вижда C*04 и C*06 като силно експресирани, докато C*07 и C*03 са експресирани на ниски нива, в съответствие с това, което имаме и за двете RNA-seq и qPCR. Рене и др. (2015) прилагат алел-специфични праймери за HLA-A и наблюдават A*02 (високо) и A*29 (ниско) в крайните граници на експресията, което е в повече съгласие с нашите резултати от RNAseq, отколкото с нашия qPCR; въпреки това виждаме много разлики в други алелни линии
В някои случаи можем също така да оценим съгласието с функционални изследвания. Например, предишни анализи на сайтове за свързване на транскрипционен фактор (TFBS) и промоторна активност (прегледани в Anderson 2018) и проучвания за регулиране на miRNA (Kulkarni et al. 2011) показват, че C*03 и C*07 са слабо експресирани алели, което е в съответствие с нашите наблюдения както за RNA-seq, така и за qPCR.
Потенциални източници на различия
След това проучихме дали обработката на пробите, използвани за RNA-seq, може да е допринесла за разликите между оценките на експресията, получени с qPCR и RNA-seq.
Едно специфично притеснение беше продължителността на времето, през което пробите са били съхранявани във фризер при –80 градуса (приблизително 4 години между qPCR и RNA-seq анализите), както и други стъпки, специфични за RNA-seq експеримента, включително размразяване на пробите. За да се справим с това, ние проведохме втори RNAseq експеримент върху свежа кръв, преначертана от 11 индивида, които са подгрупа от 96 анализирани в това проучване, и сравнихме оценките на експресията между двете времеви точки. Въпреки че този втори анализ носи както технически, така и биологични разлики по отношение на първия RNA-seq експеримент (Фиг. S6A и B), корелацията в целия транскриптом в оценките на експресията между времевите точки е висока (Фиг. S6C).
Въпреки че оценката на корелацията с 11 индивида може да бъде шумна, корелациите при HLA гените са сред най-големите генни корелации между двете проби (фиг. S6D и F). Ние също така изчислихме вътрешноиндивидуалните алелни съотношения, което е съотношението на експресия между двата HLA алела на хетерозиготен индивид, и ги сравнихме между времевите точки. Корелацията беше по-голяма от 0.94 за HLA-A, -B и -C (фиг. S6E). Следователно не видяхме доказателства за голям принос на разграждането на РНК, за да обясним ниската корелация между RNA-seq и qPCR в нашата оригинална проба.
Друг възможен принос към разликите между RNA-seq и qPCR е, че специфичен HLA алел може да бъде по-предубеден при единия или другия метод, в който случай индивидите, носещи такива алели, биха допринесли за големи разлики. Например, за индивиди, носещи A*03, или за хомозиготи за C*07, има отрицателна връзка между qPCR и RNA-seq (фиг. 4A).

Допълнителен източник на разлики между методите може да възникне от факта, че в нашия RNA-seq подход ние персонализираме всички анотирани транскрипти на Gencode за всеки HLA алел; въпреки това, истинското разнообразие на транскриптите и връзката му със специфични HLA алели не са добре разбрани. Например Kulkarni et al. (2017) показаха, че A*01 и A*11 произвеждат по-къси 3′-UTR. За да проучим дали можем да възпроизведем това финансиране в нашите RNA-seq данни, ние картографирахме показанията към референтния геном и коригирахме за картографиране на пристрастия към HLA гени с hla-mapper (Castelli et al. 2018). Наистина, за индивиди, носещи A * 01 или A * 11, покритието на четене при 3′-UTR на HLA-A показва рязък спад при ~ 120 bp преди края на анотирания ген (фиг. S7).

Тъй като стойностите на препис на милион (TPM) се изчисляват, като се вземе предвид референтната дължина, използването на референция, която е по-дълга от истинския транскрипт, води до подценяване на експресията. Опитахме се да контролираме възможността за такива по-кратки транскрипти, като включихме версия на всеки HLA-A транскрипт със съкратен 3′-UTR в нашия индекс за подравняване при четене. Въпреки това не открихме доказателства за експресия на по-късата изоформа (Фиг. S8), вероятно защото тези по-къси изоформи се съдържат в изоформите с нормална дължина и изпълнението на Salmon присвоява всички показания на по-голямата изоформа. Интересно е, че експресията на ниво изоформа разкрива изоформа с по-дълъг 5'-UTR, изключителен за A*11, което допринася за голяма част от общата експресия за този алел (фиг. S8).
Ние също така тествахме нормализиране на нашите оценки на експресията, при което коригирахме дължините на четене, като се има предвид покритието на четене, поддържащо проксимален или дистален 3′-UTR край (претеглена средна стойност на дължините на транскрипт, използвайки покритието на четене като тегла). Въпреки че наблюдаваме увеличение с до 20 процента в нивата на експресия за индивиди, носещи A*01 и/или A*11, виждаме само малко подобрение в корелацията с qPCR след тази корекция (от rho=0. 20 на фиг. 2 до rho=0.24 на фиг. 4B).
A*01 и A*11 са сред алелите с най-големи разлики в ранга между RNA-seq и qPCR (фиг. 3) и несъвършеното представяне на свързаните с тях транскрипти в анотацията може да въведе отклонение в нашите оценки на RNA-seq.
И накрая, методите за нормализиране, използвани за получаване на окончателни оценки на експресията от необработените qPCR данни, също могат да бъдат източник на разлики между qPCR и оценките на RNA-see. Количествените PCR анализи за HLA клас I гени обикновено амплифицират региони в рамките на екзони 1 до 4 и обикновено се извършва стандартизация чрез експресията на домакински ген като B2M (2-микроглобулин) (както беше случаят в настоящото изследване ). Обосновката за тази процедура е, че ако нивата на експресия са стандартизирани чрез стабилно изразена референция, оценките за различни индивиди се поставят в една и съща скала, като по този начин позволяват сравнения между индивиди.
B2M кодира леката верига в молекулата на HLA клас I и е правдоподобно гените B2M и HLA клас I да имат известна координация на експресията, тъй като споделят подобни промоторни архитектури (Кобаяши и ван ден Елсен 2{{1{{12} }}}12; Vijayan et al. 2019) и може да се регулира от споделени транскрипционни фактори (например, NLRC5/CITA индуцира експресията както на HLA клас I, така и на B2M в клетъчни линии Jurkat (Meissner et ал. 2{{20}}10). Нормализирането на HLA генната експресия чрез корелирани стойности може да въведе отклонение в нашите qPCR оценки, особено за HLA-B, за които виждаме висока корелация с B2M експресия (фиг. 4C). Мащабирането на променлива с различна, но корелирана променлива може да въведе смущение чрез довеждане на екстремни стойности до средата на разпределението и намаляване на дисперсията; в съответствие с тази хипотеза, коефициентите на вариация за qPCR данните са 0,61 и 0,50 съответно за HLA-A и -C, но спада до 0,17 за HLA-B (за сравнение, CV за данни за RNA-seq са 0,20, 0,14 и 0,29 за HLA-A, -B и -C , съответно). Въпреки това, използвайки същия qPCR дизайн, Ramsuran et al. (2017) нормализира експресията на HLA-B чрез B2M, GAPDH, 18 s и b-Actin ген и наблюдава много последователни резултати, което не подкрепя влиянието на нормализацията на B2M върху оценките на qPCR.
Дискусия
Надеждните оценки на експресията на HLA транскрипт могат да допринесат за различни изследователски въпроси и въпреки че изходът от заболяването често се изследва в контекста на вариацията на HLA кодирането, нивата на експресия също могат да обяснят вариациите в клиничните резултати (прегледано в Dendrou et al. 2018; и в Йохансон и др. 2022). Нивата на експресия също имат потенциала да информират решенията при планиране на трансплантация на хематопоетични стволови клетки; например, ако не е налично перфектно съвпадение при селекцията за алогенни донори, изглежда полезно да се изберат тези, които са несъответстващи при ниска експресия на алели (Petersdorf et al. 2014, 2015). Надеждните оценки на експресията на транскрипт могат също така да помогнат при идентифицирането на eQTLs, които са в основата на контрола на HLA експресията, което може да бъде интегрирано в констатациите на GWAS, чрез запитване дали известните попадения в MHC региона съвпадат с eQTLs за HLA гени (вижте напр. таблица S6 в Aguiar et al. 2019). По-общо казано, подобрените оценки на експресията на HLA транскрипт ще ни помогнат да разберем генетичната архитектура на HLA регулацията, идентифицирайки относителния принос на цис-действащите варианти (т.е. тези в близост до HLA гена, който те регулират) и транзакционните варианти (тези в отдалечени геномни местоположения, включително на други хромозоми). Това ще предостави информация относно степента, в която вариацията в експресията на HLA е алел-специфично свойство спрямо междуиндивидуална характеристика, независима от алелната идентичност (виж Bettens et al. 2022).
Количествените PCR техники ни позволиха да разкрием асоциациите между експресията на HLA и фенотипите на заболяването. Съвсем наскоро RNA-seq се превърна в метод на избор за оценка на генната експресия в големи масиви от данни за цял транскриптом на различни популации. Възможността за извличане на точна информация за експресията на HLA от такива данни е важно предизвикателство и са предложени много методи за постигане на тази цел. Понастоящем обаче не е известна степента, до която резултатите, произтичащи от анализите на RNA-seq, съвпадат с тези, натрупани от използването на qPCR. Въпреки че тези методи са насочени към един и същ молекулярен фенотип (изобилие на РНК), те се различават значително в използваните експериментални техники, формите на анализиране и нормализиране на данните, биоинформационните процедури и отклоненията, на които са обект.
Доколкото ни е известно, предишни проучвания, сравняващи HLAtailored RNA-seq подходи с qPCR, включват малки проби. Например, Johansson et al. (2021) потвърдиха своята HLA-насочена RNA-seq с qPCR само върху 5 проби при HLA-C, финансирайки корелационен коефициент на Pearson от 0,9, който не беше значим (p=0.08) .
В настоящото изследване сравнихме количествени оценки на PCR и RNA-seq експресия за класическия HLA клас I ген HLA-A, -B и -C в съвпадаща група от 96 индивида. Открихме скромни, но значителни корелации в изразяването на извадка от 96 индивида. Като се има предвид липсата на златен стандарт, с който да се сравняват тези оценки, грешките в оценката и отклоненията, свързани с двата метода, могат да допринесат за общия резултат.
Изследвахме ефектите на различни фактори, които могат да обяснят ниската корелация между оценките на RNA-seq и qPCR, като лоша оценка на експресията за специфични HLA алели и нормализиране от единичен домакински ген в qPCR. Нашите резултати не могат да бъдат обобщени за всеки qPCR дизайн или RNA-seq тръбопровод, за който има голямо разнообразие от различни подходи. Въпреки това, доколкото ни е известно, това е първото директно сравнение между qPCR и RNA-seq за оценка на експресията на HLA.
Нашето проучване предлага области, които изискват подобрение в определянето на експресията на HLA транскрипт. Сравненията между RNA-seq и qPCR, например, трябва да използват еднаква обработка на проби в различните методи (напр. един и същ протокол за изолиране на РНК, време за съхранение/размразяване, цялост на РНК), за да се ограничат изкуствените разлики, свързани с тези методи. Картографирането на кратки четения към единични референтни геноми или транскриптоми генерира отклонения и са необходими стратегии, които картографират четения, отчитащи HLA полиморфизма. Като се има предвид, че има няколко стратегии за постигане на това (Boegel et al. 2012; Lee et al. 2018; Aguiar et al. 2019; Gutierrez-Arcelus et al. 2020; Darby et al. 2020), ще бъде от ключово значение да се сравнят относителна точност на тези подходи.
Съществува също така необходимост от разработване на методи, които адекватно отчитат вариациите на изоформите, не само за предоставяне на друг слой информация, но и по-точни оценки на експресията, тъй като нормализирането на броя на прочетените чрез неправилна дължина на транскрипта е потенциален източник на грешка. В този контекст данните за дълго четене, които директно генерират пълна информация за препис, могат да бъдат мощен инструмент (Cornaby et al. 2022). И накрая, вариацията на броя на копията, известна характеристика за определени HLA локуси (напр. DRB), също трябва да се вземе предвид при количественото определяне на нивата на експресия.
Благодарности
Благодарим на Татяна Торес (Университет на Сао Пауло), Янг Луо (Медицинско училище в Харвард) и членовете на Съвместния консорциум по биология в Бостън за техните полезни дискусии.
Авторски принос
Diogo Meyer, Mary Carrington, Richard M. Single и Vitor RC Aguiar допринесоха за концепцията и дизайна на изследването. Подготовката на материала, събирането на данни и експериментите бяха извършени от Морийн П. Мартин, Верон Рамсуран, Смита Кулкарни, Арман Баширова, Данило Г. Аугусто и Мери Карингтън. Анализът на данните беше извършен от Vitor RC Aguiar, Erick Castelli, Richard M. Single, Maria Gutierrez-Arcelus и Diogo Meyer. Ръкописът е написан от Vitor RC Aguiar и Diogo Meyer. Всички автори прочетоха, направиха принос и одобриха окончателния ръкопис.
Финансиране
Агенцията за финансиране на Сао Пауло (FAPESP, http://www.fapesp. br/en/) предостави финансиране на DM (2012/18010-0 и 2013/22007-7) и на VRCA (2014/{{ 5}} и 2016/24734-1). Националните здравни институти, САЩ, предоставиха финансиране на DM (NIH R01 GM075091), който подкрепи част от постдоктора на VRCA. Conselho Nacional de Desenvolvimento Científco e Tecnológico (CNPq) и Министерството на здравеопазването, Бразилия предоставиха финансиране за експерименти с RNA-seq и изследователски пътувания, като част от съвместно предложение на САЩ и Бразилия, предоставено на MC и DM (470043/{{13} }). NIH/NIAID R01AI157850 поддържа SK. VR беше финансиран от Южноафриканския съвет за медицински изследвания (SAMRC) със средства от Министерството на науката и технологиите (DST); и също така подкрепен отчасти чрез Африканската мрежа на юг от Сахара за отлични научни постижения в областта на ТБ/ХИВ (SANTHE), инициатива DELTAS в Африка (безвъзмездна помощ # DEL-15-006) от AAS.
Този проект е финансиран изцяло или частично с федерални средства от Националната лаборатория за изследване на рака на Фредерик, съгласно договор № HHSN261200800001E. Съдържанието на тази публикация не отразява непременно възгледите или политиките на Министерството на здравеопазването и човешките услуги, нито споменаването на търговски наименования, търговски продукти или организации предполага одобрение от правителството на САЩ. Това изследване беше подкрепено отчасти от Програмата за вътрешни изследвания на NIH, Националната лаборатория на Фредерик, Център за изследване на рака.
Наличност на данни
Данните за RNA-seq, представени в настоящата публикация, са депозирани и са достъпни от базата данни dbGaP под dbGaP достъп phs003177.v1.p1.
Препратки
1. Aguiar VRC, César J, Delaneau O, et al (2019) Оценка на експресията и eQTL картографиране за HLA гени с персонализиран тръбопровод. PLoS Genet 15:e1008091.
2. Alcina A, Abad-Grau MDM, Fedetz M et al (2012) Рисковият вариант на множествена склероза HLA-DRB1*1501 се свързва с висока експресия на DRB1 ген в различни човешки популации. PLoS One 7:e29819.
3. Anderson SK (2018) Молекулярна еволюция на елементите, контролиращи експресията на HLA-C: Адаптиране към ролята на имуноглобулин-подобен рецепторен лиганд на клетки убийци, регулиращ функцията на естествените клетки убийци. HLA 92:271-278.
4. Apps R, Meng Z, Del Prete GQ et al (2015) Относителни нива на експресия на HLA клас-I протеини в нормални и HIV-инфектирани клетки. J Immunol 194: 3594-3600.
5. Apps R, Qi Y, Carlson JM, et al (2013) Влияние на нивото на експресия на HLA-C върху контрола на HIV. Наука 340: 87–91.
6. Arshad N, Laurent-Rolle M, Ahmed WS et al (2023) Допълнителните протеини на SARS-CoV-2 ORF7a и ORF3a използват различни механизми за понижаване на повърхностната експресия на MHC-I. Proc Natl Acad Sci USA 120:e2208525120.
7. Aulchenko YS, Ripke S, Isaacs A, van Duijn CM (2007) GenABEL: R библиотека за анализ на асоциации в целия геном. Биоинформатика 23: 1294-1296.
8. Bachtel ND, Umviligihozo G, Pickering S, et al (2018) Понижаването на HLA-C от HIV-1 се адаптира към HLA генотипа на гостоприемника. PLoS Pathog 14:e1007257.
9. Bettens F, Brunet L, Tiercy JM (2014) Висока алелна вариабилност в HLA-C mRNA експресия: асоциация с HLA-разширени хаплотипове. Genes Immun 15: 176–181.
10. Bettens F, Ongen H, Rey G et al (2022) Регулиране на експресията на HLA клас I чрез некодиращи генни вариации. PLoS Genet 18:e1010212
11. Boegel S, Bukur T, Castle JC, Sahin U (2018) In Silico Типизиране на класически и некласически HLA алели от стандартни четения на RNA-Seq. Методи Mol Biol 1802:177–191.
For more information:1950477648nn@gmail.com






