Сглобяване на транскриптом De Novo на базата на RNA-Seq и откриване на ген на Cistanche Deserticola Fleshy Stem-Ⅰ

Jul 24, 2024

фонове

Cistanche deserticola е напълно нефотосинтезиращо паразитно растение с голяма медицинска стойност и е разпространено главно в пустинята на Северозападен Китай. Изсушеното му месесто стъбло е ключов тоник втрадиционна китайска медицинас роли главно за подобряване на мъжката сексуална функция и укрепване на имунитета, но са проведени малко механистични проучвания, отчасти поради липсата на геномни и транскриптомни ресурси.

Natural cistanche tubulosa

НАТУРАЛНА CISTANCHE TUBULOSA КИТАЙСКА ТРАДИЦИОННА МЕДИЦИНА PHGS75% ECH 30% ACT 12%

Резултати

В това проучване извършихме дълбоко секвениране на транскриптоми в месестото стъбло на C. deserticola и около 8 0 милиона прочитания бяха генерирани с помощта на секвениране в края на двойката на Illumina на платформата HiSeq2000. Използвайки тринитния асемблер, ние получихме 95 787 транскриптни последователности с дължини на транскрипт, вариращи от 200 bp до 15 698 bp, със средна дължина от 950 бази и N50 дължина от 1519 бази. 63 957 транскрипта бяха идентифицирани като активно експресирани с FPKM по-голямо или равно на 0,5, в които 30 098 транскрипта бяха анотирани с генни описания или генни онтологични термини чрез анализи на сходство на последователности срещу няколко публични бази данни (Uniprot, NR и Nt в NCBI и KEGG) . Освен това идентифицирахме ключови ензимни гени, участващи в биосинтезата на лигнин и фенилетаноидни гликозиди (PhGs), за които е известно, че са основните активни съставки. Четири гена на фенилаланин амоняк-лиаза (PAL), първият ключов ензим в биосинтезата на лигнин и PhG, бяха идентифицирани въз основа на сравнение на последователности и филогенетичен анализ. Два пътя на биосинтеза на PhG също бяха предложени за първи път.

Изводи

Като цяло завършихме глобален анализ на транскриптома на месестото стъбло на C. deserticola, използвайки RNA-seq технология. Колекция от ензимни гени, свързани с биосинтезата на лигнин и фенилетаноидни гликозиди, бяха идентифицирани от сглобените и анотирани транскрипти и генното семейство на PAL също беше предсказано. Данните за последователността от това проучване ще осигурят ценен ресурс за провеждане на бъдещи изследвания на биосинтеза на фенилетаноидни гликозиди и функционални геномни изследвания в това важно лечебно растение.

Въведение

C. deserticola е световен род многогодишни пустинни растения от семейство Orobanchaceae и е напълно нефотосинтетичен вид и обикновено расте подземно холопаразитно растение. Паразитира по корените на псамофита Haloxylon ammodendron (Chenopodiaceae), който обитава предимно пустини и полупустини поради високата си устойчивост на суша и соленост. C. deserticola показва силна устойчивост на сурови условия на околната среда и е разпространена главно в Северозападен Китай, особено във Вътрешна Монголия, Гансу и Синдзян. Счита се за застрашен див вид през последните години поради увеличената консумация от хората. C. deserticola, който често се нарича пустинен женшен, е известен като пустинна метла, а изсушеното месесто стъбло се използва широко като традиционно важен тоник в Китай и Япония в продължение на много години. Първоначално е записано в Shen Nong Ben Cao Jing (Речник на китайската Materia Medica, 1977) преди приблизително 1800 години и се счита за един от основните източници наКитайска лечебна билка Cistanche.

Chinese cistanche tubulosa

ЕСТЕСТВЕН CISTANCHE TUBULOSA ЗА ПОДОБРЯВАНЕ НА СЕКСУАЛНАТА ФУНКЦИЯ PHGS75% ECH 30% ACT 12%

Екстрактите от C. deserticola притежават широк спектър от лечебни функции, особено за използване при подобряване на сексуалната функция, тонизиране на бъбреците, защита на черния дроб, аперитивна активност, подобряване на паметта, имуномодулиращо, антиоксидантно действие, противовъзпалително, антивирусно действие и др. основните биоактивни компоненти на C. deserticola са фенилетаноидни гликозиди (PheGs, PhGs). Към днешна дата повече от 20 фенилетаноидни гликозиди са изолирани от сукулентното стъбло на C.deserticola. Сред тях,актеозид и ехинакозидса два основни компонента със значителна фармакологична активност и са документирани като стандарти за качество на C. deserticola в Китайската фармакопея (издания от 2005 г. и 2010 г.). Три химични компонента на PhGs са органична киселина, захарид и фенилетаноид, но подробностите относно биосинтетичните пътища на фенилетаноида остават слабо разбрани в C. deserticola.

Въпреки търговското и медицинско значение на C.deserticola, геномните и транскриптомните данни за този вид са много ограничени. В базата данни на NCBI няма налични EST и пълната информация за генома на този вид остава недостъпна, с изключение на последователността на генома на хлоропласта. Ограничените транскриптомни данни възпрепятстват изследването на биосинтетичните механизми на PhG. Технологията RNA-seq може да генерира последователности от експресираните части на целевия геном и да идентифицира гени [18] с помощта на технологичните платформи NGS (като Applied Biosystems SOLiD, Illumina HiSeq и Roche 454). Той става все по-популярен при сглобяването на транскриптоми de novo, тъй като е рентабилен и мощен подход с висока разделителна способност и широк динамичен диапазон, особено след като има предимство да изследва транскрипти с ниско изобилие. Поради различните предимства, RNA-seq е особено привлекателен за немоделни организми с ограничени генетични ресурси. Въпреки това, няма подробно изследване на C. deserticola транскриптом от RNA-seq.

В това проучване ние глобално секвенирахме стволовия транскриптом за C. deserticola, използвайки платформата Illumina Hiseq2000 и получихме 7,9G необработени данни. Чрез сглобяване и анотация изкопахме гените, участващи в биосинтезата на PhG и гените, отговорни за цялата биосинтеза на лигнин. Нашият RNA-seq анализ генерира първия консенсусен транскриптом на C. deserticola и предостави нови прозрения за цялостно разбиране на лечебната стойност на C. deserticola. Освен това, описаният тук метод може да бъде широко приложен за профилиране на транскриптоми, за да се улесни откриването на гени, участващи в специфични пътища на биосинтеза на лекарствени компоненти в друго лечебно растение с много ограничени геномни ресурси.

Материали и методи

Събиране на растителен материал

Прясното сочно стъбло за C. deserticola в етапа на изкопаване е събрано от растителна база в BayanHot City на Alxa League във Вътрешна Монголия в северозападен Китай. Разрешителното за събиране е получено от собственика (HongKui CongRong Group) на заводската база. Образецът на ваучера е депозиран в Основния геномен център към Пекинския институт по геномика, Китайската академия на науките. След почистване тъканите на сочните стъбла се нарязват на малки парченца и незабавно се замразяват в течен азот и след това се съхраняват при -80 градуса до по-нататъшна обработка.

Екстракция на РНК, изграждане на cDNA библиотека и секвениране на Illumina

Общата РНК се екстрахира от сукулентното стъбло с помощта на TRIzol Reagent (Invitrogen Inc., Калифорния, САЩ) съгласно инструкциите на производителя. Получените проби бяха третирани с DNase I за отстраняване на всяка геномна ДНК. Екстрахираните РНК се определят количествено с помощта на биоанализатор Agilent 2100 (Agilent Technologies) и се проверяват за цялост с помощта на денатурираща електрофореза в агарозен гел с оцветяване с етидиев бромид. РНК проби със съотношения на А260/А280 между 1,9 и 2,1, съотношения на РНК 28S:18S по-високи от 1,0 и числа за интегритет на РНК (RIN) -8.5 бяха използвани в следващите анализи.

RNA-seq библиотеките бяха генерирани с помощта на Illumina Truseq RNA Sample Preparation Kits. Поли(А)+ РНК се изолира от общата РНК, като се използват гранули Dynal ligo(dT)25 съгласно инструкциите на производителя. След пречистването беше добавен буфер за фрагментиране, за да се разбие иРНК на къси фрагменти. Първоверижната сДНК се синтезира, като се използват тези къси фрагменти като шаблони, заедно със SuperScript III обратна транскриптаза и N6 произволен хексамерен праймер. След това се синтезира втора верига сДНК с помощта на буфер, dNTPs, RNaseH и ДНК полимераза I. Получената двойноверижна сДНК се подлага на крайно възстановяване с помощта на Т4 ДНК полимераза, ДНК полимераза I фрагмент на Кленов и Т4 полинуклеотид киназа и се лигира към адаптери, използващи Т4 ДНК лигаза. Свързаните с адаптер фрагменти се пречистват с помощта на комплект за екстракция QiaQuick PCR и се елуират с EB буфер. След анализ чрез електрофореза в агарозен гел, подходящи фрагменти бяха избрани като матрици за PCR амплификация. Секвенирането на получената cDNA библиотека се извършва със система Illumina HiSeq 2000.

Сглобяване на транскрипти de novo и количествено определяне на генната експресия

Необработените четения, генерирани от секвениране, бяха почистени чрез премахване на адаптерните последователности (ATCTCGTATGCCGTC) с помощта на вътрешен метод. След това извършихме строг процес на филтриране с ниско качество. Първо, бази с phred качествен резултат по-нисък от 20 ще бъдат отрязани от 3'-края на последователността, докато се натъкнат на една база с по-високо качество (по-голямо или равно на 20). Ако дължината на четене е по-малка от 50 bp, тя ще бъде отхвърлена. Второ, четенията ще бъдат допълнително филтрирани по критерия, че 70% от базите в едно четене имат висококачествени резултати (по-големи или равни на 20). Трето, за по-нататъшно сглобяване бяха използвани само четения от сдвоен край. Сглобяването на транскрипт De novo беше извършено с помощта на версията на Trinity _20130216 [30], която се състоеше от три последователни софтуерни модула: Inchworm, Chrysalis и Butterfly. Параметрите на сглобяването бяха зададени както следва:-seqType fq-JM 300G -min_contig_length 200-CPU 20-inchworm_cpu {{21} }bflyCPU 20.

За да се определи количествено изобилието на транскрипт, секвенираните четения в края на двойката бяха пренастроени към събраните транскрипти, използвайки скрипт в Trinity. Картографираните показания бяха използвани за количествено определяне чрез софтуер RSEM (RNA-Seq by Expectation Maximization). Изобилието на ген или изоформа беше представено от стойността на фрагмента на килобаза транскрипт на милион картографирани фрагменти (FPKM), тези транскрипти със стойност на FPKM, равна или по-голяма от 0.05, бяха определени като изразени.

Функционална анотация на изразени транскрипти

Няма набори от генни анотации на C. deserticola, с изключение на генома на хлоропласта [1]. Ние анотирахме изразените преписи, като ги сравнихме с Genbank Nt, Genbank Nr и TAIR10_ pep_20101214_актуализирани набори от данни поотделно с помощта на програмата BLAST (E< = 1e-20). Meanwhile, all expressed transcripts were translated into potential proteins according to ORF prediction by TransDecoder and predicated for the conserved domains based on the Pfam database.

Генна онтология и анотация на пътя на KEGG Чрез подравняване на сходство на последователности към базата данни на Uniprot (анотацията на генната онтология (GO) на всички събрани транскрипти беше получена чрез използване на асоциационен файл, изтеглен от (ftp://ftp.ebi.ac.uk/pub/ бази данни/GO/goa/gene_goa{1}}uniprot.gz). Групирането на експресираните гени беше проведено с помощта на персонализирани скриптове и ние анотирахме гени на четвърто ниво Категории CC, BP ​​и MF отделно.

Информацията за пътя на KEGG беше определена за всички прогнозирани протеинови последователности с помощта на онлайн инструмента KAAS (KEGG Automatic Annotation Server) [34]. Последователностите във формат fasta бяха изпратени до искането на KAAS и получените файлове с информация за всички пътища, свързани с транскриптома на стъблото на C. deserticola, бяха изтеглени. 13 набора от генни данни за растителни организми в KEGG бяха използвани за анотация с помощта на метода BBH (двупосочен най-добър удар).

cistanche tubulosa extract

НАТУРАЛЕН ЕКСТРАКТ ОТ CISTANCHE TUBULOSA CISTANCHE PHGS75% ECH 30% ACT 12%

RT-qPCR анализ

След храносмилане с DNase I, приблизително 5 ug от общата РНК се превръща в сДНК от първа верига чрез реакцията на обратна транскрипция с олиго(dT)15 праймери и GoScript система за обратна транскрипция (Promega). След това cDNA продуктите се разреждат 10-кратно с дейонизирана вода без нуклеаза преди използване като матрица в PCR в реално време. Специфични cDNA бяха амплифицирани от GoTaq 2-Step RT-qPCR система (Promega) в обем от 20 ul. PCR амплификацията се извършва при температура на отгряване от 60 градуса с 7500 Real-Time PCR Detection System (Applied Biosystems) съгласно инструкциите на производителя. Относителното изобилие на транскрипт се изчислява чрез метода на прага на сравнителния цикъл с ген "comp10579_c0" като вътрешен стандарт, като се използва софтуерът 7500 Manager.

Двойките праймери за RT-PCR са проектирани въз основа на онлайн софтуер (http://primer3.ut.ee/) и са изброени в набора от данни S1.

Резултати

Секвениране на РНК и сглобяване на de novo транскриптом на C. deserticola месесто стъбло

Стъблото на C. deserticola се използва широко като традиционно важен тоник в Китай и Япония в продължение на много години. За да получим глобален преглед на генната експресия в месестото стъбло на C. deserticola, ние събрахме проби от стъбла на C. deserticola от същата растителна основа съответно през 2013 г. и 2014 г. Общите РНК се екстрахират и полиА+ РНК се пречистват за конструиране на RNA-seq библиотеки с двоен край. 79,433,734 и 86,019,176 четения от края на двойката, съответстващи на близо 8 милиарда и 8,6 милиарда бази от последователността, бяха получени с помощта на секвенирането на Illumina HiSeq 2000

image

платформа в проби от 2013-година и 2014-година (Таблица 1). След премахване на адаптерни последователности и филтриране на нискокачествени четения (вижте подробности в Методи), 64 831 040 висококачествени четения в края на двойката в 2013-годишната извадка бяха използвани за de novo сглобяване на транскриптоми. Използвайки Trinity секвенционния асемблер [30], бяха генерирани 51 719 гена и 95 787 транскриптни последователности с дължини на транскрипт, вариращи от 200 bp до 15 698 bp. Средната дължина на събраните преписи е 950 бази, а дължината на N50 е 1519 бази. Броят на транскриптите с различни дължини разкрива, че 57,32% от сглобените транскрипти са около 500 bp или по-дълги (Фигура 1A). Висококачествените четения в края на двойката в 2014-годишната извадка бяха картографирани към сглобения транскриптом. Освен това открихме, че броят на транскриптите за всеки сглобен ген варира и 69% от гените с една експресирана изоформа, докато 31% от гените експресират два или повече транскрипта (Фигура 1B).

Количествено определяне на експресията и функционална анотация на сглобени транскрипти

Изобилието на ген или транскрипт се определя количествено с помощта на пакета RSEM, в който секвенираните четения се подреждат отново към сглобените гени или последователности на транскрипти с помощта на Bowtie и тези картирани четения се използват за количествено определяне. Беше изчислена FPKM стойност за всеки ген или транскрипт и накрая идентифицирахме 63 957 и 52 857 активно експресирани транскрипта (FPKM стойност По-голяма или равна на 0.5) в проби от месести стебла на C. deserticola в 2{{17} }13 и 2014 г., съответно. 44 776 транскрипта (70,01% в 2013--годишната проба, 84,71% в 2014--годишната проба) бяха обикновено експресирани в двата повторения и корелацията (коефициент на корелация на Пиърсън: 0,91979) на техните данни за експресия беше показано на S1 Фиг. Суровите данни за секвениране бяха качени в базата данни на NCBI SRA (номера за достъп: SRX857402 и SRX858938). Използвахме експресирани гени, идентифицирани в 2013-годишната проба за допълнителен анализ. Информацията за функционална анотация за всички експресирани транскрипти беше получена с помощта на два метода. Първо, всички експресирани транскрипти бяха подравнени към известни нуклеотидни (GenBank nt) и бази данни с пептидни последователности (GenBank nr и Arabidopsis пептид) поотделно чрез алгоритъма BLAST. От 63 957 изразени преписи,

image

29 220 (45,7%) бяха анотирани и показаха хомология на последователности във всяка от трите предметни бази данни с прекъсване на E-стойността 1e-20. Междувременно, кандидат кодиращите региони за всички експресирани последователности на транскрипт бяха предсказани с помощта на софтуер TransDecoder и най-дългите ORFs за всеки транскрипт бяха използвани за търсене на домейн Pfam. В резултат на това 21 358 (33,4%) преписи бяха анотирани въз основа на базата данни на Pfam. Като цяло, 30 098 (47,1%) транскрипта бяха значително съпоставени с известни гени в публичните бази данни чрез комбиниране на двата метода по-горе. Пълният списък с изразени транскрипти с функционална анотация беше показан в допълнителни данни (S2 Dataset).

Проучихме 20-те най-силно експресирани транскрипта (Таблица 2), съответстващи на 18,99% от всички показания на секвенцията, и открихме, че повечето от тях са гени, отговарящи на абиотични

image

стресов стимул. Дехидринът (DHNs), клас от хидрофилни и термостабилни стрес протеини с голям брой заредени аминокиселини, които принадлежат към група II изобилие от късна ембриогенеза (LEA), е най-силно експресираният ген. Три различни транскрипта на Dehyrin (comp28713_c0_seq1/2/4) бяха открити като силно експресирани в месести стъбла, които може да участват в защитата на клетките от увреждане, причинено от стрес от суша. Други гени, свързани със стреса, като протеин от топлинен шок, протеин, свързан с патогени, и металотионеин също бяха открити силно изразени, което може да е свързано с неговата тежка среда за оцеляване. В допълнение, някои конститутивни гени, включително 26S рибозомален РНК ген (комп22329_c2_seq1), ауксин-репресиран/свързан с латентност протеин (комп20999_c0_seq1), Факторът на ADP-рибозилиране (comp20499_ c0_seq1) също се транскрибира високо.

Cistanche tubulosa extract

НАТУРАЛНА CISTANCHE TUBULOSA ЗА ПОДОБРЯВАНЕ НА ИМУНИТЕТА PHGS75% ECH 30% ACT 12%

drk-green-rounded-corner-button-buy-now-web


Може да харесаш също