Articles

Genome-wide association mapping of dadelpalm fruit traits

Genome sequencing of the BC4 male

we hebben een backcross mannelijke dadelpalm bemonsterd op het United States Department of Agriculture(USDA) / University of California, Riverside farm in Thermal, California (USDA accession No. PI 555415, bron RIV 7545 PL). Dit mannetje werd geproduceerd door vier generaties van backcrossing met een barhee vrouwtje als de terugkerende ouder als onderdeel van een fokprogramma op de USDA, USA dat werd stopgezet in de 1970s10,18. Folders werden gereinigd en snap bevroren op vloeibare stikstof voorafgaand aan transport naar de Arizona Genomics Institute (Universiteit van Arizona, Tucson, AZ) voor extractie van hoog moleculair gewicht DNA en sequencing.

het genoom van de BC4 man werd gesequenced met behulp van een PacBio RSII sequencing platform. Het DNA van het hoge molecuulgewicht voor het rangschikken werd uit jonge bladeren gehaald die het protocol van Doyle en Doyle42 met minder belangrijke wijzigingen goedkeuren. Pacb bibliotheek voorbereiding volgde het 20 kb protocol en drie bibliotheken (gel-geselecteerd op 20, 25, en 30 kb) werden gebouwd. Vijfentachtig SMRT cellen werden gesequenced op een RSII sequencer met film collectie tijd van 6 h. ongeveer 6,4 miljoen leest werden gegenereerd, in totaal 72 Gb aan gegevens (gemiddelde subread lengte 11.2 kb, N50 18.5 kb). Extra sequencing van een korte insert library (2 × 100 bp paired-end) werd uitgevoerd met een Illumina HiSeq 2500 sequencer.

Genoomassemblage

we deden een op k-mer gebaseerde schatting van de genoomgrootte van ruwe korte readsequenties van het mannelijke BC4 genoom voor assemblagedoeleinden (KmerFreq_AR in SOAPdenovo243) met standaardinstellingen en K-Mer lengte ingesteld op 17. Merk op dat een experimentele schatting van de genoomgrootte voor P. dactylifera ook werd gedaan gebruikend cytometrie stroom (zie hieronder). Pacb reads werden vervolgens geassembleerd met FALCON-Unzip19 (V. falcon-2017.06.28–18.01-py2. 7-ucs2) met een zaaddekking van 55× en de op k-mer gebaseerde schatting van de genoomgrootte van 774 Mb als input. De Unzip module werd uitgevoerd met standaardinstellingen.

de resulterende assemblage werd gepolijst door het uitlijnen van de ruwe PacBio reads met Quiver en Arrow (onderdeel van de Smrt Analysis suite V.2.3.0), gevolgd door het uitvoeren van Pilon44 V. 1.18 met Illumina short read sequences van de BC4 Man. De input aan Pilon werd geproduceerd door korte leest met Trimmomatic45 (v. 0.32) in orde te maken om 3′ basissen onder basiskwaliteit van Q30 te verwijderen en leest korter dan 30 nucleotiden. Reads werden vervolgens uitgelijnd op de output van Arrow met Bowtie246 (V.2.2.6).

de gepolijste primaire contigs werden verankerd aan LGs van de bestaande genetische map21 met ALLMAPS22 om een verankerde haploïde assemblage te produceren. Scaffold sequenties voor de genetische kaart werden verkregen uit http://qatar-weill.cornell.edu/research/datepalmGenome/edition3/PdactyKAsm30_r20101206.fasta.gz. Bij de uitlijning naar de genetische kaart en na handmatige inspectie van de heruitlijning van de ruwe reads naar de assemblage, vonden we slechts één geval van mis-assemblage: een contig moest worden gesplitst omdat twee Contig uiteinden werden samengevoegd head-to-head.

Genoomannotatie

we genereerden RNA-Seq bibliotheken uit meerdere khalal Stadium fruit( zie hieronder), een mengsel van mannelijke en vrouwelijke bloemknoppen (hierna “bloem” genoemd), en pollen, en voerden 2 × 100 bp gepaarde eindsequencing uit op een Illumina HiSeq 2500 instrument (aanvullende tabel 7). De extra gegevens van RNA-Seq van de datumpalm van blad en wortel werden gedownload van de opeenvolging gelezen archief (aanvullende tabel 7). RNA-Seq reads werden bijgesneden met Trimmomatic45, uitgelijnd op de haploïde assemblage met STAR47 (v. 2. 4. 0.1), en genmodellen voorspeld door StringTie48 (v. 1.3.2) te gebruiken als training voor Augustus49 (v.2.3).

Genannotatie werd uitgevoerd met behulp van maker2 pipeline50 (v.2.31). Op homologie gebaseerd bewijsmateriaal, omvatte 7097 ESTs (gedownload van NCBI est-gegevensbestand op 9 februari 2017), eiwitopeenvolgingen van Uniprot51 , een dadelpalmproteoom, een oliepalmproteome52, en de RNA-Seq afgeleide modellen van hierboven. Ab initio voorspelling werd uitgevoerd met Augustus (V.3.0) getraind zoals beschreven in Bowman et al.53 met genmodellen geproduceerd met StringTie48 (v.1.3.2), uit de RNA-Seq-uitlijningen.

de ruwe maker2-annotatie werd ontleed, waarbij modellen met TE-domeinen werden verwijderd zonder bewijs van transcriptie of de aanwezigheid van een Pfam-domein zoals beschreven in Bowman et al.53. Met ongeveer 1× van niet-organellaire single-end WGS Illumina leest, een de novo (niet assemblage-gebaseerde) repeat bibliotheek werd geproduceerd met RepeatExplorer54, en ontleed als in Copetti et al.55. Herhaal annotatie van de assemblage werd uitgevoerd met RepeatMasker (V. 4.0.6; in nucleotide ruimte) en Blaster56 (deel van het REPET v 2.5 pakket, in eiwit ruimte) en later verzoend in een enkel annotatie bestand. Noncodering RNAs werden voorspeld met Infernal57 (V.1.1.2) met de rfam bibliotheek 58 (V. 12.2). Hits boven de e-waarde drempel van 1 × 10-5 werden uitgefilterd, evenals resultaten met een score lager dan de familie specifieke verzamelen drempel. Toen loci op beide strengen werden voorspeld, werd alleen de hit met de hoogste score behouden. Transfer RNAs werden ook voorspeld met tRNAscan-SE59 (V.2.0) met standaardparameters.

genome quality assessment

visualisaties van de genome assemblage werden geproduceerd met assemblage-stats software (aanvullende Fig. 1, ). Assemblage volledigheid werd geëvalueerd door de genruimte te karakteriseren met BUSCO20 met behulp van 1440 plant ortholog groepen (V.3) en door ESTs op de diploïde assemblage te richten met Blat60 (v. 350).

schatting van de genoomgrootte van de Datumpalm

De genoomgrootte werd geschat met behulp van de éénstapsstroomcytometrieprocedure zoals beschreven in Doležel et al.61 met kleine aanpassingen. Kort, ongeveer 1 cm2 bladmateriaal van twee P. dactylifera monsters in de Royal Botanic Gardens, Kew, UK collectie werd geïncubeerd voor 30 s op ijs in 1 ml “general purpose buffer” (GPB)62 aangevuld met 3% PVP-40 om het blad te verzachten. Dan een vergelijkbare hoeveelheid bladmateriaal van de kalibratie standaard Petroselinum crispum (molen.) Fuss (1C waarde = 2201 Mb)63 werd toegevoegd en het gecombineerde materiaal werd snel (maar niet te krachtig) gehakt met een nieuw scheermesje. Nog eens 1 ml van de GPB-buffer werd toegevoegd en vervolgens werd het homogenaat gefilterd door een 30 µm nylon mesh (Celltrics 30 µM mesh, Sysmex, Goritz, Duitsland) in een buis, 100 µl propidium jodide (1 mg/mL) werd toegevoegd, en het monster werd geïncubeerd op ijs gedurende 10 minuten. De relatieve fluorescentie van 5000 deeltjes werd geregistreerd met behulp van een Partec cytometer (Partec GmbH, Münster, Duitsland), uitgerust met een 100 mW groene solid-state laser (532 nm, Cobolt Samba, Solna, Zweden). Drie replicaten van elk blad werden verwerkt, en de output histogrammen werden geanalyseerd met behulp van de FlowMax software v. 2.4 (Partec GmbH). De 1C-waarde van P. dactylifera (Mbp) werd berekend als: (gemiddelde piekpositie van P. dactylifera/gemiddelde piekpositie van P. crispum) × 2201 Mb (=1C-waarde van P. crispum)63.

GWAS-panel

Fenotypering voor de GWAS werd uitgevoerd op dadelpalmen op twee boerderijen in de Verenigde Arabische Emiraten. De boerderijen bevinden zich in het Date Palm Research Center in Hamriyah, Ras Al-Khaimah (n = 46) en in al-Shuwaib, Al-Ain, Abu Dhabi (n = 111) . De populatie bestaat voornamelijk uit vrouwelijke commerciële variëteiten (n = 145). Mannetjes (n = 12) die op de boerderijen groeiden, werden ook primair gesequenced om de geslachtsbepalende locus in kaart te brengen.

Khalal Stadium fruitmonsters werden verzameld van de lente tot de herfst in 2016, en ofwel bevroren op vloeibare stikstof voor RNA-sequencing of verzameld als vers fruit voor fotografie ,scannen (zie hieronder) en karakterisering van andere fruitkenmerken. Tamar Stadium vruchten van dezelfde bomen werden verzameld in de zomer van 2017 voor suiker en organisch zuur profilering. Bladmonsters werden verzameld voor DNA-extractie en genoom sequencing.

genomisch DNA werd geëxtraheerd uit blad of fruit mesocarp / epicarp weefsel met behulp van plant DNeasy mini kit (Qiagen, Venlo, Nederland). DNA extractie kolommen, en bibliotheken voorbereid met Illumina Nextera (San Diego, CA) kit. Een 2 × 100 bp paired-end sequencing werd uitgevoerd op een Illumina HiSeq 2500 sequencer met maximaal acht bibliotheken per rijstrook. Reads werden gedemultiplexed en die passeren Illumina kwaliteitscontrole filters werden verwerkt met Trimmomatic45 (V. 0.36) om verontreinigende adapter sequenties te verwijderen. Voor het verwijderen van de adapter, gebruikten we de adapter en Nextera transposase sequence database meegeleverd met de Trimmomatic (V.0.32) download met de volgende instelling ILLUMINACLIP: ADAP adapter library〉:2:30:10 MINLEN:76 om alleen leesparen te behouden waar beide reads 76 bps of langer waren na het trimmen.

Reads werden uitgelijnd op de ongemaskeerde BC4 mannelijke assemblage (alleen primaire contigs) met behulp van bwa mem (V.0.7.15-r1140). De BWA mem aligner werd uitgevoerd met de-M optie om aanvullende reads (0 × 800 bitwise flag) als secundair (0 × 100) te markeren. Sample alignments werden verwerkt met FixMateInformation (Picard-tools v.2.8.2; http://broadinstitute.github.io/picard) om consistentie in gepaarde leesinformatie te garanderen, SamSort (Picard-tools v. 2.8.2) om de uitlijningen te coördineren, MarkDuplicates (Picard-tools v. 2.8.2) om dubbele leesparen te markeren, en met GATK64 Indeleralignertargecreator/Indeler tool (GATK v. 3.7-0) om realign reads in Indel regio ‘ s. Sample alignments werden bij elke stap gevalideerd met ValidateSam (Picard-tools v. 2.8.2) om fouten in de productie te voorkomen. Verwerkte uitlijningen werden samengevat met CollectAlignmentSummaryMetrics (Picard-tools v. 2.8.2) en Samtools .

SNP-calling en genotypering

SNP-calling en genotypering werd uitgevoerd met de Gatk (v .3.7-0) Haplopecaller run in GVCF mode gevolgd door joint-genotyping met GenotypeGVCFs. Reads werden gefilterd uit de Haplopecaller stap om die met een mapping kwaliteit minder dan 20 uit te sluiten en die gemarkeerd als polymerasekettingreactie (PCR) duplicaten of secundaire uitlijningen (zie hierboven) uit te sluiten. Deze aanpak leverde 32.384.028 SNPs op voor alle monsters. SNP filtering werd uitgevoerd door het toepassen van harde filters op de raw varianten met behulp van GATK V. 4.0.2.1. We filterden de Raw-aanroepset om SNPs uit te sluiten met lage (<785) en hoge diepte (>2862) opgeteld over samples. We hebben ook multi-allelic SNP ’s uitgesloten, SNP’ s binnen 10 bp van indel polymorfismen, en SNP ‘ s die aan de volgende voorwaarden voldoen: QUAL < 30 en QD < 5.0. Genotypes werden als ontbrekend vastgesteld als DP lager was dan 5 of hoger dan 20, evenals SNP ‘ s met een genotype call rate < 80%, of een kleine allelfrequentie lager dan 0,01. We schatten een P-waarde voor elke locatie op basis van een Hardy-Weinberg Evenwichtstest met behulp van VCFtools65 en gefilterd SNP ‘ s die een overmaat in heterozygositeit tonen (exacte test, P < 0,05). Deze procedure leverde een gefilterde oproepset op van 7.149.205 SNPs.

statistische analyse

alle statistische analyses werden uitgevoerd in de taal R statistical computing, tenzij anders aangegeven.

LD-analyse

LD werd geschat met behulp van een methode voor het schatten van r2 die geschikt is voor niet-gefaseerde gegevens (Zie VCFtools65). De LD verval curve voor de GWAS panel werd berekend als in bloemen et al.4. In het kort werd r2 berekend voor niet–gefaseerde SNP ‘ s met een kleine allelfrequentie van meer dan 10% met behulp van de optie-geno-ld in VCFtools (V.0.1.14). Verval krommen werden gegenereerd door het passen van een curve aan de paarsgewijs R2 schattingen door fysieke afstand tussen SNP paren met niet-lineaire kleinste kwadraten met behulp van een aanpak aangepast van Marroni et al.66. De halve vervalafstand werd vervolgens berekend als de afstand waarbij r2 de helft van de maximale waarde is (d.w.z. 1 BP afstand).

karakterisering van de vruchtenkleur

acht vrucht in het khalal-Stadium die geen letsel oploopt per dadelpalmvariëteit, werden geoogst, met leidingwater gespoeld om stof te verwijderen en vervolgens aan de lucht gedroogd. De vruchten werden in de lengterichting gesneden en de kleur van het fruit werd vervolgens gemeten met behulp van twee strategieën. Eerst fotografeerden we de gesneden vruchten met een kleurencontrole in een fotostudiobox, waar de foto ‘ s werden genomen op een witte achtergrond met een digitale camera. De kleur van het fruit werd geanalyseerd met ImageJ software67 met behulp van de RGB-kleurparameters.

ten tweede gebruikten we een complementaire aanpak, waarbij we Tomato Analyzer software68 v.2.2 gebruikten om schattingen van kleurparameters L*, a*, b*te verkrijgen. De l * – coördinaat drukt de duisternis en de lichtheid van de kleur uit en varieert van zwart (0) tot wit (100). Coördinaten A* en b * geven de kleurrichting weer, waarbij +a* in de rode richting staat − – A * in de groene richting, + b * in de gele richting en-b * in de blauwe richting68. Beeldverwerving en-analyse werd gedaan zoals beschreven in Rodríguez et al.27. Gesneden vruchten werden geplaatst op een scanner met een zwarte achtergrond en bedekt om de effecten van omgevingslicht te voorkomen. Gescande foto ‘ s werden opgeslagen als JPEG-bestanden en de schattingen van kleurparameters L*, a*, b* werden gedaan op elk fruit. Het gemiddelde van alle vruchten werd berekend. De twee methoden waren sterk gecorreleerd, dus we gebruikten kleurindex a* / b * om de verschillen in huidskleur van de vruchten te evalueren en gebruikten dat Voor de associatiestudie.

gehalte aan Vruchtanthocyanine

totaal anthocyanine werd geëxtraheerd uit drie duplo ‘ s van vrucht in het khalal-stadium van elke dadelpalmvariëteit met vruchten die volgens de in Rabino en Mancinelli69 beschreven procedure met kleine wijzigingen op vloeibare stikstof zijn gesneden. In het kort werd anthocyanine uit de bevroren vruchtenhuid (100 mg) vermalen tot fijn poeder en geëxtraheerd in 1 ml zure methanol (1% HCl) door incubatie bij kamertemperatuur in het donker gedurende 18 uur, gevolgd door centrifugatie gedurende 10 minuten bij 12.000 g. De kwantificering van de totale anthocyanine werd uitgevoerd met behulp van de absorptie gemeten met een spectrofotometer met behulp van de vergelijking

totaal anthocyanine = (A530-0,25 × A657)/FW, waarbij A530 en a657 nm De absorptie zijn en FW het natte gewicht van het plantaardige materiaal (g).

Fruitgrootte

fruitfoto ‘ s die worden gebruikt voor kleuranalyse (zie hierboven) bevatten een liniaal als standaardgrootte. ImageJ67 (v. 2) en tomaat analyzer software27 werden vervolgens gebruikt om fruit lengte en breedte te schatten.

vruchtensuiker en zuurgehalte

vruchtensuiker, glucose en fructose werden gekwantificeerd voor 125 variëteiten in het tamarstadium, wanneer de vruchten droog zijn, de rijping voltooid is en het stadium waarin de data gewoonlijk worden geconsumeerd. Vruchten werden bij -20 °C gesneden en tussen 10 en 15 vruchten per variëteit werden onmiddellijk op -20 °C gehouden door aankomst in Montpellier (French Agricultural Research Centre for International Development, CIRAD), waar analyse van hogedrukvloeistofchromatografie werd uitgevoerd. Voor elk van de suiker-en zuureigenschappen werd een enkele meting van twee gepoolde vruchten verkregen. Datum stukken (zonder de steen) werden ingevroren met vloeibare stikstof en gemalen in poeder, in twee aparte strakke glazen flacons, bewaard bij -20 °C tot de bemonstering. Voor de droge stof werd in duplo 1 g Monster gewogen en gedurende 72 uur in een kachel onder vacuüm bij 70 ° C geplaatst. Suikerextracties werden uitgevoerd met behulp van de methode aangepast van Bchir et al.70. Voor elk monster werden 500 mg datumpasta en 10 ml 80% ethanol in een buis van 15 ml geplaatst, die gedurende 5 minuten bij 80 °C in een waterbad werd verwarmd. Elke buis werd vervolgens eerst handmatig en vervolgens mechanisch gedurende 15 minuten bewogen voor een betere verspreiding. Na centrifugering bij 9000 × g (avanti J-E centrifuge; Beckman-Coulter, Brea, CA, USA) werd de bodem tweemaal geëxtraheerd en de supernatants verzameld, gefilterd bij 0,45 µm en geïnjecteerd. De methode werd getest met zuur water (0,01 N H2SO4). Sample standaarden werden Sigma-Aldrich (St.Louis, MO, USA) gebruikt.

vochtgehalte van vruchten

Fruitbemonstering werd uitgevoerd zoals in de bovenstaande sectie vruchtensuiker en zuurgehalte. Dadelpulp van twee vruchten werd teruggewonnen en vermalen met vloeibare stikstof om het monster te homogeniseren en opgeslagen bij -80 °C om één enkele meting per ras te verkrijgen. Het vochtgehalte werd gravimetrisch bepaald door het gewichtsverlies te meten van 2,5 g dadelpulpmonsters, gedroogd bij 70 °C tot de monsters een stabiel gewicht bereikten.

Genome-wide association analysis

we hebben de genome-wide association mapping analyse uitgevoerd met behulp van het gapit R package25. Voor computationele efficiëntie en om multiple-test problemen te minimaliseren, maar bieden dichte dekking met betrekking tot de LD verval afstand, gebruikten we een 5,5% downsampled random SNP set (392.948 SNPs). Een CMLM26 met behulp van zowel populatiestructuur en verwantschap informatie als covariaten werd uitgevoerd op de genotypes van de 157 dadelpalm monsters. De populatiestructuur werd afgeleid met een principal component analysis (PCA) gegenereerd door Gapit met behulp van 1% van de SNP ‘ s (willekeurig bemonsterd). Gapit gebruikte verder de eerste vijf componenten van de PCA (Fig. 1a; aanvullende gegevens 2). Verwantschap werd afgeleid met behulp van het algoritme Vanraden (aanvullende gegevens 3). Significante SNP ‘ s werden geïdentificeerd met behulp van een conservatieve Bonferroni-drempel van P < 1,27 × 10-7. Voor kenmerken met significante resultaten hebben we verder een tweede GWAS-analyse uitgevoerd met behulp van de volledige SNP-set op bepaalde LG ’s waar significante SNP’ s werden geïdentificeerd.

karakterisatie van Ibn Majid en het vir-gen

we identificeerden eerder een copia-achtig retrotransposon insertiepolymorfisme in exon 3 van een r2r3-MYB transcriptiefactor13 (NCBI Gen ID: LOC103717680) dat is orthologe aan het Virescens (VIR) gen in oliepalm28. Om deze retrotransposon te karakteriseren, hebben we PCR-versterkt het element long terminal herhalingen (evenals aangrenzende vir gen sequentie) in Thory en Empress rassen verzameld van de USDA farm in Thermal, Californië en de USDA/UC Riverside farm respectievelijk, met behulp van GoTaq PCR Core systemen (Promega, Madison, WI USA) buffer en polymerase.

De primerparen 5′-TGT GTC CGG CAT TGC ACT TCT-3′ (forward) en 5′-gct CAA TGT TGA TGT TCT TGG-3′ (reverse) werden gebruikt voor de 5′ LTR, en 5′-ACTC TGA CTA CCA AGT ACT TGA TG-3′ (forward) en 5′-CTG CAC TAT TAT CAC agt AGA TGG-3′ (reverse) voor de 3′ ltr. Versterkte producten werden verzonden voor Sanger sequencing in GeneWiz (South Plainfield, New Jersey). Onze genoomassemblage bevat ook een volledig exemplaar van de insertie (~11.7 kb). BLAST werd gebruikt om de insertie tegen zichzelf te richten om de bijpassende lange terminale repeat regio ‘ s te identificeren. Het programma LTRdigest71 werd gebruikt om de explosie resultaten te bevestigen. Een BLAST search bevraagd de volledige Ibn Majid sequentie tegen de dadelpalm genoom om kopie nummer te bepalen.

aanvullende Tabel 11 geeft de coördinaten van onze handmatige annotatie van het vir-gen in de BC4 mannelijke assemblage. De genotypering van de ibn Majid-insertie in VIR exon 3 in dadelpalmvariëteiten werd uitgevoerd door handmatige inspectie van uitgelijnde meetwaarden over het insertiegebied in JBrowse72. Aangezien het mannelijke genoomassemblage van BC4 het insertie allel heeft (VIRIM, zie Fig. 3), in kaart gebrachte leest afkomstig van wild type (VIR+), of niet-insertie allelen, zijn soft-clipped op de exon 3-insertie grens. We scoorden de aanwezigheid van soft-clipped reads (die de aanwezigheid van een VIR+ allel ondersteunen) of unclipped reads over de exon 3-insertiegrens (die de aanwezigheid van een VIRIM insertie allel ondersteunen) om genotypes te identificeren. We herhaalden deze procedure door het bestuderen van leesuitlijningen aan zowel de 5′ en 3′ uiteinden van de insertie in de BC4 mannelijke assemblage en monsters waar zowel 5′ en 3′ genotypes leverden matching genotypes werden bewaard voor analyse. Gezien onze interesse in fruitkleurfenotypen, hebben we alleen vrouwelijke palmen gegenotypeerd.

karakterisering van invertasen en deletiepolymorfismen

onderzoek van genen in de suikersamenstelling QTL op LG 14 (aanvullende gegevens 6) toonde aanvankelijk drie positionele kandidaten aan—een alkalische/neutrale invertase (chr14G0028200) en twee aangrenzende celwandinvertasen (chr14G0022900 en chr14G0023100) voorspeld door onze genannotatiepijplijn. We controleerden op mogelijke extra niet-geannoteerde kopieën van invertase in dit gebied door voorspelde transcripten voor elk van de drie genen uit te lijnen op dit gebied met behulp van de Splign transcript naar genomische uitlijning tool73. Dit herstelde een minstrengsequentie (die we cwinv2 noemen), met een nauwe homologie van de flankerende invertasen CWINV1 en CWINV3 op 2,489,373 tot 2,485,592, maar meerdere inserties/deleties in gebieden die homoloog zijn aan invertase CDs exons.

Dekkingsdiepte voor deletie variatie analyse werd bepaald in 500 BP niet-overlappende bakken met samtools bedcov74 (V. 1.9) met behulp van standaardinstellingen. Ruwe dieptewaarden werden onafhankelijk genormaliseerd voor elk monster door de ruwe diepte van elke bak te delen door de mediane ruwe diepte van alle bakken op LG 14 volgend door log2 transformatie na bloemen et al.75. Monsters werden gegenotypeerd in homozygote deletie en alternatieve genotype klassen voor de 40 kb deletie door handmatige inspectie van aanvullende Fig. 12. Homozygote genotypes voor de verwijdering stroomopwaarts van A / N-INV1 (Fig. 4, Aanvullende Fig. 13) werden opgeroepen door het instellen van een drempel die vereist dat ten minste een 500 BP interval in de 5 kb schrapping regio log2 genormaliseerde diepte minder dan -5. Op dit moment is het niet mogelijk om heterozygotes voor deletie allelen te onderscheiden van insertie homozygotes vanwege de matige dekking in onze re-sequencing gegevens.

invertase enzyme assay

twee sucrose-en twee reducerende suikervariëteiten werden gekozen voor de invertase assay. Het experiment werd uitgevoerd op twee dagen met alle vier de variëteiten vertegenwoordigd door een enkele vrucht op elke dag. De tests werden uitgevoerd op één khalal-Stadium fruit dat op het moment van de verzameling in snap-frozen was (zie hierboven), gevolgd door opslag bij -80 °C. ruwe extracten werden verkregen uit de bevroren dadelvruchten volgens het Protocol van Hasegawa en Smolensky33. Elk bevroren fruit werd verpulverd met mortel en stamper (met zaad verwijderd), en vervolgens gemalen in een keukenmixer, en 5 g geplaatst in koude extractiebuffer (20 ml 4,0% NaCl, 1 g polyvinylpyrrolidon, PVP). Een extra maceratiestap werd uitgevoerd in een laboratoriumhomogenisator gedurende 1-2 minuten. Het extract werd vervolgens gecentrifugeerd bij 20.000 × g gedurende 15 min bij 4 °C. Het supernatans met oplosbare invertase werd opgeslagen op ijs en de rest centrifugeerde een tweede keer bij 20.000 × g gedurende 15 min bij 4 ° C. De supernatants werden gecombineerd en 10 ml gedialyseerd tegen koud water bij 4° ‘ s nachts om suikers uit het extract te verwijderen. Het monster werd vervolgens gesplitst en de helft van het monster werd gekookt bij 100 °C om de achtergrondactiviteit te meten van mogelijke verontreiniging van suiker uit de vrucht. Invertase activiteit van ongekookte en gekookte ruwe extracten werd vervolgens gemeten door colorimetrische assay op een Synergy H1 microplaat lezer met een gekoppelde enzym assay kit (Sigma catalog no. MAK118) volgens de instructies van de fabrikant.

Fruit RNA-Seq analyse

twee RNA-Seq datasets werden verzameld om vragen te beantwoorden over fruitontwikkeling en variatie in fruiteigenschappen. RNA-Seq bij verschillende stadia van de fruitontwikkeling werd geleid op vruchten die in 2014 van herhaalde bomen worden verzameld op de gronden van de Universiteit van de Verenigde Arabische Emiraten, het laboratorium van de de weefselcultuur van de dadelpalm in Al-Ain, de V. A. E. worden gevestigd. Voor dit experiment werden drie of vier afzonderlijke bomen van Khenezi (een variëteit met rood fruit) en Khalas (geel fruit) variëteiten herhaaldelijk bemonsterd op 45, 75, 105, 120 en 135 dagen na bestuiving en fruit snap-frozen op vloeibare stikstof. RNA werd geëxtraheerd uit één enkele vrucht van elke drie of meer bomen per variëteit volgens standaardprotocollen voor de voorbereiding van de TruSeq-bibliotheek en 2 × 101 bp gepaarde-eindsequencing uitgevoerd op een Illumina HiSeq 2500.

een tweede experiment werd uitgevoerd op khalal Stadium fruit verzameld op de Al-Shuwaib boerderij in 2016. Drie vruchten werden verzameld uit elk van acht palmen van elk een verschillende variëteit, gekozen op basis van hun aanwezigheid op of dicht bij de uiterste waarden van de sucrose-en reducerende suikersoort (d.w.z. hoge en lage sucrose-concentratie). Vruchten werden verwerkt zoals hierboven beschreven en bibliotheken gebouwd met Nextera library preparation kit (Illumina) en 2 × 76 bp gepaarde-end sequencing uitgevoerd op een nextseq (Illumina) instrument.

differentiële expressieanalyse werd uitgevoerd door het trimmen van ruwe sequencing reads met Trimmomatic45 (v 0,36) met parameters ILLUMINACLIP:〈adapter fasta〉:2:30:10 TRAILING:3 LEADING:3 SLIDINGWINDOW:4:15 MINLEN:36. Reads werden vervolgens uitgelijnd op het mannelijke referentie genoom van BC4 met de ster split read aligner47 (V. 2.5.3a) en lees tellingen gegenereerd per gen door het nemen van de Vereniging van exonen met htseq-count76 (V.0.9.1) ingesteld om alleen uniek toegewezen leest bevatten (dwz, htseq-count options –type = exon–mode = union–nonunique = none). De normalisatie van de leestelling werd uitgevoerd met de mediaan-van-Ratio-methode van DESeq277 (V.1.8.2). Tests van de differentiële expressie van Virescens (Pdac_HC_chr4G0137100) tussen rode (Khenezi, n = 3 replicate libraries) en gele (Khalas, n = 3 of 4 replicate libraries) rassen werden afzonderlijk uitgevoerd voor elk van de vrucht ontwikkeling tijdpunten van 45, 75, 105, 120 en 135 dagen na bestuiving. P-waarden worden gerapporteerd voor een Wald ‘ s test van de hypothese van geen vouwverschil tussen khenezi en Khalas expressie in elk stadium.

RNA-seq analyse van differentiële genexpressie van invertasen A/N-INV1, CWINV1 en CWINV3 (pdac_hc_chr14g0028200, pdac_hc_chr14g0022900, en pdac_hc_chr14g0023100, respectievelijk) tussen sucrose (n = 4 variëteiten) en reducerende suikers (n = 4 variëteiten) werd uitgevoerd door het bouwen van drie bibliotheken per variëteit uit RNA, onafhankelijk van drie verschillende vruchten, gevolgd door sequencing elke bibliotheek. Analyse van de differentiële expressie tussen sucrose-type en reducerende-type variëteiten werd vervolgens uitgevoerd door het uitlijnen van reads met ster (zie hierboven), het tellen van reads met htseq-telling, en het genereren van ruwe telling matrices in DESeq2. De ruwe tellingen per gen werden toen over bibliotheken voor elke variëteit samengevat toe te schrijven aan lage gelezen tellingen in sommige bibliotheken. De daaropvolgende analyse werd uitgevoerd door eerst dropping low telling genen (genen met <10 reads opgeteld over alle 8 Monsters) gevolgd door de standaard DESeq2 (V. 1.22.2) workflow met vier biologische replicaten (d.w.z., dadelpalmrassen) in elke behandelingsgroep. Ongecorrigeerde p-waarden voor de hypothese van geen differentiële expressie worden gepresenteerd in de hoofdtekst voor drie kandidaatgenen.

Rapporteringssamenvatting

nadere informatie over de opzet van het onderzoek is beschikbaar in de aan dit artikel gekoppelde samenvatting van de Nature Research Reporting.