Articles

Genomweite Assoziationskartierung von Dattelpalmenfruchtmerkmalen

Genomsequenzierung des BC4-Mannes

Wir haben eine männliche Dattelpalme mit Rückkreuzung am United States Department of Agriculture (USDA) / University of California, Riverside Farm in Portland, Kalifornien (USDA accession No. PI 555415, Quelle RIV 7545 PL). Dieses Männchen wurde von vier Generationen von Rückkreuzungen mit einem Barhee-Weibchen als wiederkehrendem Elternteil im Rahmen eines Zuchtprogramms am USDA, USA, produziert, das in den 1970er Jahren eingestellt wurde10,18. Die Flugblätter wurden gereinigt und vor dem Transport zum Arizona Genomics Institute (University of Arizona, Tucson, AZ) zur Extraktion von hochmolekularer DNA und Sequenzierung auf flüssigem Stickstoff eingefroren.

Das Genom des BC4-Mannes wurde mit einer PacBio RSII-Sequenzierungsplattform sequenziert. Hochmolekulare DNA für die Sequenzierung wurde aus jungen Blättern extrahiert, wobei das Protokoll von Doyle und Doyle42 mit geringfügigen Modifikationen übernommen wurde. Die Vorbereitung der PacBio-Bibliothek folgte dem 20-kb-Protokoll und es wurden drei Bibliotheken (Gel-selected bei 20, 25 und 30 kb) erstellt. Fünfundachtzig SMRT-Zellen wurden auf einem RSII-Sequenzer mit einer Erfassungszeit von 6 h sequenziert. Etwa 6,4 Millionen Lesevorgänge wurden generiert, insgesamt 72 GB Daten (mittlere Subread-Länge 11,2 kb, N50 18,5 kb). Zusätzliche Sequenzierung einer kurzen Insert-Bibliothek (2 × 100 bp gepaartes Ende) wurde mit einem Illumina HiSeq 2500 Sequenzer durchgeführt.

Genomassemblierung

Wir haben eine k-mer-basierte Schätzung der Genomgröße aus rohen kurzen Lesesequenzen des männlichen BC4-Genoms für Assemblierungszwecke durchgeführt (KmerFreq_AR in SOAPdenovo243), wobei die Standardeinstellungen und die k-mer-Länge auf 17 eingestellt waren. Beachten Sie, dass eine experimentelle Genomgrößenschätzung für P. dactylifera auch unter Verwendung der Durchflusszytometrie durchgeführt wurde (siehe unten). PacBio-Lesevorgänge wurden dann mit FALCON-Unzip19 (v. falcon-2017.06.28–18.01- py2.7-ucs2) mit einer Saatgutabdeckung von 55× und der k-mer-basierten Genomgrößenschätzung von 774 Mb als Eingabe. Das Unzip-Modul wurde mit den Standardeinstellungen ausgeführt.

Die resultierende Baugruppe wurde poliert, indem rohe PacBio-Lesevorgänge mit Quiver und Arrow (Teil der SMRT Analysis Suite v. 2.3.0) ausgerichtet wurden, gefolgt von der Ausführung von Pilon44 v. 1.18 mit Illumina-Kurzlesesequenzen aus dem BC40. Eingänge zu Pilon wurden durch Trimmen der kurzen Lesevorgänge mit Trimmomatic45 (v. 0.32) hergestellt, um 3′-Basen unterhalb der Basenqualität von Q30 zu entfernen und Lesevorgänge kürzer als 30 Nukleotide. Die Lesevorgänge wurden dann mit Bowtie246 (v. 2.2.6) an der Ausgabe von Arrow ausgerichtet.

Die polierten Primärkontigs wurden mit ALLMAPS22 an LGs der vorhandenen genetischen map21 verankert, um eine verankerte haploide Anordnung zu erzeugen. Gerüstsequenzen für die genetische Karte wurden von http://qatar-weill.cornell.edu/research/datepalmGenome/edition3/PdactyKAsm30_r20101206.fasta.gz erhalten. Bei der Ausrichtung auf die genetische Karte und nach manueller Überprüfung der Neuausrichtung der Rohdaten zur Baugruppe fanden wir nur einen Fall von Fehlmontage: Ein Contig musste geteilt werden, da zwei Contig-Enden Kopf an Kopf zusammengeführt wurden.

Genomanmerkung

Wir generierten RNA-Seq-Bibliotheken aus Früchten im multiplen Khalalstadium (siehe unten), einer Mischung aus männlichen und weiblichen Blütenknospen (im Folgenden als „Blume“ bezeichnet) und Pollen und führten eine 2 × 100 bp-Paired-End-Sequenzierung an einem Illumina HiSeq 2500-Instrument durch (ergänzende Tabelle 7). Zusätzliche Dattelpalmen-RNA-Seq-Daten von Blatt und Wurzel wurden aus dem Sequenzlesearchiv heruntergeladen (ergänzende Tabelle 7). RNA-Seq-Lesevorgänge wurden mit Trimmomatic45 getrimmt, mit STAR47 (v.2.4.0.1) auf die haploide Anordnung ausgerichtet und mit StringTie48 (v. 1.3.2) als Training für Augustus49 (v. 2.3).

Die Gen-Annotation wurde mit der MAKER2-Pipeline50 (v. 2.31) durchgeführt. Homologie-basierte Beweise, enthalten 7097 ESTs (heruntergeladen von NCBI EST Datenbank am 9. Februar 2017), Proteinsequenzen von Uniprot51, ein Dattelpalmenproteom , ein Ölpalmenproteom52 und die RNA-Seq abgeleiteten Modelle von oben. Die Ab-initio-Vorhersage wurde mit Augustus (v. 3.0) durchgeführt, wie in Bowman et al.53 mit Genmodellen, hergestellt mit StringTie48 (v. 1.3.2), aus den RNA-Seq Alignments.

Die rohe MAKER2-Annotation wurde analysiert, wobei Modelle entfernt wurden, die TE-Domänen enthielten und keine Beweise für eine Transkription oder das Vorhandensein einer Pfam-Domäne enthielten, wie in Bowman et al.53. Mit etwa 1 × nicht-organellaren Single-End-WGS Illumina-Lesevorgängen wurde eine De-Novo-Wiederholungsbibliothek (nicht assemblybasiert) mit RepeatExplorer54 erstellt und wie in Copetti et al.55. Die wiederholte Annotation der Assembly wurde mit RepeatMasker (v. 4.0.6; im Nukleotidraum) und Blaster56 (Teil des REPET v 2.5-Pakets, im Proteinraum) durchgeführt und später in einer einzigen Annotationsdatei abgeglichen. nichtkodierende RNAs wurden mit Infernal57 (v. 1.1.2) mit der Rfam library58 (v. 12.2) vorhergesagt. Treffer über dem E-Wert-Schwellenwert von 1 × 10-5 wurden herausgefiltert, ebenso wie Ergebnisse mit einem Score unter dem familienspezifischen Sammelschwellenwert. Wenn Loci auf beiden Strängen vorhergesagt wurden, wurde nur der Treffer mit der höchsten Punktzahl beibehalten. Transfer-RNAs wurden auch mit tRNAscan-SE59 (v. 2.0) mit Standardparametern vorhergesagt.

Genomqualitätsbewertung

Visualisierungen der Genomassemblierung wurden mit Assembly-stats-Software erstellt (Ergänzende Abb. 1, ). Die Vollständigkeit der Assemblierung wurde durch Charakterisierung des Genraums mit BUSCO20 unter Verwendung von 1440 Pflanzenorthol-Gruppen (v. 3) und durch Ausrichtung von ESTs auf die diploide Assemblierung mit Blat60 (v. 350) bewertet.

Schätzung der Genomgröße von Dattelpalmen

Die Genomgröße wurde unter Verwendung des in Doležel et al.61 mit geringfügigen Änderungen. Kurz gesagt, ungefähr 1 cm2 Blattmaterial von zwei P. Dactylifera-Proben der Royal Botanic Gardens, Kew, UK Sammlung wurden für 30 s auf Eis in 1 ml „General Purpose Buffer“ (GPB) 62, ergänzt mit 3% PVP-40, inkubiert, um das Blatt zu erweichen. Dann wird eine ähnliche Menge Blattmaterial des Kalibrierstandards Petroselinum crispum (Mill.) Fuss (1C-Wert = 2201 Mb)63 zugegeben und das vereinte Material mit einer neuen Rasierklinge rasch (aber nicht zu kräftig) zerkleinert. Nach Zugabe von weiteren 1 ml des GPB-Puffers wurde das Homogenat über ein 30 µm Nylonnetz (Celltrics 30 µM Mesh, Sysmex, Goritz, Deutschland) in ein Röhrchen filtriert, mit 100 µl Propidiumiodid (1 mg/ml) versetzt und die Probe 10 min auf Eis inkubiert. Die relative Fluoreszenz von 5000 Partikeln wurde mit einem Durchflusszytometer Partec Cyflow SL3 (Partec GmbH, Münster, Deutschland) aufgenommen, das mit einem 100 mW grünen Festkörperlaser (532 nm, Cobolt Samba, Solna, Schweden) ausgestattet war. Drei Replikate jedes Blattes wurden verarbeitet, und die Ausgabehistogramme wurden mit der FlowMax-Software v.2 analysiert.4 (Partec GmbH). Der 1C-Wert von P. dactylifera (Mbp) wurde berechnet als: (Mittlere Peakposition von P. dactylifera/mittlere Peakposition von P. crispum) × 2201 Mb (= 1C-Wert von P. crispum)63.

GWAS-Panel

Die Phänotypisierung für das GWAS wurde an Dattelpalmen auf zwei Farmen in den Vereinigten Arabischen Emiraten durchgeführt. Die Farmen befinden sich im Dattelpalmenforschungszentrum in Hamriyah, Ras Al-Khaimah (n = 46) und in Al-Shuwaib, Al-Ain, Abu Dhabi (n = 111) . Die Population besteht hauptsächlich aus weiblichen kommerziellen Sorten (n = 145). Männer (n = 12), die auf den Farmen wachsen, wurden ebenfalls sequenziert, hauptsächlich um den geschlechtsbestimmenden Ort zu kartieren.

Fruchtproben im Khalal-Stadium wurden von Frühjahr bis Herbst 2016 gesammelt und entweder auf flüssigem Stickstoff für die RNA-Sequenzierung eingefroren oder als frische Früchte für die Fotografie, das Scannen (siehe unten) und die Charakterisierung anderer Fruchtmerkmale gesammelt. Tamarinde Früchte aus den gleichen Bäumen wurden im Sommer 2017 für Zucker und organische Säure Profilierung gesammelt. Blattproben wurden zur DNA-Extraktion und Genomsequenzierung gesammelt.

Genomische DNA wurde entweder aus Blatt- oder Fruchtmesokarp / Epikarp-Gewebe mit dem plant DNeasy mini Kit (Qiagen, Venlo, Niederlande) extrahiert. DNA-Extraktionssäulen und Bibliotheken, die mit Illumina Nextera (San Diego, CA) Kit hergestellt wurden. Eine 2 × 100 bp Paired-End Sequenzierung wurde auf einem Illumina HiSeq 2500 Sequenzer mit bis zu acht Libraries pro Lane durchgeführt. Lesevorgänge wurden demultiplext und diejenigen, die Illumina-Qualitätskontrollfilter passierten, wurden mit Trimmomatic45 (v. 0.36) verarbeitet, um kontaminierende Adaptersequenzen zu entfernen. Zum Entfernen des Adapters haben wir die im Trimmomatic (v. 0.32) -Download enthaltene Adapter- und Nextera-Transposase-Sequenzdatenbank mit der folgenden Einstellung ILLUMINACLIP verwendet:〈adapter library〉: 2:30:10 MINLEN: 76, um nur Lesepaare beizubehalten, bei denen beide Lesevorgänge nach dem Trimmen 76 bps oder länger waren.

Die Lesevorgänge wurden mit bwa mem (v. 0.7.15-r1140) an der nicht maskierten BC4-Stiftbaugruppe (nur primäre Anschlüsse) ausgerichtet. Der bwa mem Aligner wurde mit der Option -M ausgeführt, um zusätzliche Lesevorgänge (0 × 800 bitweises Flag) als sekundär (0 × 100) zu markieren. Beispielausrichtungen wurden mit FixMateInformation (Picard-tools v. 2.8.2; http://broadinstitute.github.io/picard) verarbeitet, um die Konsistenz der gepaarten Leseinformationen sicherzustellen, SamSort (Picard-tools v. 2.8.2), um die Ausrichtungen zu koordinieren, MarkDuplicates (Picard-tools v. 2.8.2), um doppelte Lesepaare zu kennzeichnen, und mit GATK64 IndelRealignerTargetCreator/IndelRealigner tool GATK v. 3.7-0), um Lesevorgänge in Indel-Regionen neu auszurichten. Die Probenausrichtungen wurden in jedem Schritt mit ValidateSam (Picard-tools v. 2.8.2) validiert, um sicherzustellen, dass keine Fehler in der Produktion auftreten. Verarbeitete Alignments wurden mit CollectAlignmentSummaryMetrics (Picard-tools v. 2.8.2) und Samtools zusammengefasst.

SNP-Aufruf und Genotypisierung

SNP-Aufruf und Genotypisierung wurden mit dem GATK (v. 3.7-0) HaplotypeCaller im GVCF-Modus ausgeführt, gefolgt von einer gemeinsamen Genotypisierung mit GenotypeGVCFs . Lesevorgänge wurden aus dem HaplotypeCaller-Schritt gefiltert, um diejenigen mit einer Mapping-Qualität von weniger als 20 auszuschließen und diejenigen auszuschließen, die als PCR-Duplikate (Polymerase Chain Reaction) oder sekundäre Alignments markiert sind (siehe oben). Dieser Ansatz ergab 32.384.028 SNPs über alle Stichproben hinweg. Die SNP-Filterung wurde durchgeführt, indem mit GATK v. 4.0.2.1 harte Filter auf die Rohvarianten angewendet wurden. Wir haben den rohen Aufrufsatz gefiltert, um SNPs mit niedriger (<785) und hoher Tiefe (>2862) Summe über Samples auszuschließen. Wir haben auch multiallelische SNPs, SNPs innerhalb von 10 bp von Indel-Polymorphismen und SNPs, die die folgenden Bedingungen erfüllen, ausgeschlossen: QUAL < 30 und QD < 5.0. Genotypen wurden als fehlend festgelegt, wenn DP unter 5 oder über 20 lag, sowie SNPs mit einer Genotyp-Anrufrate < 80% oder einer geringen Allelfrequenz unter 0,01. Wir schätzten einen P–Wert für jede Stelle aus einem Hardy-Weinberg-Gleichgewichtstest mit VCFtools65 und filterten SNPs heraus, die einen Überschuss an Heterozygotie zeigten (exakter Test, P < 0.05). Diese Prozedur ergab einen gefilterten Anrufsatz von 7.149.205 SNPs.

Statistische Analyse

Alle statistischen Analysen wurden in der Sprache R statistical Computing durchgeführt, sofern nicht anders angegeben.

LD-Analyse

LD wurde mit einer Methode zur Schätzung von r2 geschätzt, die für unphasige Daten geeignet ist (siehe VCFtools65). Die LD-Zerfallskurve für das GWAS-Panel wurde wie in Flowers et al.4. Kurz gesagt, r2 wurde für unphasige SNPs mit einer geringen Allelfrequenz von mehr als 10% unter Verwendung der Option–geno-ld in VCFtools (v. 0.1.14) berechnet. Zerfallskurven wurden durch Anpassen einer Kurve an die paarweisen r2-Schätzungen durch physikalische Entfernung zwischen SNP-Paaren mit nichtlinearen kleinsten Quadraten unter Verwendung eines von Marroni et al.66. Der Halbabklingabstand wurde dann als der Abstand berechnet, bei dem r2 die Hälfte seines Maximalwerts ist (d. H. 1 bp Abstand).

Charakterisierung der Fruchtfarbe

Pro Dattelpalmensorte wurden acht verletzungsfreie Früchte der Khalal-Stufe geerntet, mit Leitungswasser gespült, um Staub zu entfernen, und anschließend an der Luft getrocknet. Die Früchte wurden in Längsrichtung geschnitten, und die Fruchtfarbe wurde dann mit zwei Strategien gemessen. Zuerst fotografierten wir die geschnittenen Früchte mit einem Farbprüfer in einer Kamera-Fotostudio-Box, wo die Bilder auf einem weißen Hintergrund mit einer Digitalkamera aufgenommen wurden. Die Farbe der Frucht wurde mit ImageJ software67 unter Verwendung der RGB-Farbparameter analysiert.

Zweitens haben wir einen komplementären Ansatz verwendet, bei dem wir Tomato Analyzer software68 v.2.2 verwendet haben, um Schätzungen der Farbparameter L*, a *, b * zu erhalten. Die L * -Koordinate drückt die Dunkelheit und die Helligkeit der Farbe aus und reicht von Schwarz (0) bis Weiß (100). Die Koordinaten a * und b * drücken die Farbrichtung aus, wobei +a * in die rote Richtung, −a * in die grüne Richtung, +b * in die gelbe Richtung und −b * in die blaue Richtung68. Die Bilderfassung und -analyse erfolgte wie in Rodríguez et al.27. Geschnittene Früchte wurden auf einen Scanner mit schwarzem Hintergrund gelegt und abgedeckt, um die Auswirkungen von Umgebungslicht zu vermeiden. Gescannte Bilder wurden als JPEG-Dateien gespeichert und die Schätzungen der Farbparameter L *, a *, b * wurden an jeder Frucht vorgenommen. Der Durchschnitt aller Früchte wurde berechnet. Die beiden Methoden waren stark korreliert, daher verwendeten wir den Farbindex a * / b *, um die Unterschiede in den Hautfarben der Früchte zu bewerten, und verwendeten dies für die Assoziationsstudie.

Gehalt an Fruchtanthocyan

Gesamtanthocyan wurde aus drei Replikaten von Früchten im Khalal-Stadium jeder Dattelpalmensorte unter Verwendung von Früchten extrahiert, die auf flüssigem Stickstoff nach dem in Rabino und Mancinelli69 beschriebenen Verfahren mit geringfügiger Modifikation eingefroren wurden. Kurz wurde Anthocyan aus gefrorener Fruchthaut (100 mg) zu feinem Pulver vermahlen und in 1 ml saurem Methanol (1%HCl) durch Inkubation bei Raumtemperatur im Dunkeln für 18 h extrahiert, gefolgt von Zentrifugation für 10 min bei 12.000 g. Die Quantifizierung des Gesamtanthocyanins erfolgte unter Verwendung der mit einem Spektralphotometer gemessenen Extinktion unter Verwendung der Gleichung

Gesamtanthocyan = (A530-0,25 × A657) / FW, wobei A530 und A657 nm die Extinktion und FW das Nassgewicht des Pflanzenmaterials (g) sind.

Fruchtgröße

Fruchtfotos, die für die Farbanalyse verwendet wurden (siehe oben), enthielten ein Lineal als Größenstandard. ImageJ67 (v. 2) und Tomato Analyzer software27 wurden dann verwendet, um die Länge und Breite der Früchte zu schätzen.

Fruchtzucker und Säuregehalt

Fruchtsaccharose, Glucose und Fructose wurden von 125 Sorten im Tamar-Stadium quantifiziert, wenn die Früchte trocken sind, die Reifung abgeschlossen ist und die Datteln typischerweise verzehrt werden. Die Früchte wurden bei -20 ° C eingefroren und zwischen 10 und 15 Früchte pro Sorte wurden sofort bei -20 ° C gehalten, bis sie in Montpellier (französisches landwirtschaftliches Forschungszentrum für internationale Entwicklung, CIRAD) ankamen, wo hochleistungsflüssigkeitschromatographische Analysen durchgeführt wurden. Eine einzelne Messung von zwei gepoolten Früchten wurde für jedes der Zucker- und Säuremerkmale erhalten. Dattelstücke (ohne Stein) wurden mit flüssigem Stickstoff eingefroren und zu Pulver gemahlen, in zwei separate, dichte Glasfläschchen gegeben und bis zur Probenahme bei -20 ° C gelagert. Für die Trockensubstanz wurde jeweils 1 g Probe gewogen und 72 h im Vakuum bei 70°C in einen Ofen gestellt. Eine Kontrolle wurde 4 Tage lang auf die optimale Dauer überprüft. Zuckerextraktionen wurden unter Verwendung der von Bchir et al.70. Für jede Probe wurden 500 mg Dattelpaste und 10 ml 80% iges Ethanol in ein 15 ml Röhrchen gegeben und 5 min auf 80 ° C in einem Wasserbad erhitzt. Jedes Röhrchen wurde dann zur besseren Streuung zunächst manuell und dann mechanisch für 15 min gerührt. Nach Zentrifugation bei 9000×g (Avanti J-E centrifuge; Beckman-Coulter, Brea, CA, USA) wurde der Sumpf zweimal extrahiert und die Überstände gesammelt, bei 0,45 µm filtriert und injiziert. Die Methode wurde mit saurem Wasser (0,01 N H2SO4) getestet. Probenstandards wurden Sigma-Aldrich (St. Louis, MO, USA) verwendet.

Fruchtfeuchtegehalt

Die Fruchtprobenahme wurde wie im Abschnitt Fruchtzucker und Säuregehalt oben durchgeführt. Dattelpulpe aus zwei Früchten wurde gewonnen und mit flüssigem Stickstoff gemahlen, um die Probe zu homogenisieren, und bei -80 ° C gelagert, um eine einzige Messung pro Sorte zu erhalten. Der Feuchtigkeitsgehalt wurde gravimetrisch bestimmt, indem der Gewichtsverlust von 2,5 g Dattelzellstoffproben gemessen und bei 70 ° C getrocknet wurde, bis die Proben ein stabiles Gewicht erreichten.

Genomweite Assoziationsanalyse

Wir haben die genomweite Assoziations-Mapping-Analyse mit dem Gapit R package25 durchgeführt. Aus Gründen der Recheneffizienz und zur Minimierung von Problemen mit mehreren Tests, die jedoch eine dichte Abdeckung in Bezug auf die LD-Abklingentfernung bieten, haben wir einen zufälligen SNP-Satz mit 5,5% Downsampling (392.948 SNPs) verwendet. Ein CMLM26 unter Verwendung sowohl der Populationsstruktur als auch der Verwandtschaftsinformationen als Kovariaten wurde an den Genotypen aus den 157 Dattelpalmenproben durchgeführt. Die Populationsstruktur wurde mit einer von Gapit generierten Hauptkomponentenanalyse (PCA) unter Verwendung von 1% der SNPs (stichprobenartig) abgeleitet. Gapit verwendete ferner die ersten fünf Komponenten des PCA (Abb. 1a; Ergänzende Angaben 2). Die Verwandtschaft wurde mit dem VanRaden-Algorithmus abgeleitet (Ergänzende Daten 3). Signifikante SNPs wurden unter Verwendung einer konservativen Bonferroni-Schwelle von P < 1,27 × 10-7 identifiziert. Für Merkmale mit signifikanten Ergebnissen führten wir ferner eine zweite GWAS-Analyse unter Verwendung des vollständigen SNP-Satzes für bestimmte LGs durch, bei denen signifikante SNPs identifiziert wurden.

Charakterisierung von Ibn Majid und dem VIR-Gen

Wir identifizierten zuvor einen Copia-ähnlichen Retrotransposon-Insertionspolymorphismus im Exon 3 eines R2R3-MYB-Transkriptionsfaktors13 (NCBI-Gen-ID: LOC103717680), das zum Virescens (VIR)-Gen in Ölpalme ortholog ist28. Um dieses Retrotransposon zu charakterisieren, haben wir das Element PCR-amplifiziert lange terminale Wiederholungen (sowie angrenzende VIR-Gensequenz) in Thory- und Empress-Sorten, die von der USDA-Farm in Madison, Kalifornien, bzw. der USDA / UC Riverside Farm gesammelt wurden, unter Verwendung von GoTaq-PCR-Kernsystemen (Promega, Madison, WI USA) Puffer und Polymerase.

Die Primerpaare 5′-TGT GTC CGG CAT TGC ACT TCT-3′ (vorwärts) und 5′-GCT CAA TGT TGA TGT TCT TGT TGG-3′ (rückwärts) wurden für den 5′ LTR und 5′-ACTC TGA CTA CCA AGT ACT TGA TG-3′ (vorwärts) und 5′-CTG CAC TAT TAT CAC AGT AGA TGG-3′ (rückwärts) für den 3′ LTR verwendet. Amplifizierte Produkte wurden zur Sanger-Sequenzierung bei GeneWiz (South Plainfield, New Jersey) geschickt. Unsere Genomassemblierung enthält auch eine vollständige Kopie der Insertion (~ 11,7 kb). BLAST wurde verwendet, um die Insertion gegen sich selbst auszurichten, um die passenden langen terminalen Wiederholungsbereiche zu identifizieren. Das Programm LTRdigest71 wurde verwendet, um die Blastergebnisse zu bestätigen. Eine BLAST-Suche fragte die vollständige Ibn Majid-Sequenz gegen das Dattelpalmengenom ab, um die Kopienzahl zu bestimmen.Ergänzende Tabelle 11 enthält Koordinaten unserer manuellen Annotation des VIR-Gens in der männlichen BC4-Assembly. Die Genotypisierung der Ibn Majid-Insertion in VIR Exon 3 in Dattelpalmensorten wurde durch manuelle Inspektion ausgerichteter Lesevorgänge durchgeführt, die den Insertionsbereich in JBrowse72 überspannen. Da die männliche BC4-Genomassemblierung das Insertionsallel (VIRIM, siehe Abb. 3), abgebildete Lesevorgänge, die von Wildtyp (VIR +) oder Nicht-Insertions-Allelen stammen, werden an der Exon-3-Insertionsgrenze weich abgeschnitten. Wir bewerteten das Vorhandensein von Soft-Clipped-Lesevorgängen (Unterstützung des Vorhandenseins eines VIR + -Allels) oder Unclipped-Lesevorgängen, die die Exon-3-Insertionsgrenze überspannen (Unterstützung des Vorhandenseins eines VIRIM-Insertionsallels), um Genotypen zu identifizieren. Wir wiederholten dieses Verfahren, indem wir Leseausrichtungen sowohl an den 5′- als auch an den 3′-Enden der Insertion in der männlichen BC4-Baugruppe untersuchten und Proben, bei denen sowohl 5′- als auch 3′-Genotypen übereinstimmende Genotypen ergaben, zur Analyse zurückbehalten wurden. Aufgrund unseres Interesses an Fruchtfarbenphänotypen haben wir nur weibliche Palmen genotypisiert.

Charakterisierung von Invertasen und Deletionspolymorphismen

Die Untersuchung von Genen in der Zuckerzusammensetzung QTL auf LG 14 (Ergänzende Daten 6) ergab zunächst drei Positionskandidaten — eine alkalisch / neutrale Invertase (chr14G0028200) und zwei benachbarte Zellwandinvertasen (chr14G0022900 und CHR14G0023100), die von unserer Genanmerkungspipeline vorhergesagt wurden. Wir überprüften auf mögliche zusätzliche unannotated Kopien der Invertase in dieser Region, indem wir vorhergesagte Abschriften für jedes der drei Gene zu dieser Region unter Verwendung des Splign Abschrift zu genomischem Ausrichtungswerkzeug ausrichteten73. Dies ist eine Minusstrangsequenz (die wir als CWINV2 bezeichnen) mit enger Homologie zu den flankierenden Invertasen CWINV1 und CWINV3 bei 2.489.373 bis 2.485.592, aber mehrfacher Insertion / Deletion in Regionen, die homolog zu Invertase-CDS-Exons sind.

Die Decktiefe für die Deletionsvariationsanalyse wurde in 500 bp nicht überlappenden Bins mit samtools bedcov74 (v. 1.9) verwenden der Standardeinstellungen. Die Rohtiefenwerte wurden für jede Probe unabhängig voneinander normalisiert, indem die Rohtiefe jedes Behälters durch die mittlere Rohtiefe aller Behälter auf LG dividiert wurde 14 gefolgt von log2 Transformation nach Flowers et al.75. Die Proben wurden in homozygote Deletion und alternative Genotypklassen für die 40-kb-Deletion durch manuelle Inspektion der ergänzenden Abb. 12. Homozygote Genotypen für die Deletion stromaufwärts von A/N-INV1 (Abb. 4, Ergänzend Fig. 13) wurden aufgerufen, indem ein Schwellenwert festgelegt wurde, der erfordert, dass mindestens ein 500-bp-Intervall in der 5-kb-Deletionsregion eine log2-normalisierte Tiefe von weniger als -5 aufweist. Gegenwärtig ist es nicht möglich, Heterozygoten für Deletionsallele von Insertionshomozygoten zu unterscheiden, da unsere Resequenzierungsdaten nur eine mäßige Abdeckung aufweisen.

Invertase-Enzym-Assay

Für den Invertase-Assay wurden zwei Saccharose- und zwei reduzierende Zuckersorten ausgewählt. Das Experiment wurde an zwei Tagen durchgeführt, wobei alle vier Sorten an jedem Tag durch eine einzige Frucht repräsentiert wurden. Die Assays wurden an einer Frucht der Khalal-Stufe durchgeführt, die zum Zeitpunkt der Entnahme eingefroren war (siehe oben), gefolgt von einer Lagerung bei -80 ° C. Aus der gefrorenen Dattelfrucht wurden nach dem Protokoll von Hasegawa und Smolensky33 Rohextrakte erhalten. Jede gefrorene Frucht wurde mit Mörser und Stößel pulverisiert (wobei das Saatgut entfernt wurde), dann in einem Küchenmixer gemahlen und 5 g in kalten Extraktionspuffer (20 ml 4,0% NaCl, 1 g Polyvinylpyrrolidon, PVP) gegeben. Ein zusätzlicher Mazerationsschritt wurde in einem Laborhomogenisator für 1-2 min durchgeführt. Der Extrakt wurde dann bei 20.000 ×g 15 min bei 4°C zentrifugiert. Der lösliche Invertase enthaltende Überstand wurde auf Eis gelagert und der Rest ein zweites Mal bei 20.000×g 15 min bei 4°C zentrifugiert. Die Überstände wurden vereinigt und 10 ml gegen kaltes Wasser bei 4°C über Nacht dialysiert, um Zucker aus dem Extrakt zu entfernen. Die Probe wurde dann geteilt und die Hälfte der Probe bei 100 ° C gekocht, um die Hintergrundaktivität von potenziell kontaminierendem Zucker aus der Frucht zu messen. Die Invertaseaktivität von ungekochten und gekochten Rohextrakten wurde dann durch kolorimetrischen Assay auf einem Synergy H1 Mikroplatten-Reader mit einem gekoppelten Enzym-Assay-Kit (Sigma-Katalog-Nr. MAK118) nach den Anweisungen des Herstellers.

Frucht-RNA-Seq-Analyse

Zwei RNA-Seq-Datensätze wurden gesammelt, um Fragen zur Fruchtentwicklung und Variation der Fruchtmerkmale zu beantworten. RNA-Seq in verschiedenen Fruchtentwicklungsstadien wurde an Früchten durchgeführt, die 2014 von Replikatbäumen auf dem Gelände der Universität der Vereinigten Arabischen Emirate, Dattelpalmengewebekulturlabor in Al-Ain, VAE, gesammelt wurden. Für dieses Experiment wurden drei oder vier separate Bäume der Sorten Khenezi (eine Sorte mit roten Früchten) und Khalas (gelbe Früchte) wiederholt an 45, 75, 105, 120 und 135 Tagen nach der Bestäubung beprobt und die Früchte auf flüssigem Stickstoff eingefroren. RNA wurde aus einer einzelnen Frucht von jeweils drei oder mehr Bäumen pro Sorte nach Standardprotokollen für die TruSeq-Bibliothek extrahiert Vorbereitung und 2 × 101 bp gepaart-End-Sequenzierung auf einem Illumina HiSeq 2500 durchgeführt.

Ein zweites Experiment wurde an Früchten der Khalal-Stufe durchgeführt, die 2016 auf der Al-Shuwaib-Farm gesammelt wurden. Drei Früchte wurden von jeder von acht Palmen gesammelt, die jeweils einer anderen Sorte angehörten, die auf der Grundlage ihrer extremen Saccharose- und Reduktionszuckerverteilung (d. H. Hohe und niedrige Saccharosekonzentration) ausgewählt wurden. Früchte wurden wie oben beschrieben verarbeitet und Bibliotheken mit Nextera Library Preparation Kit (Illumina) und 2 × 76 bp Paired-End-Sequenzierung auf einem NextSeq (Illumina) -Instrument erstellt.

Die differentielle Expressionsanalyse wurde durchgeführt, indem rohe Sequenzierungslesungen mit Trimmomatic45 (v 0.36) mit den Parametern ILLUMINACLIP:〈adapter fasta〉:2:30:10 TRAILING:3 LEADING:3 SLIDINGWINDOW:4:15 MINLEN:36 . Die Lesevorgänge wurden dann mit dem STAR Split Read aligner47 (v. 2.5.3a) und Lesezählungen, die pro Gen generiert werden, indem die Vereinigung von Exons mit htseq-count76 (v. 0.9.1) so eingestellt wird, dass nur eindeutig zugeordnete Lesevorgänge enthalten sind (dh htseq-count options –type = exon–mode = union–nonunique = none ). Die Normalisierung der Leseanzahl wurde mit der Median-of-Ratios-Methode von DESeq277 (v. 1.8.2) durchgeführt. Tests der differentiellen Expression von Virescens (Pdac_HC_chr4G0137100) zwischen roten (Khenezi, n = 3 Replikatbibliotheken) und gelben (Khalas, n = 3 oder 4 Replikatbibliotheken) Sorten wurden separat für jeden der Fruchtentwicklungszeitpunkte von 45, 75, 105, 120 und 135 Tagen nach der Bestäubung durchgeführt. P-Werte werden für einen Wald-Test der Hypothese ohne Faltdifferenz zwischen Khenezi- und Khalas-Expression in jedem Stadium angegeben.

Die RNA-seq-Analyse der differentiellen Genexpression der Invertasen A / N-INV1, CWINV1 und CWINV3 (Pdac_HC_chr14G0028200, Pdac_HC_chr14G0022900 bzw. Pdac_HC_chr14G0023100) zwischen Saccharose (n = 4 Sorten) und reduzierenden Zuckertypen (n = 4 Sorten) wurde durchgeführt, indem drei Bibliotheken pro Sorte erstellt wurden aus RNA, die unabhängig von drei verschiedenen Früchten extrahiert wurde, gefolgt von Sequenzierung jeder Bibliothek. Die Analyse der Differentialexpression zwischen Saccharose-Typ und reduzierenden Sorten wurde dann durchgeführt, indem Lesevorgänge mit STERN (siehe oben) ausgerichtet, Lesevorgänge mit htseq-count gezählt und rohe Zählmatrizen in DESeq2 generiert wurden. Die Rohzählungen pro Gen wurden dann für jede Sorte über die Bibliotheken summiert, da in einigen Bibliotheken die Lesezahlen niedrig waren. Die anschließende Analyse wurde durchgeführt, indem zuerst Gene mit niedriger Anzahl (Gene mit <10 Lesevorgängen, summiert über alle 8 Proben) fallen gelassen wurden, gefolgt vom Standard-Arbeitsablauf DESeq2 (v. 1.22.2) mit vier biologischen Replikaten (d. h., Dattelpalmensorten) in jeder Behandlungsgruppe. Unkorrigierte P-Werte für die Hypothese ohne Differentialexpression sind im Haupttext für drei Kandidatengene dargestellt.

Berichtszusammenfassung

Weitere Informationen zum Forschungsdesign finden Sie in der Nature Research Reporting Summary, die mit diesem Artikel verknüpft ist.