Articles

Mappatura dell’associazione Genome-wide dei tratti della palma da dattero

Sequenziamento del genoma del maschio BC4

Abbiamo provato una palma da dattero maschio backcross situata presso il Dipartimento dell’Agricoltura degli Stati Uniti (USDA)/Università della California, Riverside farm PI 555415, Fonte RIV 7545 PL). Questo maschio è stato prodotto da quattro generazioni di backcrossing con una femmina Barhee come genitore ricorrente come parte di un programma di allevamento presso l’USDA, USA che è stato interrotto nel 1970s10,18. Volantini sono stati puliti e snap congelati su azoto liquido prima del trasporto all’Arizona Genomics Institute (University of Arizona, Tucson, AZ) per l’estrazione di DNA ad alto peso molecolare e sequenziamento.

Il genoma del maschio BC4 è stato sequenziato utilizzando una piattaforma di sequenziamento PacBio RSII. Il DNA ad alto peso molecolare per il sequenziamento è stato estratto dalle foglie giovani adottando il protocollo di Doyle e Doyle42 con piccole modifiche. La preparazione della libreria PacBio ha seguito il protocollo da 20 kb e sono state create tre librerie (gel-selected a 20, 25 e 30 kb). Ottantacinque celle SMRT sono state sequenziate su un sequencer RSII con tempo di raccolta film di 6 h. Sono state generate circa 6,4 milioni di letture, per un totale di 72 Gb di dati (lunghezza media sottolettura 11,2 kb, N50 18,5 kb). Il sequenziamento aggiuntivo di una libreria a inserto corto (2 × 100 bp paired-end) è stato condotto con un sequencer Illumina HiSeq 2500.

Assemblaggio del genoma

Abbiamo fatto una stima basata su k-mer della dimensione del genoma da sequenze di lettura brevi prime del genoma maschile BC4 a scopo di assemblaggio (KmerFreq_AR in SOAPdenovo243) con impostazioni predefinite e lunghezza k-mer impostata su 17. Si noti che una stima delle dimensioni del genoma sperimentale per P. dactylifera è stata eseguita anche utilizzando la citometria a flusso (vedi sotto). PacBio legge sono stati poi assemblati con FALCON-Unzip19 (v. falcon-2017.06.28–18.01-py2. 7-ucs2) con una copertura di semi di 55× e la stima delle dimensioni del genoma basata su k-mer di 774 Mb come input. Il modulo Unzip è stato eseguito con le impostazioni predefinite.

L’assemblaggio risultante è stato lucidato allineando le letture PACBIO grezze con Faretra e freccia (parte della suite di analisi SMRT v. 2.3.0) seguita dall’esecuzione di Pilon44 v. 1.18 con Illumina brevi sequenze di lettura dal maschio BC4. Gli input a Pilon sono stati prodotti tagliando le letture brevi con Trimmomatic45 (v. 0.32) per rimuovere 3′ basi sotto la qualità di base di Q30 e letture più brevi di 30 nucleotidi. Le letture sono state quindi allineate all’uscita di Arrow con Bowtie246 (v. 2.2.6).

I contigui primari lucidati sono stati ancorati a LGs della mappa genetica esistente21 con ALLMAPS22 per produrre un assemblaggio aploide ancorato. Sequenze di scaffold per la mappa genetica sono state ottenute da http://qatar-weill.cornell.edu/research/datepalmGenome/edition3/PdactyKAsm30_r20101206.fasta.gz. Dopo l’allineamento alla mappa genetica e dopo l’ispezione manuale del riallineamento delle letture grezze all’assembly, abbiamo trovato solo un’istanza di mis-assembly: un contig doveva essere diviso poiché due estremità contig erano unite testa a testa.

Annotazione del genoma

Abbiamo generato librerie di RNA-Seq da più frutti di stadio khalal (vedi sotto), una miscela di boccioli di fiori maschili e femminili (indicati come “fiore” sotto) e polline e condotto il sequenziamento 2 × 100 bp paired-end su uno strumento Illumina HiSeq 2500 (Tabella supplementare 7). Ulteriori dati di data palm RNA-Seq da foglia e radice sono stati scaricati dall’archivio Sequence Read (Tabella supplementare 7). Le letture di RNA-Seq sono state rifinite con Trimmomatic45, allineate all’assemblaggio aploide con STAR47 (v. 2.4.0.1) e modelli genetici previsti da StringTie48 (v. 1.3.2) da utilizzare come addestramento per Augustus49 (v. 2.3).

L’annotazione genica è stata eseguita utilizzando la pipeline50 MAKER2 (v. 2.31). Prove basate sull’omologia, incluse 7097 EST (scaricate dal database NCBI EST il 9 febbraio 2017), sequenze proteiche da Uniprot51 , un proteoma di palma da dattero, un proteome52 di palma da olio e i modelli derivati da RNA-Seq dall’alto. La predizione Ab initio è stata eseguita con Augustus (v. 3.0) addestrato come descritto in Bowman et al.53 con modelli genici prodotti con StringTie48 (v. 1.3.2), dagli allineamenti RNA-Seq.

L’annotazione MAKER2 grezza è stata analizzata, rimuovendo i modelli contenenti domini TE e mancando prove di trascrizione o della presenza di un dominio Pfam come descritto in Bowman et al.53. Con circa 1× di WGS Illumina non-organellar single-end legge, una libreria di ripetizione de novo (non basata sull’assemblaggio) è stata prodotta con RepeatExplorer54 e analizzata come in Copetti et al.55. Ripetere l’annotazione del gruppo è stata eseguita con RepeatMasker (v. 4.0.6; nello spazio nucleotidico) e Blaster56 (parte del pacchetto REPET v 2.5, nello spazio proteico) e successivamente riconciliati in un singolo file di annotazione. Gli RNA non codificanti sono stati previsti con Infernal57 (v. 1.1.2) con la libreria rfam58 (v. 12.2). I risultati sopra la soglia del valore e di 1 × 10-5 sono stati filtrati, così come i risultati con punteggio inferiore alla soglia di raccolta specifica della famiglia. Quando sono stati previsti loci su entrambi i fili, è stato mantenuto solo il colpo con il punteggio più alto. Gli RNA di trasferimento sono stati previsti anche usando tRNAscan-SE59 (v. 2.0) con parametri predefiniti.

Valutazione della qualità del genoma

Le visualizzazioni dell’assemblaggio del genoma sono state prodotte con il software assembly-stats (Fig. 1, ). La completezza dell’assemblaggio è stata valutata caratterizzando lo spazio genico con BUSCO20 utilizzando 1440 gruppi ortografici vegetali (v. 3) e allineando ESTs all’assemblaggio diploide con Blat60 (v. 350).

Stima della dimensione del genoma della palma da dattero

La dimensione del genoma è stata stimata utilizzando la procedura di citometria a flusso in una fase descritta in Doležel et al.61 con lievi modifiche. In breve, circa 1 cm2 di materiale fogliare da due P. i campioni di dactylifera presso i Royal Botanic Gardens, Kew, UK collection sono stati incubati per 30 s su ghiaccio in 1 ml di “general purpose buffer” (GPB)62 integrato con 3% PVP-40 per ammorbidire la foglia. Quindi una quantità simile di materiale fogliare dello standard di calibrazione Petroselinum crispum (Mill.) Fuss (valore 1C = 2201 Mb)63 è stato aggiunto e il materiale combinato è stato tagliato rapidamente (ma non troppo vigorosamente) utilizzando una nuova lama di rasoio. È stato aggiunto un ulteriore 1 ml del tampone GPB e quindi l’omogenato è stato filtrato attraverso una rete di nylon da 30 µm (Celltrics 30 µM mesh, Sysmex, Goritz, Germania) in un tubo, è stato aggiunto 100 µl di ioduro di propidio (1 mg/mL) e il campione è stato incubato su ghiaccio per 10 min. La fluorescenza relativa di 5000 particelle è stata registrata utilizzando un citometro a flusso Partec Cyflow SL3 (Partec GmbH, Münster, Germania) dotato di un laser a stato solido verde da 100 mW (532 nm, Cobolt Samba, Solna, Svezia). Sono state elaborate tre repliche di ogni foglia e gli istogrammi di output sono stati analizzati utilizzando il software FlowMax v. 2.4 (Partec GmbH). Il valore 1C di P. dactylifera (Mbp) è stato calcolato come: (Posizione media di picco di P. dactylifera/Posizione media di picco di P. crispum) × 2201 Mb (=valore 1C di P. crispum)63.

Pannello GWAS

La fenotipizzazione per il GWAS è stata condotta su palme da dattero situate in due fattorie negli Emirati Arabi Uniti. Le fattorie si trovano presso il Centro di ricerca della palma da dattero a Hamriyah, Ras Al-Khaimah (n = 46) e ad Al-Shuwaib, Al-Ain, Abu Dhabi (n = 111) . La popolazione è costituita principalmente da varietà commerciali femminili (n = 145). Anche i maschi (n = 12) che crescono nelle fattorie sono stati sequenziati principalmente allo scopo di mappare il luogo che determina il sesso.

I campioni di frutta Khalal stage sono stati raccolti dalla primavera all’autunno nel 2016 e sono stati congelati a scatto su azoto liquido per il sequenziamento dell’RNA o raccolti come frutta fresca per la fotografia, la scansione (vedi sotto) e la caratterizzazione di altri tratti di frutta. I frutti del Tamar stage dagli stessi alberi sono stati raccolti nell’estate 2017 per la profilatura di zuccheri e acidi organici. Sono stati raccolti campioni di foglie per l’estrazione del DNA e il sequenziamento del genoma.

Il DNA genomico è stato estratto dal tessuto mesocarpo / epicarpo di foglie o frutti utilizzando il mini kit plant DNeasy (Qiagen, Venlo, Paesi Bassi). Colonne di estrazione del DNA, e librerie preparati utilizzando Illumina Nextera (San Diego, CA) kit. Un sequenziamento 2 × 100 bp paired-end è stato condotto su un sequencer Illumina HiSeq 2500 con un massimo di otto librerie per corsia. Le letture sono state demultiplexate e quelle che hanno superato i filtri di controllo qualità Illumina sono state elaborate con Trimmomatic45 (v. 0.36) per rimuovere le sequenze di adattatori contaminanti. Per la rimozione dell’adattatore, abbiamo utilizzato l’adattatore e Nextera transposase sequence database incluso con il Trimmomatic (v. 0.32) download con la seguente impostazione ILLUMINACLIP: library adapter library〉:2:30:10 MINLEN:76 per mantenere solo coppie di lettura in cui entrambe le letture erano 76 bps o più dopo il taglio.

Le letture sono state allineate all’assembly maschio BC4 non mascherato (solo contig primari) utilizzando bwa mem (v. 0.7.15-r1140 ). L’allineatore mem bwa è stato eseguito con l’opzione-M per contrassegnare le letture supplementari (0 × 800 bit a bit) come secondarie (0 × 100). Campione allineamenti sono stati trattati con FixMateInformation (Picard-strumenti di v. 2.8.2; http://broadinstitute.github.io/picard) per garantire la coerenza in coppia-leggi le informazioni, SamSort (Picard-strumenti di v. 2.8.2) per coordinare l’ordinamento, gli allineamenti, MarkDuplicates (Picard-strumenti di v. 2.8.2) di flag di lettura duplicate coppie, e con GATK64 IndelRealignerTargetCreator/IndelRealigner strumento (GATK v. 3.7-0) per riallineare legge in indel regioni. Gli allineamenti dei campioni sono stati convalidati in ogni fase utilizzando ValidateSam (Picard-tools v. 2.8.2) per garantire l’assenza di errori nella produzione. Gli allineamenti elaborati sono stati riassunti con CollectAlignmentSummaryMetrics (Picard-tools v. 2.8.2) e Samtools .

Chiamata e genotipizzazione SNP

La chiamata e la genotipizzazione SNP è stata eseguita con l’HaplotypeCaller GATK (v. 3.7-0) eseguito in modalità GVCF seguito da genotipizzazione congiunta con GenotipeGVCFs . Le letture sono state filtrate dal passaggio HaplotypeCaller per escludere quelle con una qualità di mappatura inferiore a 20 e per escludere quelle contrassegnate come duplicati di reazione a catena della polimerasi (PCR) o allineamenti secondari (vedi sopra). Questo approccio ha prodotto 32.384.028 SNPS in tutti i campioni. Il filtraggio SNP è stato condotto applicando filtri rigidi alle varianti raw utilizzando GATK v. 4.0.2.1. Abbiamo filtrato il set di chiamate raw per escludere SNP con bassa (<785) e alta profondità (>2862) sommati tra i campioni. Abbiamo anche escluso SNP multi-allelici, SNP entro 10 bp di polimorfismi indel e SNP che soddisfano le seguenti condizioni: QUAL < 30 e QD < 5.0. I genotipi sono stati impostati come mancanti se DP era inferiore a 5 o superiore a 20, così come SNPS con un tasso di chiamata genotipo < 80%, o una frequenza allele minore inferiore a 0,01. Abbiamo stimato un valore P per ogni sito da un test di equilibrio Hardy–Weinberg usando VCFtools65 e filtrato SNPS che mostra un eccesso di eterozigosità (test esatto, P < 0.05). Questa procedura ha prodotto un set di chiamate filtrate di 7.149.205 SNPS.

Analisi statistica

Tutte le analisi statistiche sono state condotte nel linguaggio di calcolo statistico R, salvo diversa indicazione.

LD analysis

LD è stato stimato utilizzando un metodo per stimare r2 appropriato per dati non aggiornati (vedere VCFtools65). La curva di decadimento LD per il pannello GWAS è stato calcolato come in Fiori et al.4. In breve, r2 è stato calcolato per SNP non phased con frequenza allele minore superiore al 10% utilizzando l’opzione–geno-ld in VCFtools (v. 0.1.14). Le curve di decadimento sono state generate adattando una curva alle stime r2 a coppie per distanza fisica tra coppie SNP con minimi quadrati non lineari utilizzando un approccio adattato da Marroni et al.66. La distanza di metà decadimento è stata quindi calcolata come la distanza alla quale r2 è metà del suo valore massimo (cioè, 1 bp distanza).

Caratterizzazione del colore della frutta

Otto frutti khalal stage privi di lesioni per varietà di palma da dattero sono stati raccolti, risciacquati con acqua di rubinetto per rimuovere la polvere e quindi asciugati all’aria. I frutti sono stati tagliati longitudinalmente e il colore della frutta è stato quindi misurato utilizzando due strategie. In primo luogo, abbiamo fotografato i frutti affettati con un correttore colore in una scatola da studio fotografico, dove le immagini sono state scattate su uno sfondo bianco con una fotocamera digitale. Il colore del frutto è stato analizzato con il software imagej67 utilizzando i parametri di colore RGB.

In secondo luogo, abbiamo usato un approccio complementare, dove abbiamo usato Tomato Analyzer software68 v. 2.2 per ottenere stime dei parametri di colore L*, a*, b*. La coordinata L* esprime l’oscurità e la leggerezza del colore e va dal nero (0) al bianco (100). Coordinate a* e b * esprimono la direzione del colore, dove + a * è nella direzione rossa, – a * nella direzione verde, + b * nella direzione gialla e-b * nella direzione blu68. L’acquisizione e l’analisi delle immagini sono state fatte come descritto in Rodríguez et al.27. I frutti affettati sono stati posizionati su uno scanner con uno sfondo nero e coperti per evitare gli effetti della luce ambientale. Le immagini scansionate sono state salvate come file JPEG e le stime dei parametri di colore L*, a*, b* sono state fatte su ogni frutto. È stata calcolata la media di tutti i frutti. I due metodi erano altamente correlati, quindi abbiamo usato l’indice di colore a* / b * per valutare le differenze nei colori della pelle dei frutti e usato quello per lo studio dell’associazione.

Contenuto di antocianine di frutta

L’antocianina totale è stata estratta da tre repliche di frutti di stadio khalal da ciascuna varietà di palma da dattero utilizzando frutta congelata a scatto su azoto liquido seguendo la procedura descritta in Rabino e Mancinelli69 con modifiche minori. In breve, l’antocianina dalla pelle di frutta congelata (100 mg) è stata macinata in polvere fine ed estratta in 1 ml di metanolo acido (1% HCl) mediante incubazione a temperatura ambiente al buio per 18 h, seguita da centrifugazione per 10 min a 12.000 g. La quantificazione dell’antocianina totale è stata effettuata utilizzando l’assorbanza misurata da uno spettrofotometro utilizzando l’equazione

Antocianina totale = (A530-0,25 × A657)/FW, dove A530 e A657 nm sono l’assorbanza e FW è il peso umido del materiale vegetale (g).

Dimensione frutta

Le fotografie di frutta utilizzate per l’analisi del colore (vedi sopra) includevano un righello come dimensione standard. ImageJ67 (v. 2) e Tomato analyzer software27 sono stati quindi utilizzati per stimare la lunghezza e la larghezza della frutta.

Zucchero di frutta e contenuto di acido

Saccarosio di frutta, glucosio e fruttosio sono stati quantificati dalle varietà 125 nella fase di tamar quando i frutti sono secchi, la maturazione è completa e la fase in cui le date sono tipicamente consumate. I frutti sono stati congelati a -20 °C e tra 10 e 15 frutti per varietà sono stati immediatamente mantenuti a -20 °C fino all’arrivo a Montpellier (Centro francese di ricerca agricola per lo sviluppo internazionale, CIRAD) dove è stata eseguita un’analisi di cromatografia liquida ad alte prestazioni. Una singola misurazione da due frutti raggruppati è stata ottenuta per ciascuno dei tratti zuccherini e acidi. I pezzi di data (senza la pietra) sono stati congelati con azoto liquido e macinati in polvere, messi in due flaconcini di vetro separati, conservati a -20 °C fino al campionamento. Per la sostanza secca, in duplice copia, 1 g di campione è stato pesato e posto in una stufa sotto vuoto a 70 °C per 72 h. Un controllo è stato controllato per 4 giorni per determinare la durata ottimale. Le estrazioni di zucchero sono state eseguite utilizzando il metodo adattato da Bchir et al.70. Per ciascun campione, 500 mg di pasta di dattero e 10 ml di etanolo all ‘ 80% sono stati posti in una provetta da 15 ml, riscaldata per 5 minuti a 80 °C a bagnomaria. Ogni tubo è stato poi agitato in un primo momento manualmente e poi meccanicamente per 15 min per una migliore diffusione. Dopo centrifugazione a 9000 × g (centrifuga Avanti J-E; Beckman-Coulter, Brea, CA, USA), il fondo è stato estratto due volte e i surnatanti raccolti, filtrati a 0,45 µm e iniettati. Il metodo è stato testato con acqua acida (0,01 N H2SO4). Sono stati utilizzati standard di esempio Sigma-Aldrich (St. Louis, MO, USA).

Contenuto di umidità della frutta

Il campionamento della frutta è stato eseguito come nella sezione del contenuto di zucchero e acido della frutta sopra. La polpa di dattero di due frutti è stata recuperata e macinata con azoto liquido per omogeneizzare il campione e conservata a -80 °C per ottenere una singola misurazione per varietà. Il tenore di umidità è stato determinato gravimetricamente misurando la perdita di peso di 2,5 g di campioni di pasta di dattero, essiccati a 70 ° C fino a quando i campioni hanno raggiunto un peso stabile.

Analisi dell’associazione Genome-wide

Abbiamo eseguito l’analisi della mappatura dell’associazione genome-wide utilizzando il pacchetto Gapit r25. Per l’efficienza computazionale e per ridurre al minimo i problemi di test multipli ma fornire una copertura densa rispetto alla distanza di decadimento LD, abbiamo utilizzato un set SNP casuale downsampled del 5,5% (392.948 SNPs). Un CMLM26 utilizzando sia la struttura della popolazione che le informazioni di parentela come covariate è stato eseguito sui genotipi dai campioni di palma da dattero 157. La struttura della popolazione è stata dedotta con una principal Component analysis (PCA) generata da Gapit utilizzando l ‘ 1% degli SNP (campionati casualmente). Gapit ha inoltre utilizzato i primi cinque componenti del PCA (Fig. 1a; Dati integrativi 2). La parentela è stata dedotta utilizzando l’algoritmo di VanRaden (Dati supplementari 3). SNP significativi sono stati identificati utilizzando una soglia Bonferroni conservativa di P< 1,27 × 10-7. Per i tratti con risultati significativi, abbiamo inoltre eseguito una seconda analisi GWAS utilizzando il set SNP completo su particolari LGS in cui sono stati identificati SNP significativi.

Caratterizzazione di Ibn Majid e del gene VIR

Abbiamo precedentemente identificato un polimorfismo di inserimento retrotrasposone simile a copia nell’esone 3 di un fattore di trascrizione R2R3-MYB13 (NCBI Gene ID: LOC103717680) che è ortologo al gene Virescens (VIR) in olio palm28. Per caratterizzare questo retrotrasposone, abbiamo PCR-amplificato le ripetizioni terminali lunghe dell’elemento (così come la sequenza genica VIR adiacente) nelle varietà Thory e Empress raccolte dall’USDA farm in Thermal, California e dall’USDA/UC Riverside farm rispettivamente, utilizzando buffer e polimerasi GoTaq PCR Core Systems (Promega, Madison, WI USA).

Le coppie di primer 5′-TGT GTC CGG CAT TGC ACT TCT-3′ (forward) e 5′-GCT CAA TGT TGA TGT TCT TGT TGG-3′ (reverse) sono state utilizzate per il 5′ LTR, e 5′-ACTC TGA CTA CCA AGT ACT TGA TG-3′ (forward) e 5′-CTG CAC TAT TAT CAC AGT AGA TGG-3′ (reverse) per il 3′ LTR. I prodotti amplificati sono stati inviati per il sequenziamento Sanger a GeneWiz (South Plainfield, New Jersey). Il nostro gruppo genoma contiene anche una copia completa dell’inserimento (~11,7 kb). BLAST è stato utilizzato per allineare l’inserimento contro se stesso al fine di identificare le regioni di ripetizione terminale lunghe corrispondenti. Il programma LTRdigest71 è stato utilizzato per confermare i risultati BLAST. Una ricerca esplosione interrogato la sequenza completa Ibn Majid contro il genoma palma da dattero per determinare il numero di copia.

La Tabella supplementare 11 fornisce le coordinate della nostra annotazione manuale del gene VIR nell’assemblaggio maschio BC4. La genotipizzazione dell’inserimento di Ibn Majid in VIR exon 3 nelle varietà di palma da dattero è stata eseguita mediante ispezione manuale di letture allineate che coprono la regione di inserimento in JBrowse72. Poiché l’assemblaggio del genoma maschile BC4 ha l’allele di inserzione (VIRIM, vedi Fig. 3), le letture mappate provenienti dal tipo wild (VIR+) o dagli alleli non di inserimento, sono ritagliate al limite di inserimento dell’esone 3. Abbiamo segnato la presenza di letture soft-clipped (supportando la presenza di un VIR+ allele) o letture unclipped che coprono il limite di inserimento di exon 3 (supportando la presenza di un allele di inserimento VIRIM) per identificare i genotipi. Abbiamo ripetuto questa procedura esaminando allineamenti di lettura a entrambe le estremità 5′ e 3′ dell’inserimento nell’assemblaggio maschio BC4 e campioni in cui entrambi i genotipi 5′ e 3 ‘ hanno prodotto genotipi corrispondenti sono stati mantenuti per l’analisi. Dato il nostro interesse per i fenotipi di colore della frutta, abbiamo genotipizzato solo le palme femminili.

Caratterizzazione di invertasi e polimorfismi di delezione

L’esame dei geni nella composizione dello zucchero QTL su LG 14 (Dati supplementari 6) ha inizialmente rivelato tre candidati posizionali: un’invertasi alcalina / neutra (chr14G0028200) e due invertasi della parete cellulare adiacente (chr14G0022900 e chr14G0023100) predette dalla nostra pipeline di annotazione genica. Abbiamo verificato la presenza di potenziali copie non annotate di invertasi in questa regione allineando i trascritti previsti per ciascuno dei tre geni a questa regione utilizzando lo strumento Splign transcript to genomic aligning tool73. Questo ha recuperato una sequenza di filamenti meno (che ci riferiamo a come CWINV2), con una stretta omologia alle invertasi laterali CWINV1 e CWINV3 a 2,489,373 a 2,485,592, ma più inserzioni/eliminazioni in regioni omologhe per invertire esoni CDS.

La profondità di copertura per l’analisi delle variazioni di cancellazione è stata determinata in contenitori non sovrapposti a 500 bp con samtools bedcov74 (v. 1.9) utilizzando le impostazioni predefinite. I valori di profondità grezzi sono stati normalizzati in modo indipendente per ciascun campione dividendo la profondità grezza di ciascun bidone per la profondità mediana grezza di tutti i bidoni su LG 14 seguente da log2 trasformazione seguente Fiori et al.75. I campioni sono stati genotipizzati in delezione omozigote e classi di genotipo alternative per la delezione di 40 kb mediante ispezione manuale di Fig supplementare. 12. Genotipi omozigoti per la delezione a monte di A / N-INV1 (Fig. 4, Fig.supplementare. 13) sono stati chiamati impostando una soglia che richiede che almeno un intervallo di 500 bp nella regione di cancellazione 5 kb abbia una profondità normalizzata log2 inferiore a -5. Allo stato attuale, non è possibile distinguere gli eterozigoti per gli alleli di delezione dagli omozigoti di inserimento a causa della copertura moderata nei nostri dati di ri-sequenziamento.

Test dell’enzima invertasi

Per il test dell’invertasi sono state scelte due varietà di saccarosio e due varietà di zucchero riducente. L’esperimento è stato condotto su due giorni con tutte e quattro le varietà rappresentate da un singolo frutto ogni giorno. Le analisi sono state condotte su uno stadio di khalal frutta congelata a scatto al momento della raccolta (vedi sopra) seguita da conservazione a -80 °C. Estratti grezzi sono stati ottenuti dal frutto di dattero congelato seguendo il protocollo di Hasegawa e Smolensky33. Ogni frutto congelato è stato polverizzato con mortaio e pestello (con seme rimosso), e poi macinato in un frullatore da cucina, e 5 g posto in tampone di estrazione a freddo (20 ml 4,0% NaCl, 1 g polivinilpirrolidone, PVP). Un’ulteriore fase di macerazione è stata condotta in un omogeneizzatore di laboratorio per 1-2 min. L’estratto è stato quindi centrifugato a 20.000 × g per 15 min a 4 °C. Il surnatante contenente invertasi solubile è stato conservato su ghiaccio e il resto centrifugato una seconda volta a 20.000 × g per 15 min a 4 °C. I surnatanti sono stati combinati e 10 ml dializzati contro acqua fredda a 4° durante la notte per rimuovere gli zuccheri dall’estratto. Il campione è stato poi diviso, e la metà del campione bollito a 100 °C per misurare l’attività di fondo da zucchero contaminante potenziale dal frutto. L’attività invertasica degli estratti grezzi non bolliti e bolliti è stata quindi misurata mediante analisi colorimetrica su un lettore di micropiastre Synergy H1 con un kit di analisi enzimatica accoppiato(catalogo Sigma n. MAK118) seguendo le istruzioni del produttore.

Analisi dell’RNA-Seq della frutta

Sono stati raccolti due set di dati RNA-Seq per rispondere a domande sullo sviluppo della frutta e sulla variazione dei tratti della frutta. RNA-Seq in diverse fasi di sviluppo della frutta è stato condotto su frutti raccolti in 2014 da alberi replicati situati sul terreno dell’Università degli Emirati Arabi Uniti, laboratorio di coltura di tessuti di palma da dattero ad Al-Ain, negli Emirati Arabi Uniti. Per questo esperimento, tre o quattro alberi separati di varietà Khenezi (una varietà con frutta rossa) e Khalas (frutta gialla) sono stati campionati ripetutamente a 45, 75, 105, 120 e 135 giorni dopo l’impollinazione e frutti congelati a scatto su azoto liquido. L’RNA è stato estratto da un singolo frutto da ogni tre o più alberi per varietà seguendo i protocolli standard per la preparazione della libreria TruSeq e il sequenziamento 2 × 101 bp paired-end eseguito su un Illumina HiSeq 2500.

Un secondo esperimento è stato condotto su khalal stage fruit raccolti presso la fattoria Al-Shuwaib nel 2016. Tre frutti sono stati raccolti da ciascuna di otto palme ciascuna di una varietà diversa scelta in base al loro essere o vicino agli estremi del saccarosio e distribuzioni di tipo zucchero riducente (cioè, alta e bassa concentrazione di saccarosio). I frutti sono stati elaborati come descritto sopra e le librerie sono state costruite con Nextera library preparation kit (Illumina) e 2 × 76 bp paired-end sequencing eseguito su uno strumento NextSeq (Illumina).

L’analisi dell’espressione differenziale è stata eseguita tagliando le letture di sequenziamento raw con Trimmomatic45 (v 0.36) con i parametri ILLUMINACLIP: adapter adattatore fasta〉:2:30:10 TRAILING:3 LEADING:3 SLIDINGWINDOW:4:15 MINLEN:36. Le letture sono state quindi allineate al genoma di riferimento maschio BC4 con la stella divisa read aligner47 (v. 2.5.3a) e leggere i conteggi generati per gene prendendo l’unione di esoni con htseq-count76 (v. 0.9.1) impostato per includere solo letture mappate in modo univoco (cioè, opzioni htseq-count options type = exon mode mode = union options nonunique = none). La normalizzazione del conteggio delle letture è stata condotta con il metodo della mediana dei rapporti di DESeq277 (v. 1.8.2). I test di espressione differenziale di Virescens (Pdac_HC_chr4G0137100) tra le varietà rosse (Khenezi, n = 3 librerie replicate) e gialle (Khalas, n = 3 o 4 librerie replicate) sono stati condotti separatamente per ciascuno dei punti di tempo di sviluppo del frutto di 45, 75, 105, 120 e 135 giorni dopo l’impollinazione. I valori P sono riportati per un test di Wald sull’ipotesi di nessuna differenza di piega tra l’espressione di Khenezi e Khalas in ogni fase.

L’analisi RNA-seq dell’espressione genica differenziale delle invertasi A/N-INV1, CWINV1 e CWINV3 (Pdac_HC_chr14G0028200, Pdac_HC_chr14G0022900 e Pdac_HC_chr14G0023100, rispettivamente) tra saccarosio (n = 4 varietà) e tipi di zucchero riducente (n = 4 varietà) è stata condotta costruendo tre librerie per varietà da RNA estratto indipendentemente da tre diversi frutti seguiti dal sequenziamento di ciascuna libreria. L’analisi dell’espressione differenziale tra varietà di tipo saccarosio e di tipo riducente è stata quindi eseguita allineando le letture con STAR (vedi sopra), contando le letture con htseq-count e generando matrici di conteggio grezzo in DESeq2. I conteggi grezzi per gene sono stati quindi sommati tra le librerie per ogni varietà a causa dei bassi conteggi di lettura in alcune librerie. L’analisi successiva è stata condotta facendo prima cadere geni a basso conteggio (geni con<10 letture sommate su tutti gli 8 campioni) seguiti dal flusso di lavoro DESeq2 standard (v. 1.22.2) con quattro repliche biologiche (cioè, varietà di palma da dattero) in ogni gruppo di trattamento. I valori P non corretti per l’ipotesi di nessuna espressione differenziale sono presentati nel testo principale per tre geni candidati.

Reporting summary

Ulteriori informazioni sul design della ricerca sono disponibili nel Reporting Summary di Nature Research collegato a questo articolo.