Articles

Cartographie d’association à l’échelle du génome des caractères du fruit du palmier dattier

Séquençage du génome du mâle BC4

Nous avons échantillonné un palmier dattier mâle rétrocroisé situé au Département de l’Agriculture des États-Unis (USDA) / Université de Californie, Riverside farm à Thermal, en Californie (adhésion USDA No. PI 555415, Source RIV 7545 PL). Ce mâle a été produit par quatre générations de rétrocroisements avec une femelle Barhee comme parent récurrent dans le cadre d’un programme de reproduction à l’USDA, aux États-Unis, qui a été interrompu dans les années 197010,18. Les folioles ont été nettoyées et congelées sur de l’azote liquide avant d’être transportées à l’Institut de génomique de l’Arizona (Université de l’Arizona, Tucson, AZ) pour l’extraction de l’ADN de haut poids moléculaire et le séquençage.

Le génome du mâle BC4 a été séquencé à l’aide d’une plateforme de séquençage PacBio RSII. L’ADN de haut poids moléculaire pour le séquençage a été extrait de jeunes feuilles en adoptant le protocole de Doyle et Doyle42 avec des modifications mineures. La préparation de la bibliothèque PacBio a suivi le protocole de 20 ko et trois bibliothèques (sélectionnées en gel à 20, 25 et 30 ko) ont été construites. Quatre-vingt-cinq cellules SMRT ont été séquencées sur un séquenceur RSII avec un temps de collecte de films de 6 h. Environ 6,4 millions de lectures ont été générées, totalisant 72 Go de données (longueur moyenne du sous-fil 11,2 ko, N50 18,5 ko). Un séquençage supplémentaire d’une bibliothèque d’insertion courte (extrémité appariée de 2 × 100 pb) a été réalisé avec un séquenceur Illumina HiSeq 2500.

Assemblage du génome

Nous avons fait une estimation basée sur k-mer de la taille du génome à partir de courtes séquences de lecture brutes du génome mâle BC4 à des fins d’assemblage (KmerFreq_AR dans SOAPdenovo243) avec des paramètres par défaut et une longueur k-mer définie sur 17. Notez qu’une estimation expérimentale de la taille du génome de P. dactylifera a également été réalisée par cytométrie en flux (voir ci-dessous). Les lectures PacBio ont ensuite été assemblées avec FALCON-Unzip19 (v. falcon-2017.06.28–18.01- py2.7-ucs2) avec une couverture de semences de 55× et l’estimation de la taille du génome basée sur k-mer de 774 Mo en entrée. Le module de décompression a été exécuté avec les paramètres par défaut.

L’ensemble résultant a été poli en alignant les lectures PacBio brutes avec Carquois et Flèche (partie de la suite d’analyse SMRT v. 2.3.0), puis en exécutant Pilon44 v. 1.18 avec des séquences de lecture courtes Illumina du mâle BC4. Les entrées au Pilon ont été produites en rognant les lectures courtes avec Trimmomatic45 (v. 0.32) pour éliminer les bases 3′ inférieures à la qualité de base de Q30 et les lectures inférieures à 30 nucléotides. Les lectures ont ensuite été alignées sur la sortie de Arrow avec Bowtie246 (v. 2.2.6).

Les contigs primaires polis ont été ancrés aux LG de la carte génétique existante21 avec ALLMAPS22 pour produire un assemblage haploïde ancré. Les séquences d’échafaudage pour la carte génétique ont été obtenues à partir de http://qatar-weill.cornell.edu/research/datepalmGenome/edition3/PdactyKAsm30_r20101206.fasta.gz. Lors de l’alignement sur la carte génétique et après inspection manuelle du réalignement des lectures brutes à l’assemblage, nous n’avons trouvé qu’un seul cas de mauvais assemblage: un contig a dû être divisé car deux extrémités de contig ont été fusionnées tête à tête.

Annotation du génome

Nous avons généré des banques d’ARN-Seq à partir de plusieurs fruits du stade khalal (voir ci-dessous), d’un mélange de boutons floraux mâles et femelles (appelés « fleurs” ci-dessous) et de pollen, et nous avons effectué un séquençage d’extrémité appariée de 2 × 100 pb sur un instrument Illumina HiSeq 2500 (Tableau supplémentaire 7). Des données supplémentaires sur l’ARN-séquençage du palmier dattier provenant de la feuille et de la racine ont été téléchargées à partir de l’Archive de lecture des séquences (Tableau supplémentaire 7). Les lectures d’ARN-Seq ont été rognées avec Trimmomatic45, alignées sur l’ensemble haploïde avec STAR47 (v.2.4.0.1), et des modèles de gènes prédits par StringTie48 (v.1.3.2) à utiliser comme formation pour Augustus49 (v. 2.3).

L’annotation des gènes a été réalisée à l’aide du pipeline50 MAKER2 (v. 2.31). Les preuves basées sur l’homologie comprenaient 7097 EST (téléchargées à partir de la base de données NCBI EST le 9 février 2017), des séquences de protéines d’Uniprot51, un protéome de palmier dattier, un protéome de palmier à huile52 et les modèles dérivés de l’ARN-Seq ci-dessus. La prédiction Ab initio a été réalisée avec Augustus (v. 3.0) entraîné comme décrit dans Bowman et al.53 avec des modèles de gènes produits avec la StringTie48 (v. 1.3.2), à partir des alignements ARN-Seq.

L’annotation MAKER2 brute a été analysée, supprimant les modèles contenant des domaines TE et manquant de preuves de transcription ou de la présence d’un domaine Pfam comme décrit dans Bowman et al.53. Avec environ 1 × de lectures Illumina WGS à extrémité unique non organellaires, une bibliothèque de répétitions de novo (non basée sur l’assemblage) a été produite avec RepeatExplorer54 et analysée comme dans Copetti et al.55. L’annotation de répétition de l’assemblage a été réalisée avec RepeatMasker (v. 4.0.6; dans l’espace nucléotidique) et Blaster56 (faisant partie du package REPET v 2.5, dans l’espace protéine), puis réconciliée dans un seul fichier d’annotation. Les ARN non codants ont été prédits avec Infernal57 (v. 1.1.2) avec la bibliothèque Rfam58 (v. 12.2). Les résultats au-dessus du seuil de valeur e de 1 × 10-5 ont été filtrés, ainsi que les résultats avec un score inférieur au seuil de collecte spécifique à la famille. Lorsque les loci sur les deux brins ont été prédits, seul le coup avec le score le plus élevé a été conservé. Les ARN de transfert ont également été prédits à l’aide de tRNAscan-SE59 (v. 2.0) avec des paramètres par défaut.

Évaluation de la qualité du génome

Des visualisations de l’assemblage du génome ont été produites avec le logiciel assembly-stats (fig. 1, ). La complétude de l’assemblage a été évaluée en caractérisant l’espace génique avec BUSCO20 à l’aide de 1440 groupes orthlogiques végétaux (v. 3) et en alignant les EST sur l’assemblage diploïde avec Blat60 (v. 350).

Estimation de la taille du génome du palmier dattier

La taille du génome a été estimée à l’aide de la procédure de cytométrie en flux en une étape décrite dans Doležel et al.61 avec de légères modifications. Brièvement, environ 1 cm2 de matière foliaire de deux P. des échantillons de dactylifera de la collection des Jardins botaniques royaux de Kew, au Royaume-Uni, ont été incubés pendant 30 s sur glace dans 1 ml de « tampon à usage général” (GPB) 62 additionné de 3% de PVP-40 pour ramollir la feuille. Ensuite, une quantité similaire de matériau foliaire de l’étalon d’étalonnage Petroselinum crispum (Mill.) Du bruit (valeur 1C = 2201 Mb) 63 a été ajouté et le matériau combiné a été haché rapidement (mais pas trop vigoureusement) à l’aide d’une nouvelle lame de rasoir. 1 ml supplémentaire du tampon GPB a été ajouté puis l’homogénéat a été filtré sur une maille de nylon de 30 µm (Celltrics 30 µM mesh, Sysmex, Goritz, Allemagne) dans un tube, 100 µl d’iodure de propidium (1 mg / mL) a été ajouté et l’échantillon a été incubé sur glace pendant 10 min. La fluorescence relative de 5000 particules a été enregistrée à l’aide d’un cytomètre en flux Partec Cyflow SL3 (Partec GmbH, Münster, Allemagne) équipé d’un laser vert à semi-conducteurs de 100 mW (532 nm, Cobolt Samba, Solna, Suède). Trois répliques de chaque feuille ont été traitées et les histogrammes de sortie ont été analysés à l’aide du logiciel FlowMax v.2.4 (Partec GmbH). La valeur 1C de P. dactylifera (Mbp) a été calculée comme suit : (Position maximale moyenne de P. dactylifera / Position maximale moyenne de P. crispum) × 2201 Mb (= Valeur 1C de P. crispum) 63.

Panel GWAS

Le phénotypage des GWAS a été réalisé sur des palmiers dattiers situés dans deux fermes aux Émirats arabes Unis. Les fermes sont situées au Centre de recherche sur le Palmier dattier à Hamriyah, Ras Al-Khaimah (n = 46) et à Al-Shuwaib, Al-Ain, Abu Dhabi (n = 111). La population se compose principalement de variétés commerciales femelles (n = 145). Les mâles (n = 12) poussant dans les fermes ont également été séquencés principalement dans le but de cartographier le locus déterminant le sexe.

Des échantillons de fruits au stade Khalal ont été collectés du printemps à l’automne 2016, et soit congelés sur de l’azote liquide pour le séquençage de l’ARN, soit collectés sous forme de fruits frais pour la photographie, la numérisation (voir ci-dessous) et la caractérisation d’autres traits de fruits. Les fruits de stade Tamar des mêmes arbres ont été collectés à l’été 2017 pour le profilage du sucre et des acides organiques. Des échantillons de feuilles ont été prélevés pour l’extraction de l’ADN et le séquençage du génome.

L’ADN génomique a été extrait du tissu mésocarpe/épicarpe des feuilles ou des fruits à l’aide du mini kit plant DNeasy (Qiagen, Venlo, Pays-Bas). Colonnes d’extraction d’ADN et bibliothèques préparées à l’aide du kit Illumina Nextera (San Diego, CA). Un séquençage d’extrémité appariée de 2 × 100 pb a été effectué sur un séquenceur Illumina HiSeq 2500 avec jusqu’à huit bibliothèques par voie. Les lectures ont été démultiplexées et celles qui passaient les filtres de contrôle de qualité Illumina ont été traitées avec Trimmomatic45 (v. 0.36) pour éliminer les séquences d’adaptateur contaminantes. Pour le retrait de l’adaptateur, nous avons utilisé la base de données de séquences de transposases adaptateur et Nextera incluse avec le téléchargement Trimmomatic (v. 0.32) avec le réglage suivant ILLUMINACLIP: librarybibliothèque d’adaptateurs〉:2:30:10 MINLEN:76 pour ne conserver que les paires de lectures où les deux lectures étaient de 76 bps ou plus après le rognage.

Les lectures ont été alignées sur l’ensemble mâle BC4 non masqué (contigs primaires uniquement) à l’aide de bwa mem (v. 0.7.15-r1140). L’aligneur mem bwa a été exécuté avec l’option -M pour marquer les lectures supplémentaires (indicateur bit à bit 0 × 800) comme secondaires (0 × 100). Les alignements d’échantillons ont été traités avec FixMateInformation (Picard-tools v. 2.8.2; http://broadinstitute.github.io/picard) pour assurer la cohérence des informations de lecture appariées, SamSort (Picard-tools v. 2.8.2) pour coordonner-trier les alignements, MarkDuplicates (Picard-tools v. 2.8.2) pour marquer les paires de lecture en double, et avec GATK64 IndelRealignerTargetCreator/IndelRealigner tool (GATK v. 3.7-0) pour réaligner les lectures dans les régions indel. Les alignements d’échantillons ont été validés à chaque étape à l’aide de ValidateSam (Picard-tools v. 2.8.2) pour garantir l’absence d’erreurs de production. Les alignements traités ont été résumés avec CollectAlignmentSummaryMetrics (Picard-tools v. 2.8.2) et Samtools.

Appel et génotypage de SNP

L’appel et le génotypage de SNP ont été effectués avec le HaplotypeCaller GATK (v. 3.7-0) exécuté en mode GVCF suivi d’un génotypage conjoint avec des GénotypeGVCFs. Les lectures ont été filtrées à partir de l’étape HaplotypeCaller pour exclure celles dont la qualité de cartographie est inférieure à 20 et pour exclure celles marquées comme des doublons de réaction en chaîne par polymérase (PCR) ou des alignements secondaires (voir ci-dessus). Cette approche a donné 32 384 028 SNP dans tous les échantillons. Le filtrage SNP a été effectué en appliquant des filtres durs aux variantes brutes à l’aide de GATK v. 4.0.2.1. Nous avons filtré l’ensemble d’appels bruts pour exclure les SNP avec une profondeur faible (< 785) et une profondeur élevée (> 2862) additionnée entre les échantillons. Nous avons également exclu les SNP multi-alléliques, les SNP à moins de 10 pb de polymorphismes indels et les SNP répondant aux conditions suivantes : QUAL <30 et QD <5.0. Les génotypes ont été définis comme manquants si le DP était inférieur à 5 ou supérieur à 20, ainsi que les SNP avec un taux d’appel de génotype < 80%, ou une fréquence d’allèle mineure inférieure à 0,01. Nous avons estimé une valeur de P pour chaque site à partir d’un test d’équilibre de Hardy–Weinberg utilisant VCFtools65 et filtré les SNP montrant un excès d’hétérozygotie (test exact, P< 0,05). Cette procédure a produit un ensemble d’appels filtrés de 7 149 205 SNPs.

Analyse statistique

Toutes les analyses statistiques ont été effectuées dans le langage de calcul statistique R, sauf indication contraire.

Analyse de la DL

La DL a été estimée à l’aide d’une méthode d’estimation de r2 qui convient aux données non phasées (voir VCFtools65). La courbe de désintégration LD pour le panneau GWAS a été calculée comme dans Flowers et al.4. En bref, r2 a été calculé pour les SNP non phasés avec une fréquence d’allèle mineure supérieure à 10% en utilisant l’option -geno-ld dans VCFtools (v. 0.1.14). Les courbes de décroissance ont été générées en ajustant une courbe aux estimations r2 par paires par distance physique entre des paires de SNP avec des moindres carrés non linéaires en utilisant une approche adaptée de Marroni et al.66. La distance de demi-désintégration a ensuite été calculée comme la distance à laquelle r2 est la moitié de sa valeur maximale (c’est-à-dire la distance de 1 pb).

Caractérisation de la couleur des fruits

Huit fruits de stade khalal exempts de blessures par variété de palmier dattier ont été récoltés, rincés à l’eau du robinet pour éliminer toute poussière, puis séchés à l’air. Les fruits ont été tranchés longitudinalement et la couleur des fruits a ensuite été mesurée à l’aide de deux stratégies. Tout d’abord, nous avons photographié les fruits tranchés avec un vérificateur de couleurs dans une boîte de studio photo, où les photos ont été prises sur un fond blanc avec un appareil photo numérique. La couleur du fruit a été analysée avec le logiciel imagej67 en utilisant les paramètres de couleur RVB.

Deuxièmement, nous avons utilisé une approche complémentaire, où nous avons utilisé le logiciel Tomato Analyzer 68 v.2.2 pour obtenir des estimations des paramètres de couleur L *, a *, b*. La coordonnée L* exprime l’obscurité et la légèreté de la couleur et va du noir (0) au blanc (100). Les coordonnées a* et b* expriment la direction des couleurs, où +a* est dans la direction rouge, -a * dans la direction verte, +b * dans la direction jaune et -b * dans la direction bleue68. L’acquisition et l’analyse d’images ont été effectuées comme décrit dans Rodríguez et al.27. Les fruits tranchés ont été placés sur un scanner avec un fond noir et recouverts pour éviter les effets de la lumière ambiante. Les images numérisées ont été enregistrées sous forme de fichiers JPEG et les estimations des paramètres de couleur L *, a *, b * ont été effectuées sur chaque fruit. La moyenne de tous les fruits a été calculée. Les deux méthodes étant fortement corrélées, nous avons utilisé l’indice de couleur a * / b * afin d’évaluer les différences de couleurs de peau des fruits et nous l’avons utilisé pour l’étude d’association.

Teneur en anthocyanes des fruits

L’anthocyanine totale a été extraite de trois répliques de fruits du stade khalal de chaque variété de palmier dattier en utilisant des fruits surgelés sur azote liquide selon la procédure décrite dans Rabino et Mancinelli69 avec des modifications mineures. Brièvement, l’anthocyanine de la peau de fruits congelés (100 mg) a été broyée en poudre fine et extraite dans 1 ml de méthanol acide (HCl à 1%) par incubation à température ambiante dans l’obscurité pendant 18 h, suivie d’une centrifugation pendant 10 min à 12 000 g. La quantification de l’anthocyanine totale a été effectuée en utilisant l’absorbance mesurée par un spectrophotomètre en utilisant l’équation

Anthocyanine totale = (A530-0,25 × A657) / FW, où A530 et A657 nm sont l’absorbance et FW est le poids humide de la matière végétale (g).

Taille des fruits

Les photographies de fruits utilisées pour l’analyse des couleurs (voir ci-dessus) comprenaient une règle comme norme de taille. ImageJ67 (v. 2) et le logiciel Tomato analyzer 27 ont ensuite été utilisés pour estimer la longueur et la largeur des fruits.

Teneur en sucre et en acide des fruits

Le saccharose, le glucose et le fructose des fruits ont été quantifiés à partir de 125 variétés au stade tamar lorsque les fruits sont secs, la maturation est terminée et le stade auquel les dattes sont généralement consommées. Les fruits ont été congelés à -20 °C et entre 10 et 15 fruits par variété ont été immédiatement maintenus à -20 °C jusqu’à leur arrivée à Montpellier (Centre Français de Recherches Agronomiques pour le Développement International, CIRAD) où une analyse par chromatographie liquide à haute performance a été réalisée. Une seule mesure à partir de deux fruits regroupés a été obtenue pour chacun des caractères sucre et acide. Les morceaux de dattes (sans la pierre) ont été congelés à l’azote liquide et broyés en poudre, placés dans deux flacons en verre étanches séparés, conservés à -20 ° C jusqu’au prélèvement. Pour la matière sèche, en double, 1 g d’échantillon a été pesé et placé dans un poêle sous vide à 70 °C pendant 72 h. Un contrôle a été vérifié pendant 4 jours pour déterminer la durée optimale. Les extractions de sucre ont été réalisées selon la méthode adaptée de Bchir et al.70. Pour chaque échantillon, 500 mg de pâte de dattes et 10 ml d’éthanol à 80% ont été placés dans un tube de 15 ml, chauffé pendant 5 min à 80 ° C au bain-marie. Chaque tube a ensuite été agité d’abord manuellement puis mécaniquement pendant 15 min pour un meilleur étalement. Après centrifugation à 9000 ×g (centrifugeuse Avanti J-E; Beckman-Coulter, Brea, CA, USA), le fond a été extrait deux fois et les surnageants rassemblés, filtrés à 0,45 µm et injectés. La méthode a été testée avec de l’eau acide (0,01 N H2SO4). Les étalons d’échantillon étaient Sigma-Aldrich (St. Louis, MO, USA) ont été utilisés.

Teneur en eau des fruits

L’échantillonnage des fruits a été effectué comme dans la section sur la teneur en sucre et en acide des fruits ci-dessus. La pulpe de dattes de deux fruits a été récupérée et broyée avec de l’azote liquide pour homogénéiser l’échantillon et stockée à -80 °C pour obtenir une seule mesure par variété. La teneur en humidité a été déterminée gravimétriquement en mesurant la perte de poids de 2,5 g d’échantillons de pulpe de dattes, séchés à 70 °C jusqu’à ce que les échantillons atteignent un poids stable.

Analyse d’association à l’échelle du génome

Nous avons effectué l’analyse de cartographie d’association à l’échelle du génome en utilisant le paquet Gapit R25. Pour une efficacité de calcul et pour minimiser les problèmes de tests multiples mais fournir une couverture dense par rapport à la distance de désintégration LD, nous avons utilisé un ensemble de SNP aléatoires sous-échantillonnés de 5,5% (392 948 SNP). Une CMLM26 utilisant à la fois la structure de la population et les informations de parenté comme covariables a été réalisée sur les génotypes des 157 échantillons de palmiers dattiers. La structure de la population a été déduite à l’aide d’une analyse en composantes principales (ACP) générée par Gapit en utilisant 1 % des SNP (échantillonnés au hasard). Gapit a en outre utilisé les cinq premiers composants du PCA (Fig. 1a; Données complémentaires 2). La parenté a été déduite à l’aide de l’algorithme de VanRaden (Données supplémentaires 3). Des SNP significatifs ont été identifiés en utilisant un seuil de Bonferroni conservateur de P< 1,27 × 10-7. Pour les traits avec des résultats significatifs, nous avons en outre effectué une deuxième analyse GWAS en utilisant l’ensemble complet de SNP sur des LG particuliers où des SNP significatifs ont été identifiés.

Caractérisation d’Ibn Majid et du gène VIR

Nous avons précédemment identifié un polymorphisme d’insertion de rétrotransposons de type copia dans l’exon 3 d’un facteur de transcription R2R3-MYB13 (NCBI Gene ID: LOC103717680) orthologue du gène Virescens (VIR) du palmier à huile28. Pour caractériser ce rétrotransposon, nous avons amplifié par PCR les répétitions terminales longues de l’élément (ainsi que la séquence du gène VIR adjacente) dans les variétés Thory et Empress collectées dans la ferme de l’USDA à Thermal, en Californie et dans la ferme Riverside de l’USDA / UC, respectivement, en utilisant des systèmes de base de PCR GoTaq (Promega, Madison, WI USA) tampon et polymérase.

Les paires d’amorces 5′-TGT GTC CGG CAT TGC ACT TCT-3′ (avant) et 5′-GCT CAA TGT TGA TGT TCT TGG-3′ (arrière) ont été utilisées pour le 5′ LTR, et 5′-ACTC TGA CTA CCA AGT ACT TGA TG-3′ (avant) et 5′-CTG CAC TAT TAT CAC AGT AGA TGG-3′ (arrière) pour le 3′ LTR. Les produits amplifiés ont été envoyés pour séquençage Sanger à GeneWiz (South Plainfield, New Jersey). Notre assemblage de génome contient également une copie complète de l’insertion (~11,7 kb). BLAST a été utilisé pour aligner l’insertion contre elle-même afin d’identifier les régions de répétition terminales longues correspondantes. Le programme LTRdigest71 a été utilisé pour confirmer les résultats de l’EXPLOSION. Une recherche par EXPLOSION a interrogé la séquence complète d’Ibn Majid par rapport au génome du palmier dattier pour déterminer le numéro de copie.

Le tableau supplémentaire 11 fournit les coordonnées de notre annotation manuelle du gène VIR dans l’assemblage mâle BC4. Le génotypage de l’insertion d’Ibn Majid dans l’exon VIR 3 chez les variétés de palmiers dattiers a été effectué par inspection manuelle des lectures alignées couvrant la région d’insertion dans JBrowse72. Puisque l’ensemble du génome mâle BC4 possède l’allèle d’insertion (VIRIM, voir Fig. 3), les lectures mappées provenant de type sauvage (VIR +), ou allèles sans insertion, sont découpées en douceur à la limite d’insertion de l’exon 3. Nous avons noté la présence de lectures à découpage doux (supportant la présence d’un allèle VIR +) ou de lectures non découpées couvrant la limite d’insertion de l’exon 3 (supportant la présence d’un allèle d’insertion de VIRIM) pour identifier les génotypes. Nous avons répété cette procédure en examinant les alignements de lecture aux extrémités 5′ et 3′ de l’insertion dans l’assemblage mâle BC4 et des échantillons où les génotypes 5′ et 3′ donnaient des génotypes correspondants ont été retenus pour analyse. Compte tenu de notre intérêt pour les phénotypes de couleur des fruits, nous avons génotypé uniquement les palmiers femelles.

La caractérisation des invertases et des polymorphismes de délétion

L’examen des gènes dans la composition en sucre QTL sur LG 14 (Données supplémentaires 6) a initialement révélé trois candidats positionnels — une invertase alcaline/ neutre (chr14G0028200) et deux invertases de paroi cellulaire adjacentes (chr14G0022900 et chr14G0023100) prédites par notre pipeline d’annotation de gènes. Nous avons vérifié la présence potentielle de copies supplémentaires non notées de l’invertase dans cette région en alignant les transcrits prédits pour chacun des trois gènes sur cette région à l’aide de l’outil d’alignement génomique du transcrit splign73. Cela a permis de récupérer une séquence de brins moins (que nous appelons CWINV2), avec une homologie proche des invertases flanquantes CWINV1 et CWINV3 à 2 489 373 à 2 485 592, mais des insertions/délétions multiples dans des régions homologues aux exons CDS de l’invertase.

La profondeur de couverture pour l’analyse des variations de délétion a été déterminée dans des bacs non chevauchants de 500 pb avec samtools bedcov74 (v. 1.9) utilisation des paramètres par défaut. Les valeurs de profondeur brute ont été normalisées indépendamment pour chaque échantillon en divisant la profondeur brute de chaque bac par la profondeur brute médiane de tous les bacs sur LG 14, puis par la transformation log2 suivant Flowers et al.75. Les échantillons ont été génotypés en classes de délétion homozygote et de génotypes alternatifs pour la délétion de 40 kb par inspection manuelle de la Fig. 12. Génotypes homozygotes pour la délétion en amont de A/N-INV1 (Fig. 4, Fig. supplémentaire. 13) ont été appelés en définissant un seuil exigeant qu’au moins un intervalle de 500 pb dans la région de suppression de 5 kb ait une profondeur normalisée log2 inférieure à -5. À l’heure actuelle, il n’est pas possible de distinguer les hétérozygotes pour les allèles de délétion des homozygotes d’insertion en raison de la couverture modérée de nos données de re-séquençage.

Dosage de l’enzyme invertase

Deux variétés de saccharose et deux variétés de sucre réducteur ont été choisies pour le dosage de l’invertase. L’expérience a été menée sur deux jours avec les quatre variétés représentées par un seul fruit chaque jour. Des dosages ont été effectués sur un fruit du stade khalal surgelé au moment de la collecte (voir ci-dessus) suivi d’un stockage à -80 °C. Des extraits bruts ont été obtenus à partir du fruit de datte congelé suivant le protocole de Hasegawa et Smolensky33. Chaque fruit congelé a été pulvérisé avec du mortier et un pilon (avec les graines enlevées), puis broyé dans un mélangeur de cuisine, et 5 g placés dans un tampon d’extraction à froid (20 ml de NaCl à 4,0%, 1 g de polyvinylpyrrolidone, PVP). Une étape de macération supplémentaire a été réalisée dans un homogénéisateur de laboratoire pendant 1-2 min. L’extrait a ensuite été centrifugé à 20 000 g pendant 15 min à 4 °C. Le surnageant contenant de l’invertase soluble a été stocké sur de la glace et le reste centrifugé une seconde fois à 20 000 g pendant 15 min à 4°C. Les surnageants ont été combinés et 10 ml dialysés contre de l’eau froide à 4° pendant une nuit pour éliminer les sucres de l’extrait. L’échantillon a ensuite été divisé et la moitié de l’échantillon a bouilli à 100 ° C pour mesurer l’activité de fond du sucre contaminant potentiel du fruit. L’activité invertase des extraits bruts non bouillis et bouillis a ensuite été mesurée par dosage colorimétrique sur un lecteur de microplaques Synergy H1 avec un kit de dosage enzymatique couplé (Sigma catalog no. MAK118) en suivant les instructions du fabricant.

Analyse ARN-Seq des fruits

Deux ensembles de données ARN-Seq ont été collectés pour répondre à des questions sur le développement des fruits et la variation des caractères des fruits. L’ARN-Seq à différents stades de développement des fruits a été réalisé sur des fruits collectés en 2014 sur des arbres répliqués situés sur le terrain du Laboratoire de culture de tissus de palmier dattier de l’Université des Émirats Arabes Unis à Al-Ain, aux Émirats Arabes Unis. Pour cette expérience, trois ou quatre arbres distincts de variétés Khenezi (une variété à fruits rouges) et Khalas (fruits jaunes) ont été échantillonnés à plusieurs reprises à 45, 75, 105, 120 et 135 jours après la pollinisation et les fruits congelés à l’azote liquide. L’ARN a été extrait d’un seul fruit de chacun des trois arbres ou plus par variété en suivant des protocoles standard pour la préparation de la bibliothèque TruSeq, et un séquençage d’extrémité appariée de 2 × 101 pb effectué sur un Illumina HiSeq 2500.

Une deuxième expérience a été menée sur des fruits de stade khalal récoltés à la ferme Al-Shuwaib en 2016. Trois fruits ont été récoltés sur chacun des huit palmiers d’une variété différente choisie en fonction de leur présence ou de leur proximité aux extrêmes des distributions de type saccharose et sucre réducteur (c.-à-d. concentration élevée et faible en saccharose). Les fruits ont été traités comme décrit ci-dessus et les bibliothèques construites avec le kit de préparation de bibliothèque Nextera (Illumina) et un séquençage à extrémité appariée de 2 × 76 pb effectué sur un instrument NextSeq (Illumina).

L’analyse de l’expression différentielle a été réalisée en rognant les lectures de séquençage brutes avec Trimmomatic45 (v 0,36) avec les paramètres ILLUMINACLIP:adapteradapter fasta〉: 2:30:10 TRAILING:3 LEADING:3 SLIDINGWINDOW:4:15 MINLEN:36. Les lectures ont ensuite été alignées sur le génome de référence mâle BC4 avec l’alignement de lecture STAR split 47 (v. 2.5.3a) et le nombre de lectures généré par gène en prenant l’union des exons avec htseq-count76 (v. 0.9.1) réglé pour inclure uniquement les lectures mappées de manière unique (c’est-à-dire les options htseq-counttypetype=exonmodemode = unionnonnon unique = none). La normalisation du nombre de lectures a été effectuée avec la méthode de la médiane des rapports de DESeq277 (v. 1.8.2). Des tests d’expression différentielle des Virescens (Pdac_HC_chr4G0137100) entre les variétés rouges (Khenezi, n = 3 bibliothèques de réplication) et jaunes (Khalas, n = 3 ou 4 bibliothèques de réplication) ont été effectués séparément pour chacun des points de temps de développement des fruits de 45, 75, 105, 120 et 135 jours après la pollinisation. Les valeurs de P sont rapportées pour un test de Wald de l’hypothèse de l’absence de différence de pli entre l’expression de Khenezi et de Khalas à chaque étape.

L’analyse ARN-seq de l’expression génétique différentielle des invertases A/N-INV1, CWINV1 et CWINV3 (Pdac_HC_chr14G0028200, Pdac_HC_chr14G0022900 et Pdac_HC_chr14G0023100, respectivement) entre le saccharose (n= 4 variétés) et les types de sucres réducteurs (n= 4 variétés) a été réalisée en construisant trois bibliothèques par variété à partir d’ARN extrait indépendamment de trois fruits différents, suivi du séquençage de chaque banque. L’analyse de l’expression différentielle entre les variétés de type saccharose et de type réducteur a ensuite été réalisée en alignant les lectures avec STAR (voir ci-dessus), en comptant les lectures avec htseq-count et en générant des matrices de comptage brutes dans DESeq2. Les nombres bruts par gène ont ensuite été additionnés entre les bibliothèques pour chaque variété en raison du faible nombre de lectures dans certaines bibliothèques. Une analyse subséquente a été effectuée en déposant d’abord des gènes à faible comptage (gènes avec < 10 lectures additionnées sur les 8 échantillons) suivi du flux de travail standard DESeq2 (v. 1.22.2) avec quatre répliques biologiques (c.-à-d., variétés de palmiers dattiers) dans chaque groupe de traitement. Des valeurs de P non corrigées pour l’hypothèse de l’absence d’expression différentielle sont présentées dans le texte principal pour trois gènes candidats.

Résumé des rapports

De plus amples informations sur la conception de la recherche sont disponibles dans le Résumé des rapports de recherche sur la nature lié à cet article.