Articles

Mapeo de asociación de todo el genoma de rasgos de fruta de palmera datilera

Secuenciación del genoma del macho BC4

Muestreamos una palmera datilera macho cruzada ubicada en el Departamento de Agricultura de los Estados Unidos (USDA)/Universidad de California, Riverside farm en Thermal, California (USDA accession No. PI 555415, Fuente RIV 7545 PL). Este macho fue producido por cuatro generaciones de retrocruzamiento con una hembra de Barhee como padre recurrente como parte de un programa de cría en el USDA, EE.UU., que se suspendió en la década de 197010, 18. Los folletos se limpiaron y se congelaron con nitrógeno líquido antes de transportarlos al Instituto de Genómica de Arizona (Universidad de Arizona, Tucson, Arizona) para la extracción de ADN de alto peso molecular y la secuenciación.

El genoma del macho BC4 se secuenció utilizando una plataforma de secuenciación PacBio RSII. Se extrajo ADN de alto peso molecular para secuenciación de hojas jóvenes adoptando el protocolo de Doyle y Doyle42 con modificaciones menores. La preparación de la biblioteca PacBio siguió el protocolo de 20 kb y se construyeron tres bibliotecas (seleccionadas en gel de 20, 25 y 30 kb). Se secuenciaron ochenta y cinco células SMRT en un secuenciador RSII con un tiempo de recopilación de películas de 6 h.Se generaron alrededor de 6,4 millones de lecturas, lo que totalizó 72 Gb de datos (longitud media de lectura secundaria 11,2 kb, N50 18,5 kb). Se realizó una secuenciación adicional de una biblioteca de insertos cortos (extremo emparejado de 2 × 100 pb) con un secuenciador Illumina HiSeq 2500.

Ensamblaje del genoma

Hicimos una estimación basada en k-mer del tamaño del genoma a partir de secuencias de lectura corta sin procesar del genoma masculino BC4 para fines de ensamblaje (KmerFreq_AR en SOAPdenovo243) con ajustes predeterminados y longitud de k-mer establecida en 17. Nótese que también se realizó una estimación experimental del tamaño del genoma de P. dactylifera utilizando citometría de flujo (ver más abajo). Las lecturas de PacBio se ensamblaron con FALCON-Unzip19 (v. falcon-2017.06.28–18.01-py2.7-ucs2) con una cobertura de semillas de 55× y una estimación del tamaño del genoma basada en k-mer de 774 Mb como entrada. El módulo de descompresión se ejecutó con la configuración predeterminada.

El ensamblaje resultante se pulió alineando lecturas de PacBio en bruto con Carcaj y Flecha (parte de la suite de análisis SMRT v.2.3.0), seguido de ejecutar Pilon44 v. 1.18 con secuencias de lectura corta Illumina del macho BC4. Las entradas a Pilon se produjeron recortando las lecturas cortas con Trimmomatic45 (v. 0.32) para eliminar bases de 3′ por debajo de la calidad de base de Q30 y lecturas más cortas que 30 nucleótidos. Lee fueron alineados a la salida de la Flecha con Bowtie246 (v. 2.2.6).

Los contiguos primarios pulidos se anclaron a LGs del mapa genético existente21 con ALLMAPS22 para producir un conjunto haploide anclado. Las secuencias de andamios para el mapa genético se obtuvieron de http://qatar-weill.cornell.edu/research/datepalmGenome/edition3/PdactyKAsm30_r20101206.fasta.gz. Al alinearse con el mapa genético y después de la inspección manual de la realineación de las lecturas en bruto al ensamblaje, encontramos solo un caso de ensamblaje incorrecto: un contig tuvo que dividirse ya que dos extremos contig se fusionaron cabeza a cabeza.

Anotación del genoma

Generamos bibliotecas de ARN-Seq a partir de múltiples frutos en estadio khalal (ver más abajo), una mezcla de brotes florales masculinos y femeninos (denominados «flores» más abajo) y polen, y realizamos secuenciación de extremos pares de 2 × 100 pb en un instrumento Illumina HiSeq 2500 (Tabla Suplementaria 7). Se descargaron datos adicionales de ARN-Seq de palma datilera de hojas y raíces del Archivo de Lectura de Secuencias (Tabla Suplementaria 7). Las lecturas de ARN-Seq se recortaron con Trimmomatic45, se alinearon con el conjunto haploide con STAR47 (v.2.4.0.1) y los modelos genéticos predichos por StringTie48 (v. 1.3.2) para ser utilizado como entrenamiento para Augustus49 (v. 2.3).

La anotación de genes se realizó utilizando la tubería MAKER250 (v. 2.31). La evidencia basada en homología, incluyó 7097 ESTs (descargados de la base de datos NCBI EST el 9 de febrero de 2017), secuencias de proteínas de Uniprot51 , un proteoma de palma datilera, un proteoma de palma aceitera 52 y los modelos derivados de ARN-Seq de arriba. La predicción Ab initio se realizó con Augustus (v.3.0) entrenado como se describe en Bowman et al.53 con modelos de genes producidos con StringTie48 (v. 1.3.2), a partir de los alineamientos ARN-Seq.

La anotación raw MAKER2 fue analizada, eliminando modelos que contenían dominios TE y careciendo de evidencia de transcripción o de la presencia de un dominio Pfam como se describe en Bowman et al.53. Con aproximadamente 1× de lecturas WGS Illumina de un solo extremo no organelar, se produjo una biblioteca de repetición de novo (no basada en ensamblado) con RepeatExplorer54, y se analizó como en Copetti et al.55. La anotación repetida del ensamblaje se realizó con RepeatMasker (v. 4.0.6; en el espacio de nucleótidos) y Blaster56 (parte del paquete REPET v 2.5, en el espacio de proteínas) y luego se reconcilió en un solo archivo de anotación. Arn no codificantes se predijo con Infernal57 (v. 1.1.2) con la Rfam library58 (v. 12.2). Se filtraron los resultados por encima del umbral de valor e de 1 × 10-5, así como los resultados con una puntuación menor que el umbral de recolección específico de la familia. Cuando se predijeron loci en ambos filamentos, solo se mantuvo el golpe con la puntuación más alta. También se predijeron ARN de transferencia utilizando tRNAscan-SE59 (v.2.0) con parámetros predeterminados.

Evaluación de la calidad del genoma

Las visualizaciones del ensamblaje del genoma se produjeron con el software assembly-stats (Suplemento Fig. 1, ). La integridad del ensamblaje se evaluó caracterizando el espacio genético con BUSCO20 utilizando 1440 grupos ortogonales de plantas (v. 3) y alineando las EST con el ensamblaje diploide con Blat60 (v. 350).

Estimación del tamaño del genoma de la palmera datilera

El tamaño del genoma se estimó utilizando el procedimiento de citometría de flujo de un solo paso descrito en Doležel et al.61 con ligeras modificaciones. Brevemente, aproximadamente 1 cm2 de material foliar de dos P. las muestras de dactylifera en los Jardines Botánicos Reales de Kew, Reino Unido, se incubaron durante 30 s en hielo en 1 ml de» tampón de uso general » (GPB)62 complementado con un 3% de PVP-40 para suavizar la hoja. A continuación, una cantidad similar de material de hoja de la norma de calibración Petroselinum crispum (Molino.) Alboroto (valor 1C = 2201 Mb)63 se añadió y el material combinado se cortó rápidamente (pero no demasiado vigorosamente) con una nueva hoja de afeitar. Se añadió otro 1 ml del tampón GPB y luego se filtró el homogeneizado a través de una malla de nailon de 30 µm (Celltrics 30 µM mesh, Sysmex, Goritz, Alemania) en un tubo, se añadió yoduro de propidio de 100 µl (1 mg/ml) y la muestra se incubó en hielo durante 10 min. La fluorescencia relativa de 5000 partículas se registró utilizando un citómetro de flujo Partec Cyflow SL3 (Partec GmbH, Münster, Alemania) equipado con un láser verde de estado sólido de 100 mW (532 nm, Cobolt Samba, Solna, Suecia). Se procesaron tres réplicas de cada hoja y se analizaron los histogramas de salida utilizando el software FlowMax v. 2.4 (Partec GmbH). El valor 1C de P. dactylifera (Mbp) se calculó como: (Posición máxima media de P. dactylifera/Posición máxima media de P. crispum) × 2201 Mb (=valor 1C de P. crispum)63.

Panel de GWAS

El fenotipado de los GWAS se llevó a cabo en palmeras datileras ubicadas en dos granjas de los Emiratos Árabes Unidos. Las granjas están ubicadas en el Centro de Investigación de Palmeras Datileras en Hamriyah, Ras Al-Jaima (n = 46) y en Al-Shuwaib, Al-Ain, Abu Dhabi (n = 111) . La población se compone principalmente de variedades comerciales femeninas (n = 145). Los machos (n = 12) que crecían en las granjas también se secuenciaron principalmente con el propósito de mapear el lugar de determinación del sexo.

Las muestras de fruta de la etapa Khalal se recolectaron de primavera a otoño en 2016, y se congelaron a presión en nitrógeno líquido para secuenciar ARN o se recolectaron como frutas frescas para fotografía, escaneo (ver a continuación) y caracterización de otros rasgos de fruta. En el verano de 2017 se recolectaron frutos en estadio Tamar de los mismos árboles para perfilar el azúcar y los ácidos orgánicos. Se recolectaron muestras de hojas para extracción de ADN y secuenciación del genoma.

Se extrajo ADN genómico de tejido mesocarpiano/epicarpio de hoja o fruto utilizando el mini kit de plantas DNeasy (Qiagen, Venlo, Países Bajos). Columnas de extracción de ADN y bibliotecas preparadas con el kit Illumina Nextera (San Diego, CA). Se realizó una secuenciación de extremo emparejado de 2 × 100 bp en un secuenciador Illumina HiSeq 2500 con hasta ocho bibliotecas por carril. Las lecturas se desmultiplanizaron y los filtros de control de calidad Illumina que pasaban se procesaron con Trimmomatic45 (v. 0.36) para eliminar las secuencias de adaptadores contaminantes. Para la extracción del adaptador, utilizamos la base de datos de secuencias de transposasa Nextera incluida con la descarga Trimmomatic (v.0.32) con el siguiente ajuste ILLUMINACLIP: adapter biblioteca de adaptadores MIN:2:30:10 MINLEN:76 para retener solo los pares de lectura donde ambas lecturas eran de 76 bps o más después del recorte.

Las lecturas se alinearon con el conjunto macho BC4 desenmascarado (solo contiguos primarios) utilizando bwa mem (v.0.7.15-r1140). El alineador bwa mem se ejecutó con la opción-M para marcar lecturas suplementarias (bandera de 0 × 800 bits) como secundarias (0 × 100). Las alineaciones de muestra se procesaron con FixMateInformation (Picard-tools v.2.8.2; http://broadinstitute.github.io/picard) para garantizar la coherencia en la información de lectura emparejada, SamSort (Picard-tools v. 2.8.2) para ordenar por coordenadas las alineaciones, Marcar duplicados (Picard-tools v. 2.8.2) para marcar pares de lectura duplicados, y con GATK64 IndelRealignerTargetCreator/IndelRealigner herramienta (GATK v. 3.7-0) para realinear lecturas en regiones indel. Las alineaciones de muestras se validaron en cada paso utilizando ValidateSam (Picard-tools v. 2.8.2) para garantizar que no hubiera errores en la producción. Las alineaciones procesadas se resumieron con la métrica de suma de alineación de colección (Picard-tools v. 2.8.2) y Samtools .

Llamada a SNP y genotipado

La llamada a SNP y genotipado se realizaron con el haplotípico GATK (v .3.7-0) ejecutado en modo GVCF seguido de genotipado conjunto con GenotipeGVCFs. Las lecturas se filtraron del paso haplotípico para excluir aquellas con una calidad de mapeo inferior a 20 y para excluir aquellas marcadas como duplicados de reacción en cadena de la polimerasa (PCR) o alineaciones secundarias (véase más arriba). Este enfoque arrojó 32.384.028 SNPs en todas las muestras. El filtrado SNP se llevó a cabo aplicando filtros duros a las variantes sin procesar utilizando GATK v.4.0.2.1. Filtramos el conjunto de llamadas sin procesar para excluir SNPs con baja (<785) y alta profundidad (>2862) sumadas entre muestras. También se excluyeron SNP multialélicos, SNP dentro de 10 pb de polimorfismos indel y SNP que cumplieran las siguientes condiciones: QUAL < 30 y QD < 5.0. Los genotipos se establecieron como faltantes si la DP estaba por debajo de 5 o por encima de 20, así como los SNP con una tasa de llamada de genotipo < 80%, o una frecuencia de alelos menor por debajo de 0,01. Se estimó un valor de P para cada sitio a partir de una prueba de equilibrio de Hardy–Weinberg utilizando VCFtools65 y se filtraron SNP que mostraban un exceso de heterocigosidad(prueba exacta, P < 0.05). Este procedimiento produjo un conjunto de llamadas filtradas de 7.149.205 SNPs.

Análisis estadístico

Todo el análisis estadístico se realizó en el lenguaje de computación estadística R a menos que se indique lo contrario.

El análisis de DL

El DL se estimó utilizando un método para estimar r2 que es apropiado para datos no basados (véase VCFtools65). La curva de decaimiento de LD para el panel GWAS se calculó como en Flowers et al.4. En resumen, se calculó r2 para SNP sin fases con frecuencia de alelos menores superior al 10% utilizando la opción–geno-ld en VCFtools (v. 0.1.14). Las curvas de decaimiento se generaron ajustando una curva a las estimaciones de pares r2 por distancia física entre pares SNP con mínimos cuadrados no lineales utilizando un enfoque adaptado de Marroni et al.66. La distancia de medio decaimiento se calculó entonces como la distancia a la que r2 es la mitad de su valor máximo (es decir, distancia de 1 pb).

Caracterización del color de la fruta

Se cosecharon ocho frutas de estadio khalal sin lesiones por variedad de palmera datilera, se enjuagaron con agua del grifo para eliminar el polvo y luego se secaron al aire. Las frutas se cortaron longitudinalmente, y el color de la fruta se midió mediante dos estrategias. Primero, fotografiamos las frutas en rodajas con un comprobador de color en una caja de estudio fotográfico con cámara, donde las fotos se tomaron sobre un fondo blanco con una cámara digital. El color de la fruta se analizó con ImageJ software67 utilizando los parámetros de color RGB.

En segundo lugar, utilizamos un enfoque complementario, en el que utilizamos el software Tomato Analyzer 68 v.2.2 para obtener estimaciones de los parámetros de color L*, a*, b*. La coordenada L * expresa la oscuridad y la claridad del color y varía de negro (0) a blanco (100). Las coordenadas a* y b* expresan la dirección del color, donde +a * está en la dirección roja − – a * en la dirección verde, + b * en la dirección amarilla y-b * en la dirección azul68. La adquisición y el análisis de imágenes se realizaron como se describe en Rodríguez et al.27. Las frutas en rodajas se colocaron en un escáner con fondo negro y se cubrieron para evitar los efectos de la luz ambiental. Las imágenes escaneadas se guardaron como archivos JPEG y las estimaciones de los parámetros de color L*, a*, b * se hicieron en cada fruta. Se calculó el promedio de todas las frutas. Los dos métodos estaban altamente correlacionados, por lo que se utilizó el índice de color a*/b* para evaluar las diferencias en el color de la piel de los frutos y se utilizó para el estudio de asociación.

Contenido de antocianina de fruta

La antocianina total se extrajo de tres réplicas de fruta en estadio khalal de cada variedad de palmera datilera utilizando frutas congeladas a presión sobre nitrógeno líquido siguiendo el procedimiento descrito en Rabino y Mancinelli69 con modificaciones menores. Brevemente, la antocianina de piel de fruta congelada (100 mg) se molió en polvo fino y se extrajo en 1 ml de metanol ácido (1% de HCl) por incubación a temperatura ambiente en la oscuridad durante 18 h, seguido de centrifugación durante 10 min a 12.000 g. La cuantificación de la antocianina total se realizó utilizando la absorbancia medida por un espectrofotómetro utilizando la ecuación

antocianina total = (A530-0,25 × A657) / FW, donde A530 y A657 nm son la absorbancia y FW es el peso húmedo del material vegetal (g).

Tamaño de la fruta

Las fotografías de frutas utilizadas para el análisis de color (véase más arriba) incluían una regla como estándar de tamaño. Luego se utilizó ImageJ67 (v.2) y el software analizador de tomate 27 para estimar la longitud y el ancho de la fruta.

El contenido de azúcar y ácido de la fruta

La sacarosa, la glucosa y la fructosa de la fruta se cuantificaron a partir de 125 variedades en la etapa de tamar, cuando las frutas están secas, la maduración está completa y la etapa en la que los dátiles se consumen típicamente. Las frutas se congelaron a presión a -20 ° C y entre 10 y 15 frutas por variedad se mantuvieron inmediatamente a -20 °C hasta su llegada a Montpellier (Centro Francés de Investigación Agrícola para el Desarrollo Internacional, CIRAD), donde se realizó un análisis de cromatografía líquida de alto rendimiento. Se obtuvo una sola medición de dos frutas agrupadas para cada uno de los rasgos de azúcar y ácido. Las piezas de dátiles (sin la piedra) se congelaron con nitrógeno líquido y se molieron en polvo, se colocaron en dos viales de vidrio herméticos separados, se almacenaron a -20 °C hasta el muestreo. Para la materia seca, por duplicado, se pesó 1 g de muestra y se colocó en una estufa al vacío a 70 °C durante 72 h. Se verificó un control durante 4 días para determinar la duración óptima. Las extracciones de azúcar se realizaron utilizando el método adaptado de Bchir et al.70. Para cada muestra, se colocaron pasta de dátiles de 500 mg y 10 ml de etanol al 80% en un tubo de 15 ml, calentado durante 5 min a 80 °C en un baño de agua. Cada tubo se agitó al principio manualmente y luego mecánicamente durante 15 minutos para una mejor propagación. Después de la centrifugación a 9000 × g (centrifugadora Avanti J-E; Beckman-Coulter, Brea, CA, EE. UU.), el fondo se extrajo dos veces y los sobrenadantes se recogieron, filtraron a 0,45 µm e inyectaron. El método se probó con agua ácida (0,01 N H2SO4). Ejemplo de normas fueron de Sigma-Aldrich (st Louis, MO, USA) fueron utilizados.

Contenido de humedad de frutas

El muestreo de frutas se realizó como en la sección de contenido de azúcar y ácido de frutas anterior. La pulpa de dátiles de dos frutas se recuperó y se molió con nitrógeno líquido para homogeneizar la muestra y se almacenó a -80 ° C para obtener una sola medición por variedad. El contenido de humedad se determinó gravimétricamente midiendo la pérdida de peso de 2,5 g de muestras de pulpa de dátiles, secadas a 70 ° C hasta que las muestras alcanzaron un peso estable.

Análisis de asociación de todo el genoma

Realizamos el análisis de mapeo de asociación de todo el genoma utilizando el paquete Gapit R25. Para la eficiencia computacional y para minimizar los problemas de pruebas múltiples, pero proporcionar una cobertura densa con respecto a la distancia de decaimiento de LD, utilizamos un conjunto de SNP aleatorios muestreados de 5,5% (392.948 SNPs). Se realizó un CMLM26 utilizando la estructura de la población y la información de parentesco como covariables en los genotipos de las 157 muestras de palma datilera. La estructura de la población se inferió con un análisis de componentes principales (PCA) generado por Gapit utilizando el 1% de los SNP (muestreados aleatoriamente). Gapit utilizó además los primeros cinco componentes del PCA (Fig. 1a; Datos Complementarios 2). El parentesco se infirió utilizando el algoritmo de VanRaden (Datos suplementarios 3). Se identificaron SNP significativos utilizando un umbral conservador de Bonferroni de P < 1,27 × 10-7. Para rasgos con resultados significativos, realizamos un segundo análisis de GWAS utilizando el conjunto completo de SNP en LGs particulares donde se identificaron SNP significativos.

Caracterización de Ibn Majid y el gen VIR

Previamente identificamos un polimorfismo de inserción de retrotransposón similar a una copia en el exón 3 de un factor de transcripción R2R3-MYB13 (Identificación del gen NCBI: LOC103717680) que es ortólogo al gen Virescens (VIR) en la palma aceitera 28. Para caracterizar este retrotransposón, amplificamos por PCR las repeticiones terminales largas de elementos (así como la secuencia de genes VIR adyacentes) en variedades Thory y Empress recolectadas de la granja del USDA en Thermal, California y la granja Riverside del USDA/UC, respectivamente, utilizando los Sistemas de núcleo de PCR GoTaq (Promega, Madison, WI USA) tampón y polimerasa.

Los pares de imprimación 5′-TGT GTC CGG CAT TGC ACT TCT-3′ (hacia adelante) y 5′-GCT CAA TGT TGA TGT TCT TGT TGG-3′ (inverso) se utilizaron para el 5′ LTR, y 5′-ACTC TGA CTA CCA AGT ACT TGA TG-3′ (hacia adelante) y 5′-CTG CAC TAT TAT CAC AGT AGA TGG-3′ (inverso) para el 3′ LTR. Se enviaron productos amplificados para secuenciación de Sanger en GeneWiz (South Plainfield, Nueva Jersey). Nuestro ensamblaje del genoma también contiene una copia completa de la inserción (~11.7 kb). La EXPLOSIÓN se utilizó para alinear la inserción contra sí misma con el fin de identificar las regiones de repetición terminal largas coincidentes. Se utilizó el programa LTRdigest71 para confirmar los resultados de la EXPLOSIÓN. Una búsqueda por EXPLOSIÓN consultó la secuencia completa de Ibn Majid contra el genoma de la palmera datilera para determinar el número de copias.

La Tabla suplementaria 11 proporciona las coordenadas de nuestra anotación manual del gen VIR en el ensamblaje masculino BC4. El genotipado de la inserción de Ibn Majid en el exón 3 de VIR en variedades de palmeras datileras se realizó mediante inspección manual de lecturas alineadas que abarcaban la región de inserción en JBrowse72. Dado que el ensamblaje del genoma masculino BC4 tiene el alelo de inserción (VIRIM, ver Fig. 3), las lecturas mapeadas que se originan de tipo salvaje (VIR+), o alelos sin inserción, se recortan suavemente en el límite de inserción del exón 3. Anotamos la presencia de lecturas con recortes suaves (que apoyan la presencia de un alelo VIR+) o lecturas sin cortar que abarcan el límite de inserción del exón 3 (que apoyan la presencia de un alelo de inserción de VIRIM) para identificar genotipos. Repetimos este procedimiento examinando los alineamientos de lectura en los extremos 5′ y 3′ de la inserción en el conjunto macho BC4 y se conservaron para el análisis muestras en las que los genotipos 5′ y 3′ arrojaron genotipos coincidentes. Dado nuestro interés en los fenotipos de color de fruta, solo genotipamos palmas femeninas.

Caracterización de invertasas y polimorfismos de deleción

El examen de genes en la composición de azúcar QTL en LG 14 (Datos suplementarios 6) reveló inicialmente tres candidatos posicionales: una invertasa alcalina / neutra (chr14G0028200) y dos invertasas de pared celular adyacentes (chr14G0022900 y chr14G0023100) predichas por nuestra tubería de anotación de genes. Verificamos posibles copias adicionales no anotadas de invertasa en esta región alineando las transcripciones predichas para cada uno de los tres genes con esta región utilizando la herramienta Transcripción de Splign a alineación genómica73. Esto recuperó una secuencia de hebra negativa (a la que nos referimos como CWINV2), con una homología cercana a las invertasas flanqueantes CWINV1 y CWINV3 en 2.489.373 a 2.485.592, pero múltiples inserciones/eliminaciones en regiones homólogas a exones CDS de invertasa.

Se determinó la profundidad de cobertura para el análisis de variación de deleción en contenedores no superpuestos de 500 bp con samtools bedcov74 (v. 1.9) usar la configuración predeterminada. Los valores de profundidad bruta se normalizaron de forma independiente para cada muestra dividiendo la profundidad bruta de cada contenedor por la mediana de profundidad bruta de todos los contenedores en LG 14 siguiendo la transformación log2 siguiendo a Flowers et al.75. Las muestras se genotiparon en deleción homocigótica y clases de genotipo alternas para la deleción de 40 kb mediante inspección manual de Suplementos Fig. 12. Genotipos homocigotos para la deleción aguas arriba de A / N-INV1 (Fig. 4, Suplemento Fig. 13) se llamaron estableciendo un umbral que requiere que al menos un intervalo de 500 pb en la región de eliminación de 5 kb tenga una profundidad normalizada log2 inferior a -5. En la actualidad, no es posible distinguir los heterocigotos para alelos de eliminación de los homocigotos de inserción debido a la cobertura moderada en nuestros datos de re-secuenciación.

Ensayo de la enzima invertasa

Se eligieron dos variedades de sacarosa y dos de azúcar reductor para el ensayo de la invertasa. El experimento se llevó a cabo en dos días con las cuatro variedades representadas por una sola fruta en cada día. Se realizaron ensayos en una fruta en fase khalal congelada a presión en el momento de la recolección (véase más arriba), seguida de almacenamiento a -80 °C. Se obtuvieron extractos crudos de la fruta dátil congelada siguiendo el protocolo de Hasegawa y Smolensky33. Cada fruta congelada se pulverizó con mortero y mortero (sin semilla), y luego se molió en una licuadora de cocina, y se colocaron 5 g en un tampón de extracción en frío (20 ml NaCl al 4,0%, 1 g de polivinilpirrolidona, PVP). Se realizó una maceración adicional en un homogeneizador de laboratorio durante 1-2 min. El extracto se centrifugó a 20.000 × g durante 15 minutos a 4 °C. El sobrenadante que contenía invertasa soluble se almacenó en hielo y el resto se centrifugó por segunda vez a 20.000 × g durante 15 minutos a 4 °C. Los sobrenadantes se combinaron y se dializaron 10 ml contra agua fría a 4° durante la noche para eliminar los azúcares del extracto. La muestra se dividió y la mitad de la muestra se hervió a 100 °C para medir la actividad de fondo del azúcar contaminante potencial de la fruta. A continuación, se midió la actividad de la invertasa de extractos crudos hervidos y sin hervir mediante ensayo colorimétrico en un lector de microplacas Synergy H1 con un kit de ensayo enzimático acoplado (Sigma no de catálogo. MAK118) siguiendo las instrucciones del fabricante.

Análisis de ARN-Seq del fruto

Se recolectaron dos conjuntos de datos de ARN-Seq para abordar preguntas sobre el desarrollo del fruto y la variación en los rasgos del fruto. El ARN-Seq en diferentes etapas de desarrollo de frutas se llevó a cabo en frutas recolectadas en 2014 de árboles replicados ubicados en los terrenos del Laboratorio de Cultivo de Tejidos de Palma Datilera de la Universidad de los Emiratos Árabes Unidos en Al-Ain, Emiratos Árabes Unidos. Para este experimento, se muestrearon repetidamente tres o cuatro árboles separados de variedades Khenezi (una variedad con fruta roja) y Khalas (fruta amarilla) a los 45, 75, 105, 120 y 135 días después de la polinización y los frutos se congelaron a presión con nitrógeno líquido. El ARN se extrajo de una sola fruta de cada tres o más árboles por variedad siguiendo protocolos estándar para la preparación de la biblioteca TruSeq, y la secuenciación de extremos pares de 2 × 101 pb se realizó en un Illumina HiSeq 2500.

Se llevó a cabo un segundo experimento en la fruta de la etapa khalal recolectada en la granja Al-Shuwaib en 2016. Se recolectaron tres frutos de cada una de las ocho palmeras, cada una de una variedad diferente elegida en función de su ubicación en o cerca de los extremos de las distribuciones de sacarosa y azúcar reductor (es decir, concentración alta y baja de sacarosa). Las frutas se procesaron como se describió anteriormente y se construyeron bibliotecas con el kit de preparación de bibliotecas Nextera (Illumina) y la secuenciación de extremos pares de 2 × 76 pb realizada en un instrumento NextSeq (Illumina).

El análisis de expresión diferencial se realizó recortando lecturas de secuenciación sin procesar con Trimmomatic45 (v 0.36) con parámetros ILUMINACLIP: adapter adaptador fasta fas:2:30:10 ARRASTRE:3 AVANCE:3 DESLIZAMIENTO VENTANA:4:15 MINLEN:36. Las lecturas se alinearon con el genoma de referencia masculino BC4 con el alineador de lectura dividida en ESTRELLAS 47 (v. 2.5.3a) y recuentos de lectura generados por gen tomando la unión de exones con htseq-count76 (v. 0.9.1) configurado para incluir solo lecturas asignadas de forma única (es decir, opciones de recuento htseq type type = exon mode mode = union non nonunique = none). La normalización del recuento de lecturas se llevó a cabo con el método de mediana de proporciones de DESeq277 (v.1.8.2). Se realizaron pruebas de expresión diferencial de Virescens (Pdac_HC_chr4G0137100) entre variedades rojas (Khenezi, n = 3 bibliotecas replicadas) y amarillas (Khalas, n = 3 o 4 bibliotecas replicadas) por separado para cada uno de los puntos de tiempo de desarrollo del fruto de 45, 75, 105, 120 y 135 días después de la polinización. Los valores de P se reportan para una prueba de Wald de la hipótesis de no diferencia de pliegues entre la expresión de Khenezi y Khalas en cada etapa.

El análisis ARN-seq de la expresión génica diferencial de las invertasas A/N-INV1, CWINV1 y CWINV3 (Pdac_HC_chr14G0028200, Pdac_HC_chr14G0022900 y Pdac_HC_chr14G0023100, respectivamente) entre sacarosa (n = 4 variedades) y azúcar reductor (n = 4 variedades) se llevó a cabo mediante la construcción de tres bibliotecas por variedad a partir de ARN extraído de forma independiente de tres frutas diferentes, seguido de secuenciación de cada biblioteca. El análisis de la expresión diferencial entre las variedades de tipo sacarosa y de tipo reductor se realizó alineando lecturas con ESTRELLAS (ver más arriba), contando lecturas con recuento htseq y generando matrices de recuento en bruto en DESeq2. Los recuentos crudos por gen se sumaban a través de las bibliotecas para cada variedad debido a los bajos recuentos de lectura en algunas bibliotecas. El análisis posterior se llevó a cabo mediante la primera eliminación de genes de bajo recuento (genes con <10 lecturas sumadas en las 8 muestras) seguido del flujo de trabajo estándar DESeq2 (v. 1.22.2) con cuatro réplicas biológicas (p. ej., variedades de palma datilera) en cada grupo de tratamiento. Los valores de P no corregidos para la hipótesis de ausencia de expresión diferencial se presentan en el texto principal para tres genes candidatos.

Resumen de informes

Más información sobre el diseño de la investigación está disponible en el Resumen de Informes de Investigación de la Naturaleza vinculado a este artículo.