Articles

Genome-wide association mapeamento da data do fruto da palmeira traços

sequenciamento do Genoma do BC4 masculino

Nós provamos um cruzamento macho de palma de data localizados em Estados Unidos Departamento de Agricultura (USDA)/Universidade da Califórnia, Riverside fazenda Térmica, Califórnia (USDA adesão Não. PI 555415, fonte RIV 7545 PL). Este macho foi produzido por quatro gerações de backcrossing com uma fêmea Barhee como o pai recorrente como parte de um programa de reprodução na USDA, EUA que foi descontinuado em 1970s10,18. Folhetos foram limpos e congelados em nitrogênio líquido antes de serem transportados para o Arizona Genomics Institute (Universidade do Arizona, Tucson, AZ) para extração de DNA de alto peso molecular e sequenciamento.

o genoma do macho BC4 foi sequenciado usando uma plataforma sequenciadora de PacBio RSII. DNA de alto peso molecular Para sequenciamento foi extraído de folhas jovens adotando o protocolo de Doyle e Doyle42 com pequenas modificações. A preparação da biblioteca PacBio seguiu o protocolo de 20 kb e três bibliotecas (gel-selecionadas em 20, 25 e 30 kb) foram construídas. Oitenta e cinco células SMRT foram sequenciadas em um sequenciador RSII com tempo de coleta de filmes de 6 h. cerca de 6,4 milhões de leituras foram geradas, totalizando 72 Gb de dados (comprimento médio subread de 11,2 kb, N50 18,5 kb). Sequenciamento adicional de uma biblioteca de inserção curta (2 × 100 bp emparelhado-end) foi realizado com um sequenciador Illumina HiSeq 2500.

Genome assembly

we did a k-mer-based estimation of the genome size from raw short read sequences of the BC4 male genome for assembly purposes (KmerFreq_AR in SOAPdenovo243) with default settings and k-mer length set to 17. Note que uma estimativa do tamanho do genoma experimental para P. dactylifera também foi feita usando citometria de fluxo (ver abaixo). PacBio reads foi então montado com Falcão-Unzip19 (v. falcon-2017.06.28–18.01-py2. 7-ucs2) com uma cobertura de sementes de 55× e a estimativa do tamanho do genoma baseado em K-mer de 774 Mb como entrada. O módulo Unzip foi executado com as configurações padrão.

a montagem resultante foi polida alinhando as leituras de PacBio raw com Quiver e Arrow (parte do conjunto de análise do SMRT v. 2.3.0), seguido pela execução de Pilon44 v. 1.18 com sequências de Leitura curta de ilumina do macho BC4. As entradas para Pilon foram produzidas por aparar as leituras curtas com Trimmomatic45 (v. 0.32) para remover 3′ bases abaixo da qualidade de base de Q30 e lê menos de 30 nucleótidos. As leituras foram então alinhadas com a saída do Arrow com o Bowtie246 (v. 2.2.6).

os contigs primários polidos foram ancorados em LGs do mapa genético existente 21 com ALLMAPS22 para produzir um conjunto haplóide ancorado. Sequências de andaimes para o mapa genético foram obtidas a partir de http://qatar-weill.cornell.edu/research/datepalmGenome/edition3/PdactyKAsm30_r20101206.fasta.gz. Após o alinhamento com o mapa genético e após a inspeção manual do realinhamento das leituras em bruto para a montagem, encontramos apenas uma instância de mis-assembly: um contig teve que ser dividido uma vez que duas extremidades contig foram fundidas cabeça-a-cabeça.

anotação do genoma

nós geramos bibliotecas RNA-Seq de múltiplos frutos de fase khalal( ver abaixo), uma mistura de botões de flores masculinos e femininos (referido como “flor” abaixo), e pólen, e conduzido 2 × 100 BP sequenciamento emparelhado em um instrumento Illumina HiSeq 2500 (tabela suplementar 7). Data adicional ARN-Seq dados da folha e raiz foram baixados do arquivo de leitura sequencial (tabela suplementar 7). RNA-Seq reads foram aparadas com Trimmatic45, alinhadas ao conjunto haploid com STAR47 (v. 2. 4. 0. 1), e modelos genéticos preditos por StringTie48 (v. 1.3.2) a utilizar como formação para Augustus49 (v. 2.3).a anotação do Gene

foi realizada utilizando a pipelina MAKER2 (v. 2, 31). A evidência baseada em homologia, incluiu 7097 ESTs (baixado da base de dados NCBI EST em 9 de fevereiro de 2017), sequências proteicas de Uniprot51 , um proteoma de Palma date, um proteome52 de Palma de óleo, e os modelos RNA-Seq derivados de cima. Ab initio prediction was performed with Augustus (v. 3.0) trained as described in Bowman et al.53 com modelos genéticos produzidos com StringTie48( v. 1.3.2), a partir dos alinhamentos RNA-Seq.

a anotação raw MAKER2 foi processada, removendo modelos contendo domínios TE e faltando evidências de transcrição ou a presença de um domínio Pfam como descrito em Bowman et al.53. Com cerca de 1× de WGS Unifinal não-organelares, a de novo (não assembly-based) repeat library was produced with RepeatExplorer54, and parsed as in Copetti et al.55. Repetit annotation of the assembly was performed with RepeatMasker (v. 4.0.6; in nucleotide space) and Blaster56 (part of the REPET v 2.5 package, in protein space) and later reconciled in a single annotation file. As RNAs não codificadas foram previstas com o Infernal57 (v. 1.1.2) com o bibliotecário Rfam58 (v. 12.2). Os acertos acima do limiar de e-value de 1 × 10-5 foram filtrados, bem como os resultados com pontuação inferior ao limiar de coleta específico da família. Quando loci em ambos os fios foram previstos, apenas o hit com a maior pontuação foi mantido. As RNAs de transferência também foram previstas usando tRNAscan-SE59 (v. 2.0) com parâmetros padrão.

avaliação da qualidade do genoma

visualizações da montagem do genoma foram produzidas com software assembly-stats (Supplementary Fig. 1, ). Assembly completeness was avauated by characterizing the gene space with BUSCO20 using 1440 plant ortholog groups (v. 3) and by aligning ESTs to the diploid assembly with Blat60 (v. 350).

Date palm genome size estimation

the genome size was estimated using the one-step flow cytometry procedure described in Doležel et al.61 com ligeiras modificações. Resumidamente, cerca de 1 cm2 de material de folha de dois P. dactylifera samples at the Royal Botanic Gardens, Kew, UK collection was incubated for 30 s on ice in 1 ml of “general purpose buffer” (GPB)62 supplemented with 3% PVP-40 to soften the leaf. Em seguida, uma quantidade semelhante de material em folha do padrão de calibração Petroselinum crispum (Moinho.) Fuss (1C value = 2201 Mb)63 was added and the combined material was chopped rapidly (but not too vigorosamente) using a new razor blade. Adicionou-se mais 1 ml do tampão GPB e, em seguida, filtrou-se o homogeneizado através de uma malha de nylon de 30 µm (malha celular de 30 µM, Sysmex, Goritz, Alemanha) num tubo, adicionou-se iodeto de propídio de 100 µl (1 mg/mL) e incubou-se a amostra em gelo durante 10 minutos. A fluorescência relativa de 5000 partículas foi registada utilizando um citómetro de fluxo SL3 de Cyflow Partec (Partec GmbH, Münster, Alemanha) equipado com um laser de estado sólido verde de 100 mW (532 nm, Cobolt Samba, Solna, Suécia). Três réplicas de cada folha foram processadas, e os histogramas de saída foram analisados usando o software FlowMax v. 2.4 (Partec GmbH). O valor de 1c de P. dactylifera (Mbp) foi calculado como: (posição de pico média de P. dactylifera/posição de pico média de P. crispum) × 2201 Mb (=valor de 1C de P. crispum)63.a fenotipagem dos GWAS foi efectuada em data em que as palmeiras se localizavam em duas explorações nos Emirados Árabes Unidos. As fazendas estão localizadas no centro de pesquisa Date Palm em Hamriyah, Ras Al-Khaimah (n = 46) e em Al-Shuwaib, Al-Ain, Abu Dhabi (n = 111) . A população é constituída principalmente por variedades comerciais femininas (n = 145). Os machos (n = 12) que crescem nas fazendas também foram sequenciados principalmente com o propósito de mapear o locus que determina o sexo.

Khalal fase de frutas foram coletadas amostras de primavera e o outono, em 2016, e quer tirar congeladas em nitrogênio líquido para o RNA de sequenciamento ou recolhidos como frutas frescas para a fotografia, digitalização (veja abaixo) e caracterização de outras frutas traços. Os frutos do estágio de Tamar das mesmas árvores foram coletados no verão de 2017 para o perfil de açúcar e ácido orgânico. Amostras de folhas foram coletadas para extração de DNA e sequenciamento do genoma.o ADN genómico foi extraído do mesocarpo/tecido epicarpo de folhas ou frutos, utilizando um mini kit de DNeasy vegetal (Qiagen, Venlo, Países Baixos). Colunas de extração de DNA, e bibliotecas preparadas usando Illumina Nextera (San Diego, CA) kit. Uma sequência de 2×100 bp emparelhada foi realizada em um sequenciador Illumina HiSeq 2500 com até oito bibliotecas por lane. As leituras foram desmultiplexadas e os filtros de controlo de qualidade da iluminação foram processados com o Trimmatic45 (v. 0.36) para remover sequências contaminantes do adaptador. Para a remoção do adaptador, nós usamos o adaptador e a base de dados de sequência de transposase Nextera incluídos com o download Trimmatic (v. 0.32) com a seguinte configuração ILLUMINACLIP:〈adapter library〉:2:30:10 MINLEN:76 para reter apenas pares de leitura onde ambas as leituras eram 76 bps ou mais após a limpeza.

As leituras estavam alinhadas com o conjunto masculino BC4 (apenas contigs primários) usando a mem bwa (v. 0.7.15-r1140 ). O BWA mem aligner foi executado com a opção-M para marcar leituras suplementares (0 × 800 bitwise flag) como secundário (0 × 100). Exemplo de alinhamentos foram processados com FixMateInformation (Picard-ferramentas v. 2.8.2; http://broadinstitute.github.io/picard) para garantir a consistência em emparelhado-leitura de informações, SamSort (Picard-ferramentas v. 2.8.2) para coordenar, ordenar os alinhamentos, MarkDuplicates (Picard-ferramentas v. 2.8.2) para sinalizador de leitura duplicadas pares, e com GATK64 IndelRealignerTargetCreator/IndelRealigner ferramenta (GATK v. 3.7-0) para realinhar lê em indel regiões. Os alinhamentos de amostras foram validados em cada etapa utilizando ValidateSam (Picard-tools v. 2.8.2) para garantir que não há erros na produção. Os alinhamentos processados foram sumariados com a coleta de materiais de síntese (Picard-tools v. 2.8.2) e Samtools .

SNP chamar e genotipagem

SNP-chamada e a genotipagem foi realizada com o GATK (v. 3.7-0) HaplotypeCaller executar em GVCF modo seguido pelo joint-genotipagem com GenotypeGVCFs . As leituras foram filtradas a partir da etapa Haplotipecaller para excluir aqueles com uma qualidade de mapeamento inferior a 20 e para excluir aqueles marcados como duplicados de reação em cadeia da polimerase (PCR) ou alinhamentos secundários (ver acima). Esta abordagem rendeu 32.384.028 SNPs em todas as amostras. A filtragem SNP foi conduzida pela aplicação de filtros duros para as variantes raw usando GATK v. 4.0.2.1. Filtramos o conjunto de chamadas raw para excluir SNPs com baixa (<785) e profundidade elevada (>2862) somada em amostras. Nós também excluídos multi-alélica SNPs, SNPs, no prazo de 10 bp de indel polimorfismos, e SNPs que satisfaçam as seguintes condições: QUAL < 30 e QD < 5.0. Os genotipos foram considerados omissos se o DP for inferior a 5 ou superior a 20, bem como SNPs com uma taxa de chamada de genótipo < 80%, ou uma frequência alélica menor abaixo de 0, 01. Estimamos um valor P para cada local a partir de um teste de equilíbrio de Hardy–Weinberg usando VCFtools65 e filtrado SNPs mostrando um excesso de heterozigosidade (teste exato, P < 0,05). Este procedimento rendeu um conjunto de chamadas filtradas de 7,149.205 SNPs.

análise estatística

toda a análise estatística foi realizada na linguagem R de computação estatística, salvo indicação em contrário.a análise LD

LD foi estimada utilizando um método para estimar r2 que é apropriado para dados não baseados (ver VCFtools65). A curva de decaimento LD para o painel GWAS foi calculada como em Flowers et al.4. Resumidamente, o r2 foi calculado para SNPs não faseados com menor frequência alélica superior a 10% usando a opção–geno-ld em VCFtools (v. 0.1.14). As curvas de decaimento foram geradas ajustando uma curva às estimativas de parwise r2 pela distância física entre pares SNP com mínimos quadrados não lineares usando uma abordagem adaptada de Marroni et al.66. A distância de meia-decaimento foi então calculada como a distância a que r2 é metade do seu valor máximo (ou seja, distância de 1 bp).

caracterização da cor dos frutos

oito frutos em fase khalal livres de lesões por data a variedade de Palma foi colhida, lavada com água Da Torneira Para remover qualquer poeira e, em seguida, seca ao ar. Os frutos foram cortados longitudinalmente, e a cor dos frutos foi então medida usando duas estratégias. Primeiro, fotografamos as frutas fatiadas com um verificador de cores em uma caixa de estúdio de fotos de câmera, onde as fotos foram tiradas EM um fundo branco com uma câmera digital. A cor do fruto foi analisada com o ImageJ software67 usando os parâmetros de cor RGB.em segundo lugar, usamos uma abordagem complementar, onde usamos o analisador de tomate software68 v. 2. 2 para obter estimativas dos parâmetros de cor L*, A*, b*. A coordenada L * expressa a escuridão e a luminosidade da cor e varia de preto (0) a branco (100). Coordenadas a* e b * expressa direção de cor, onde +a * está na direção vermelha, −a* na direção Verde, +b* na direção amarela e-b* na direção azul 68. A aquisição e análise de imagens foi feita como descrito em Rodríguez et al.27. Frutos cortados foram colocados em um scanner com fundo preto e cobertos para evitar os efeitos da luz ambiente. Imagens digitalizadas foram salvas como arquivos JPEG e as estimativas dos parâmetros de cor L*, A*, b* foram feitas em cada fruta. A média de todos os frutos foi calculada. Os dois métodos foram altamente correlacionados, então nós usamos o índice de cor a * / b* a fim de avaliar as diferenças nas cores da pele dos frutos e usado para o estudo da Associação.

teor de antocianina total de frutos

antocianina Total foi extraída de três replicados de frutos em fase khalal, a partir de cada data, da variedade de Palma, utilizando frutos snap-congelados em azoto líquido, de acordo com o procedimento descrito em Rabino e Mancinelli69, com pequenas modificações. Resumidamente, a antocianina da pele de frutos congelada (100 mg) foi triturada em pó fino e extraída em 1 ml de metanol ácido (1% HCl) por incubação à temperatura ambiente, no escuro, durante 18 h, seguida de centrifugação durante 10 minutos a 12 000 G. A quantificação da antocianina total foi feita usando a absorvância medida por um espectrofotômetro usando a equação

antocianina Total = (A530-0.25 × A657)/FW, onde A530 e A657 nm são a absorvância e FW é o peso úmido do material vegetal (g).

Fruit size

Fruit photographs used for color analysis (see above) included a ruler as a size standard. O ImageJ67 (v. 2) e o analisador de tomate software27 foram então usados para estimar o comprimento e a largura dos frutos.a sacarose, a glicose e a frutose foram quantificadas a partir de 125 variedades no estádio tamar, quando os frutos estão secos, a maturação está completa e o estádio em que as datas são normalmente consumidas. Os frutos foram congelados a -20 ° C e entre 10 e 15 frutos por variedade foram imediatamente mantidos a -20 °C até à chegada a Montpellier (centro francês de Investigação Agrícola para o Desenvolvimento Internacional, CIRAD), onde foi realizada uma análise de cromatografia líquida de alta resolução. Foi obtida uma única medição a partir de dois frutos agrupados para cada uma das características do açúcar e do ácido. As peças de datação (sem a pedra) foram congeladas com azoto líquido e trituradas em pó, colocadas em dois frascos de vidro estanques separados, armazenados a -20 °C até à recolha de amostras. Para a matéria seca, em duplicado, pesou-se 1 g de amostra e colocou-se num fogão sob vácuo a 70 °C durante 72 horas. verificou-se um controlo durante 4 dias para determinar a duração óptima. Foram realizadas extracções de açúcar utilizando o método adaptado a partir de Bchir et al.70. Para cada amostra, a pasta de 500 mg e 10 ml de etanol a 80% foram colocados num tubo de 15 ml, aquecidos durante 5 minutos a 80 °C num banho-maria. Cada tubo foi então agitado no início manualmente e, em seguida, mecanicamente por 15 minutos para uma melhor propagação. Após centrifugação a 9000 × g (centrifugadora Avanti J-E; Beckman-Coulter, Brea, CA, EUA), o fundo foi extraído duas vezes e os sobrenadantes recolhidos, filtrados a 0,45 µm e injectados. O método foi testado com água ácida (0,01 N H2SO4). Padrões de amostra foram Sigma-Aldrich (St.Louis, MO, EUA) foram utilizados.a amostragem de frutos foi efectuada tal como na secção anterior relativa ao açúcar e ao teor de ácido. A polpa de data de dois frutos foi recuperada e moída com azoto líquido para homogeneizar a amostra e armazenada a -80 °C para obter uma única medição por variedade. O teor de humidade foi determinado gravimetricamente medindo a perda de peso de 2,5 g de amostras de polpa de data, secas a 70 °C até as amostras atingirem um peso estável.

Genome-wide association analysis

we ran the genome-wide association mapping analysis using the Gapit R package25. Para a eficiência computacional e para minimizar problemas de teste múltiplo, mas fornecer uma cobertura densa em relação à distância de decaimento LD, nós usamos um conjunto SNP Aleatório com 5,5% de amostragem descendente (392,948 SNPs). Foi realizada uma CMLM26 utilizando informações sobre a estrutura da população e a parentalidade como covariatas nos genótipos das 157 amostras de tamareiras datadas. A estrutura populacional foi inferida com uma análise principal de componentes (PCA) gerada pelo Gapit usando 1% do SNPs (amostrado aleatoriamente). Gapit utilizou ainda os cinco primeiros componentes do APC(Fig. 1a; dados suplementares 2). Kinship was inferred using the VanRaden algorithm (Supplementary Data 3). Foram identificados PNS significativos utilizando um limiar Bonferroni conservador de P < 1,27 × 10-7. Para traços com resultados significativos, Realizamos ainda uma segunda análise GWAS usando o conjunto SNP completo em determinados LGs onde foram identificados SNPs significativos.

Caracterization of Ibn Majid and the VIR gene

We previously identified a copia-like retrotransposon insertion polymorphism in exon 3 of an R2R3-MYB transcription factor13 (NCBI Gene ID: LOC103717680) que é ortólogo ao gene Virescens (VIR) no óleo palm28. Para caracterizar este retrotransposon, nós amplificamos o elemento longo repetições terminais (bem como a sequência genética VIR adjacente) nas variedades Tory e Empress coletadas da USDA farm em Thermal, Califórnia e da USDA/UC Riverside farm, respectivamente, usando sistemas núcleo GoTaq PCR (Promega, Madison, WI USA) buffer e polimerase.

The primer pairs 5′-TGT GTC CGG CAT TGC ACT TCT-3′ (forward) and 5′-GCT CAA TGT TGA TGT TGT TGT TGG-3′ (reverso) were used for the 5′ LTR, and 5′-ACTC TGA CTA AGT ACT TGA TG-3′ (forward) and 5′-CTG CAC tat TAT CAC AGT AGA TGG-3′ (reverso) for the 3′ LTR. Produtos amplificados foram enviados para Sanger sequenciamento em GeneWiz (South Plainfield, Nova Jersey). Nossa montagem do genoma também contém uma cópia completa da inserção (~11,7 kb). BLAST foi usado para alinhar a inserção contra si mesmo, a fim de identificar as regiões longas repetições terminais correspondentes. O programa Itrdigest71 foi usado para confirmar os resultados da explosão. Uma busca por explosão questionou a sequência completa de Ibn Majid contra o genoma da palma da data para determinar o número de cópias.a Tabela 11 suplementar fornece as coordenadas da nossa anotação manual do gene VIR no conjunto masculino BC4. Genotipagem da inserção Ibn Majid em VIR exon 3 na data variedades de Palma foi realizada por inspeção manual de leituras alinhadas abrangendo a região de inserção em JBrowse72. Uma vez que o conjunto do genoma masculino BC4 tem o alelo de inserção (VIRIM, ver Fig. 3), as leituras mapeadas originárias de tipo selvagem (VIR+), ou alelos não-inserção, são soft-clipped no limite de inserção exon 3. Nós marcamos a presença de leituras soft-clipped (suportando a presença de um VIR+ Alelo) ou leituras unclipped abrangendo o limite de inserção exon 3 (suportando a presença de um alelo de inserção VIRIM) para identificar genótipos. Repetimos este procedimento examinando alinhamentos de leitura nas extremidades 5′ e 3′ da inserção no conjunto masculino BC4 e amostras onde tanto genótipos 5′ e 3′ produziram genótipos correspondentes foram retidos para análise. Tendo em conta o nosso interesse em fenótipos de cores de fruta, nós genotipámos apenas as palmas femininas.

Caracterização das invertases e exclusão de polimorfismos

Exame de genes na composição de açúcares QTL sobre LG 14 (Dados Suplementares 6) inicialmente revelou três posicional candidatos—uma alcalino, neutro invertase (chr14G0028200) e duas adjacentes parede celular invertases (chr14G0022900 e chr14G0023100) previsto pelo nosso gene de anotação de pipeline. Verificamos se há potenciais cópias não anotadas de invertase nesta região, alinhando transcrições previstas para cada um dos três genes para esta região usando a transcrição de Splign para a ferramenta de alinhamento genômico 73. Esta recuperado um sinal de menos vertente sequência (o qual nos referimos como CWINV2), com cerca de homologia para o acompanhamento invertases CWINV1 e CWINV3 em 2,489,373 para 2,485,592, mas vários de inserção/exclusão em regiões homólogas para a invertase CDS exões.

A profundidade de Cobertura para a análise da variação da supressão foi determinada em 500 caixas bp não sobrepostas com samtools bedcov74 (v. 1.9) Usando configurações padrão. Os valores de profundidade em bruto foram normalizados independentemente para cada amostra, dividindo a profundidade em bruto de cada barra pela profundidade em bruto mediana de todos os cestos em LG 14, seguindo-se a transformação de log2, seguindo-se Flowers et al.75. As amostras foram genotipadas em deleção homozigótica e em classes de genótipo alternativas para a deleção de 40 kb por inspeção manual de figos suplementares. 12. Genotipos homozigóticos para a eliminação a montante de A / N-INV1 (Fig. 4, Suplementar Fig. 13) foram chamados definindo um limiar que requer que pelo menos um intervalo de 500 bp na região de deleção de 5 KiB tenha profundidade normalizada log2 menor que -5. Atualmente, não é possível distinguir heterozigotos para alelos de exclusão de inserção homozigotos devido à cobertura moderada em nossos dados de re-sequenciação.para o ensaio da invertase foram escolhidas duas variedades de sacarose e duas variedades de açúcar redutoras. A experiência foi realizada em dois dias com todas as quatro variedades representadas por um único fruto em cada dia. Foram efectuados ensaios numa fase khalal de congelação instantânea de frutos no momento da colheita (ver acima), seguidos de armazenagem a -80 °C. foram obtidos extractos brutos dos frutos de data congelada, na sequência do protocolo de Hasegawa e Smolensky33. Cada fruta congelada foi pulverizada com argamassa e pilão (com sementes removidas), e depois triturada num misturador de cozinha, e 5 g colocada em tampão de extracção a frio (20 ml de NaCl 4,0%, 1 g de polivinilpirrolidona, PVP). Foi realizada uma fase adicional de maceração num homogeneizador de laboratório durante 1-2 minutos. O extrato foi então centrifugado a 20.000 x g por 15 min a 4 °C. O sobrenadante contendo solúvel invertase foi armazenado em gelo e o restante centrifugado uma segunda vez a 20.000 x g por 15 min a 4 °C. O sobrenadante foram combinados e 10 ml dialyzed contra água fria a 4° durante a noite para remover os açúcares do extrato. A amostra foi então dividida e metade da amostra fervida a 100 °C para medir a actividade de fundo a partir do açúcar potencialmente contaminante do fruto. A actividade Invertase dos extractos brutos não enrolados e cozidos foi então medida por ensaio colorimétrico num leitor de microplacas Synergy H1 com um kit de ensaio enzimático acoplado (Sigma catalog No. MAK118) seguindo as instruções do fabricante.

Fruit RNA-Seq analysis

Two RNA-Seq datasets were collected to address questions about fruit development and variation in fruit traits. RNA-Seq em diferentes estágios de desenvolvimento de frutas foi realizado em frutos coletados em 2014 a partir de árvores replicadas localizadas no terreno da Universidade dos Emirados Árabes Unidos, Date Palm Tissue Culture Laboratory em Al-Ain, Emirados Árabes Unidos. Para esta experiência, três ou quatro árvores separadas de Khenezi (uma variedade com frutos vermelhos) e de Khalas (frutos amarelos) foram amostradas repetidamente a 45, 75, 105, 120 e 135 dias após a polinização e frutos congelados com azoto líquido. RNA foi extraído de um único fruto de cada três ou mais árvores por variedade, seguindo protocolos padrão para a preparação da Biblioteca TruSeq, e 2 × 101 bp sequenciamento emparelhado realizado em uma Illumina HiSeq 2500.um segundo experimento foi realizado em khalal stage fruit coletado na fazenda Al-Shuwaib em 2016. Três frutos foram colhidos de cada uma das oito palmas das mãos, cada uma de uma variedade diferente escolhida com base no seu ser ou perto dos extremos da sacarose e na redução das distribuições do tipo açúcar (ou seja, alta e baixa concentração de sacarose). Os frutos foram processados como descrito acima e as bibliotecas construídas com o Kit de preparação da Biblioteca Nextera (Illumina) e a sequenciação de 2 × 76 bp emparelhada realizada em um instrumento NextSeq (Illumina).

expressão Diferencial foi realizada análise por recorte de matérias de seqüenciamento lê com Trimmomatic45 (v 0.36) com parâmetros ILLUMINACLIP:〈adaptador fasta〉:2:30:10 FINAL:3 de LIDERANÇA:3 SLIDINGWINDOW:4:15 MINLEN:36. As leituras foram então alinhadas com o genoma de referência masculino BC4 com a divisão estelar read aligner47 (v. 2.5.3a) e as contagens de leitura geradas por gene, tomando a união de exons com htseq-count76 (v. 0.9.1) definidas para incluir apenas leituras mapeadas (ou seja, opções de contagem de htseq –type = exon–mode = union–nonunique = none). A normalização da contagem de leitura foi realizada com o método median-of-ratios de DESeq277 (v. 1.8.2). Testes de expressão diferencial de Virescens (Pdac_HC_chr4G0137100) entre o vermelho (Khenezi, n = 3 replicar bibliotecas) e amarelo (Khalas, n = 3 ou 4 replicar bibliotecas) variedades foram realizadas separadamente para cada uma das frutas desenvolvimento de pontos de tempo de 45, 75, 105, 120 e 135 dias após a polinização. Os valores de P são relatados para um teste de Wald da hipótese de não haver diferença entre a expressão de Khenezi e Khalas em cada etapa.

RNA-seq análise da expressão gênica diferencial de invertases UM/N-INV1, CWINV1, e CWINV3 (Pdac_HC_chr14G0028200, Pdac_HC_chr14G0022900, e Pdac_HC_chr14G0023100, respectivamente) entre a sacarose (n = 4 variedades) e reduzindo-açúcar tipos (n = 4 variedades) foi realizada através da construção de três bibliotecas por variedade, a partir de RNA extraído de forma independente a partir de três diferentes tipos de frutas, seguido pelo sequenciamento de cada biblioteca. A análise da expressão diferencial entre variedades de tipo sacarose e de tipo redutor foi então realizada alinhando leituras com STAR (ver acima), contando leituras com contagem htseq, e gerando matrizes de contagem bruta em DESeq2. As contagens brutas por gene foram então somadas em bibliotecas para cada variedade, devido a contagens de leitura baixa em algumas bibliotecas. A análise subsequente foi conduzida pela primeira queda de genes de baixa contagem (genes com <10 leituras somadas em todas as 8 amostras) seguida pelo fluxo de trabalho padrão DESeq2 (v. 1.22.2) com quatro replicados biológicos (i.e. em cada grupo de tratamento. Valores P não corrigidos para a hipótese de nenhuma expressão diferencial são apresentados no texto principal para três genes candidatos.o resumo dos Relatórios de investigação sobre a natureza ligado a este artigo contém mais informações sobre a concepção da investigação.