Acurácia da Imputação de Marcadores SNPs Entre os Programas Beagle e FImpute

Denizar Silveira de Souza, Josiellen Milano, Bruna Sollero, Henry Carvalho, Marcos Yokoo, Fernando Cardoso

Resumo


Realizada em uma população de 230 animais genotipados com marcadores do tipo SNP (Single Nucleotide Polymorphism), pelo chip da Illumina de alta densidade (HD-777k), separados aleatoriamente em três grupos, sendo dois grupos de 77 animais e um de 76. Foi realizada a exclusão dos SNPs de cada um dos grupos tornando-os em painéis de média densidade (MD-50k). O processo de controle de qualidade dos genótipos, redução dos painéis HD para MD e a preparação dos arquivos de entrada para o FImpute foram executados em scripts desenvolvidos no programa R. Este controle de qualidade foi implementado com o pacote SNPStats (Clayton, 2014) para remover amostras com “call rate” menor que 90%, um desvio de heterozigose maior que 3 desvios-padrão acima ou abaixo da média, amostras com sexo trocado, verificando o cromossoma “X” e amostras duplicadas. Para o controle de qualidade dos SNPs foram utilizados apenas SNPs mapeados nos cromossomos autossomos, com “call rate” maior que 98%, com uma “MAF” (“minor allele frequencies”) maior que 0,03 e dentro do equilíbrio de Hardy-Weinberg (P > 10–7). Além disso, apenas SNPs com a maior MAF foi utilizado quando foram observados SNPs com a mesma posição ou altamente correlacionados (maior que 98%). Após o controle de qualidade o arquivo (HD) ficou com 661.770 SNPs, sendo que os dados em MD contaram com 35.000 SNPs, onde se estudou a imputação de no mínimo 623.820 SNPs. Para os arquivos de entrada do Beagle foram utilizadas ferramentas do terminal Linux e o auxilio do programa Plink para converter os arquivos ASCII (texto) em binário para um melhor desempenho. Posteriormente, foi realizada a imputação dos marcadores deletados do arquivo MD para o HD nos programas Beagle e FImpute com o objetivo de comparar a confiabilidade e desempenho dos programas. O Beagle obteve um resultado de 93,16% (4,46), 92,75% (3,47) e 93,61% (3,79) de acurácia média na imputação, respectivamente. No FImpute obteve-se 94,45% (4,24), 94,21% (3,18) e 94,91% (3,74) de acurácia média na imputação, respectivamente. Com uma diferença exponencial de tempo entre os dois programas, o Beagle necessitou em torno de 6 horas para executar a imputação de cada grupo, enquanto o FImpute precisou de apenas 4 minutos, no mesmo computador a(Processador: Intel(R) Xeon(R) CPU E5-2630, com 24 núcleos de 2.30GHz e 128GB de memória RAM). O programa Beagle teve uma menor acurácia média, de 1,29%, 1,46% e 0,6%, respectivamente para os grupos A, B e C, comparado com o FImpute. Além de ter uma menor média na acurácia de imputação, o Beagle também é muito mais lento em relação ao FImpute.

 


Palavras-chave


alelos; genótipos; genômica;

Texto completo:

DOWNLOAD ARTIGO PDF

Apontamentos

  • Não há apontamentos.