El uso de un enfoque pangenómico en lugar de emplear un único genoma de referencia permite una caracterización más completa de las variaciones genéticas y puede mejorar los análisis genómicos utilizados por una amplia gama de investigadores y clínicos. Crédito: Elena Zhukova.

Nueva herramienta mapea secuencias genómicas con un enfoque “pangenómico”

17 de diciembre de 2021 | Historia original de UC Santa Cruz

Desde la primera secuenciación de un genoma humano hace más de 20 años, el estudio de los genomas humanos se ha basado casi exclusivamente en un único genoma de referencia con el que se comparan otros para identificar variaciones genéticas. Los científicos han reconocido durante mucho tiempo que un solo genoma de referencia no puede representar la diversidad humana y que su uso introduce un sesgo generalizado en estos estudios. Ahora, finalmente tienen una alternativa práctica.

En un artículo publicado en Science, investigadores del Instituto de Genómica de la UC Santa Cruz han introducido una nueva herramienta, llamada Giraffe, que puede mapear eficientemente nuevas secuencias del genoma con una perspectiva“pangenómica” que representa la diversidad de muchas secuencias del genoma humano. Los autores muestran que este enfoque permite una caracterización más completa de las variaciones genéticas y puede mejorar los análisis genómicos utilizados por una amplia gama de investigadores y clínicos.

“Hemos estado trabajando para lograr esto durante años, y ahora por primera vez tenemos algo práctico que funciona rápido y funciona mejor que el genoma de referencia única”, dijo el autor para correspondencia Benedict Paten, profesor asociado de ingeniería biomolecular en UC Santa Cruz y director asociado del Instituto de Genómica. “Para el futuro de la biomedicina es importante que la genómica ayude a todos por igual, por lo que necesitamos herramientas que tengan en cuenta la diversidad de las poblaciones humanas y no estén sesgadas”.

Todos los humanos tenemos los mismos genes, pero hay muchas variaciones en las secuencias exactas de los genes, es decir, la secuencia de subunidades de ADN (abreviado A, C, T, G) que detallan la información genética codificante, así como en los vastos tramos del genoma por fuera de los genes codificantes de las proteínas. Una diferencia en una sola letra de código se denomina variante de un solo nucleótido (SNV), y las inserciones o deleciones de secuencias cortas se conocen colectivamente como "indels".

Variaciones estructurales

Las variantes más complejas son las variaciones estructurales que implican reordenamientos de grandes segmentos de código (50 o más letras). Estos son especialmente difíciles de encontrar utilizando un único genoma de referencia, sin embargo, pueden tener efectos significativos y se sabe que desempeñan un papel importante en algunas enfermedades. Una persona promedio tiene millones de SNV e indels y decenas de miles de variantes estructurales más grandes, y colectivamente las variantes estructurales en realidad involucran más letras de código que los otros tipos de variantes.

“Los caballos de batalla de la genómica han sido los SNV y los indels cortos, mientras que las variantes estructurales se han soslayado”, señaló Paten. “La pangenómica está haciendo visibles las variantes estructurales para que podamos estudiarlas de la misma manera que lo hacemos con los SNV y los indels cortos. Hay muchas variantes estructurales y pueden tener un gran impacto, por lo que esto es fundamental para el futuro de los estudios genéticos de enfermedades”.

Se puede crear una referencia pangenómica a partir de múltiples secuencias del genoma utilizando una estructura de grafos matemáticos para representar las relaciones entre diferentes secuencias. En el nuevo artículo, los investigadores construyeron dos gráficos de referencia del genoma humano utilizando datos disponibles públicamente. Estos se utilizaron para evaluar la nueva herramienta, Giraffe, que es un conjunto de algoritmos para mapear nuevos datos de secuencia a una referencia pangenómica.

El primer autor JouniSirén, científico investigador del Instituto de Genómica fue pionero en muchas de las innovaciones algorítmicas clave de Giraffe. Este puede mapear con precisión nuevos datos de secuencia en miles de genomas incrustados en una referencia pangenómica tan rápidamente como lo hacen las herramientas existentes empleando un único genoma de referencia. El estudio también mostró que el uso de Giraffe reduce el sesgo de mapeo, la tendencia a mapear incorrectamente secuencias que difieren del genoma de referencia.

“No sólo es mejor el análisis, sino que también es tan rápido como los métodos actuales que utilizan un genoma de referencia lineal", dijo el primer coautor Jean Monlong, investigador postdoctoral en el Instituto de Genómica.

Genotipado

La secuenciación de lectura corta de bajo costo es un pilar de la genómica moderna, que produce fragmentos de secuencia que deben asignarse a un genoma de referencia para darles sentido. El mapeo muestra dónde pertenece cada fragmento en uno de los 23 cromosomas humanos e identifica las variantes presentes en cada ubicación en el genoma de un individuo, un proceso conocido como genotipado.

Los investigadores encontraron que la variante de aprendizaje profundo de Google Health, DeepVariant, podría identificar con mayor precisión los SNV e indels utilizando las alineaciones de Giraffe contra un pangenoma, que usando alineaciones contra un solo genoma de referencia.
Monlong dijo que estaba muy entusiasmado con el uso de la pangenómica para estudiar variantes estructurales.

Recientemente se han descubierto muchas variantes estructurales utilizando secuenciación de lectura larga”, dijo Monolog. “Con los pangenomas, podemos buscar estas variantes estructurales en grandes conjuntos de datos de secuenciación de lectura corta. Es emocionante porque esto nos permitirá estudiar esas nuevas variantes estructurales en muchas personas y hacer preguntas sobre su impacto funcional, asociación con la enfermedad o papel en la evolución".

Los investigadores utilizaron Giraffe para mapear lecturas de secuencias de un grupo diverso de 5,202 personas y determinar sus genotipos para 167,000 variaciones estructurales recientemente descubiertas. Esto les permitió estimar la frecuencia de diferentes versiones de estas variantes estructurales en la población humana en su conjunto y dentro de las subpoblaciones individuales. Mostraron que la frecuencia de algunas variantes difiere considerablemente entre las subpoblaciones y podría malinterpretarse si se analizara solo en, por ejemplo, poblaciones de ascendencia europea donde la frecuencia de una variante en particular es baja.

Un solo genoma de referencia debe elegir una versión de cualquier variación para representar, dejando las otras versiones sin representación. Al hacer que las referencias pangenómicas más ampliamente representativas sean prácticas, Giraffe puede hacer que la genómica sea más inclusiva.

Paten y otros en el Instituto de Genómica de UC Santa Cruz están involucrados en un importante esfuerzo financiado por el Instituto Nacional de Investigación del Genoma Humano para construir una referencia integral del pangenoma humano, que esperan lanzar el próximo año como un recurso para la comunidad científica.

Referencia

SirénJouni, Monlong Jean, Chang Xian, et al. Pangenomics enables genotyping of known structural variants in 5202 diverse genomes. Science. 374(6574):abg8871. doi: 10.1126/science.abg8871.




El contenido al que intenta acceder no se encuentra disponible para su dispositivo.

En breve este contenido estará disponible.