El genoma humano más completo hasta ahora estudiado revela ADN previamente indescifrable

Imagen de cromosomas humanos recién descifrados.Sorpresas esperadas en los brazos cortos (verde) y centrómeros (rosa) de cromosomas humanos recién descifrados.T. POTAPOVA Y J. GERTON/STOWERS INSTITUTE FOR MEDICAL RESEARCH

El genoma humano más completo hasta ahora estudiado revela ADN previamente indescifrable

Una línea celular inusual y múltiples métodos de secuenciación hicieron posible el avance

31 de marzo de 2022

Una versión de esta historia apareció en Science, Vol. 376, Issue 6588.

Cuando se trata de la secuenciacióndel genoma humano, el término "completo" siempre había sido relativo. El primero, descifrado hace 20 años, incluía la mayoría de las regiones que codifican proteínas, pero dejó sin analizar alrededor de 200 millones de bases del ADN, esto es el 8% del genoma humano. Incluso cuando se “terminaron” genomas adicionales, algunos tramos permanecieron fuera de su alcance, porque los segmentos repetitivos del ADN confundieron las tecnologías de secuenciación de la época. Ahora, un esfuerzo internacional ha resuelto esas bases difíciles de leer, produciendo el genoma humano más completo hasta el momento.

En seis artículos de Science, The TelomeretoTelomereConsortium(T2T), llamado así por los capuchones de los extremoscromosómicos, llena todos menos cinco de los cientos de puntos problemáticos restantes, dejando sólo 10 millones de bases y el cromosoma Y que sólo se conocía aproximadamente. Hoy el consorcio T2T anunció en un tweet que había depositado un ensamblaje de secuencia correcta del cromosoma Y faltante.

“No creo que pudiéramos haber imaginado esto incluso hace 5 años, ciertamente no hace 10 años”, dice el bioinformático EwanBirney, subdirector del Laboratorio Europeo de Biología Molecular y parte del Proyecto Genoma Humano original. Los investigadores de T2T dicen que los tramos recién secuenciados revelan puntos calientes para la evolución de los genes y subrayan la historia caótica del genoma humano. “Realmente nos da una idea de las regiones del genoma que han sido invisibles”, dice Deanna Church, una genetista de la compañía de edición génicaInscripta.

Las secuencias previamente indescifrables del genoma que ahora han salido a la vista incluyen los telómeros protectores y los botones densos llamadas centrómeros, que generalmente residen en el medio de cada cromosoma y ayudan a orquestar su replicación. También se revelan casi por completo los brazos cortos de los cinco cromosomas donde los centrómeros están sesgados hacia un extremo. Se sabía que esos brazos cortos contenían decenas de genes que codifican para la columna vertebral de los ribosomas, las fábricas de proteínas de la célula.

Cuando Birney, Church y sus colegas introdujeron ese primer borrador de un genoma humano en 2001, e incluso después de que lo “completaron” y publicaron en 2004, las máquinas secuenciadoras y el software de ensamblaje del genoma no podían vadear áreas donde la secuencia de ADN contenía tramos de bases muy repetitivos: las repeticiones podían omitirse demasiado fácilmente o sus bases se vinculaban incorrectamente. A medida que la tecnología de secuenciación mejoró y los costos disminuyeron, los científicos redujeron el número de brechas o secuencias mal ensambladas, culminando en 2017 con el lanzamiento de un genoma humano llamado GRCh38. Con menos de 1000 lagunas, se convirtió para muchos en la "referencia" con la que se comparan otros genomas humanos.

Pero Karen Miga y Adam Phillippy querían hacerlo mejor. Miga, genetista de la Universidad de California, Santa Cruz, anhelaba aprender las secuencias exactas del distintivo ADN “satélite” que ayuda a formar los centrómeros. Mientras tanto, Phillippy, un bioinformático del Instituto Nacional de Investigación del Genoma Humano, estaba ocupado aprovechando nuevas tecnologías de secuenciación que podían leer tramos muy largos de ADN, reduciendo la necesidad de reconstruir secuencias más cortas. Después de reunirse en una conferencia, unieron fuerzas. Luego, en 2019, Phillippy informó que habían logrado secuenciar el cromosoma X de extremo a extremo, inspirando a docenas de otros investigadores a unirse a la causa. “Realmente esto tomó vida propia”, dice Miga.

Para simplificar la tarea, decidieron usar una línea celular anónima que se derivó hace más de 20 años de un crecimiento inusual extirpado del útero de una mujer: un embarazo fallido llamado lunar, producido cuando un espermatozoide entró en un óvulo que carecía de su propio conjunto de cromosomas. Con sólo el material genético del esperma, tales óvulos no pueden convertirse en un embrión, pero aún pueden replicarse, especialmente si el esperma entrega un cromosoma X en lugar de Y. En una bendición para el proyecto, ambos miembros de los 23 pares de cromosomas de la línea celular resultante son idénticos. Eso "hizo una gran diferencia" para eliminar las brechas porque los secuenciadores no tenían que resolver las diferencias entre los cromosomas de los padres, dice Robert Waterston, genetista de la Universidad de Washington, Seattle, quien colaboró en la dirección del Proyecto del Genoma Humano.

El grupo T2T combinó tecnologías de secuenciación, incluido un dispositivo denominado de nano poros que puede leer 100.000 bases a la vez y otro secuenciador que era más preciso pero sólo podía leer alrededor de 10.000 bases a la vez. Una mejora final en este último método aumentó la precisión, y juntos los tres enfoques permitieron pulir todos menos cinco de los puntos problemáticos finales. “El solo hecho de ver las múltiples formas en que fueron abordados después de esto [muestra] que estos son problemas realmente difíciles”, dice Waterston.

Los aproximadamente 200 millones de bases finalmente en el orden correcto y en el lugar correcto incluyen más de 1900 genes, la mayoría de ellos copias de genes conocidos. Los investigadores catalogaron regiones duplicadas y elementos móviles, material genético de virus que se incorporaron al genoma. Al secuenciar cada centrómero, aprendieron que las regiones duplicadas varían mucho en tamaño, lo inesperado porque estas regiones tienen el mismo propósito en cada cromosoma.

Los brazos cromosómicos cortos contenían otra sorpresa. Como era de esperar, incluyeron múltiples copias, 400 en total, de los genes que codifican para el ARN que se utiliza para producir ribosomas. “Este ADNr fue el último dominó en caer”, ya que fue el más difícil de secuenciar, dice Miga.

Los brazos cortos también están “repletos de [otras] repeticiones”, dice Jennifer Gerton, bióloga cromosómica del Instituto Stowers de Investigación Médica. Estos incluyen elementos móviles, segmentos duplicados y otros tipos de ADN repetitivo, así como muchas copias de genes de otras partes del genoma. “Es sorprendente lo dinámico que puede ser el genoma humano", dice Church. En cinco puntos a lo largo de estos cromosomas, el revoltijo resultante es tan extenso que los investigadores aún no pueden determinar claramente el orden de las bases, aunque tienen una idea aproximada de la secuencia, dice Gerton.

Los brazos cortos son probablemente puntos calientes para la evolución de los genes, señala Phillippy, ya que las copias de genes estacionadas allí son libres de mutar y asumir nuevas funciones. El catálogo de duplicaciones también podría arrojar luz sobre los trastornos neurológicos y del desarrollo, que se han relacionado con variaciones en el número de copias de secuencias específicas. Las modificaciones químicas en el ADN en las áreas repetitivas complejas probablemente también juegan un papel en la enfermedad, y esos cambios han sido mapeados. Debido a que la línea celular utilizada carecía de un cromosoma Y, el grupo T2T secuenció uno de un genoma bien estudiado perteneciente al biólogo de sistemas de la Universidad de Harvard Leonid Peshkin (ver abajo).

A pesar de su último hito, los secuenciadores del genoma humano no están haciendo las maletas. “Todavía hay algo de trabajo por hacer”, dice el colíder del Proyecto Genoma Humano Richard Gibbs, genetista del Baylor Collegeof Medicine. Él y otros investigadores enfatizan que el campo ahora necesita obtener secuencias genómicas igualmente completas de una mayor diversidad de personas para buscar variaciones en los brazos cortos y las otras regiones difíciles de leer, lo que podría desempeñar un papel importante en enfermedades o rasgos.

El equipo de T2T ha comenzado por descifrar 70 genomas más, con un objetivo de 350 de personas de diversos ancestros. Estos genomas, secuenciados como parte del Consorcio de Referencia de Pangenoma Humano, son más difíciles de terminar porque no tienen pares idénticos de cromosomas. Entonces, por ahora, el equipo se ha conformado con genomas de alta calidad que colocan la mayor cantidad posible de bases en sus cromosomas correctos. A continuación, los investigadores planean aplicar todos sus métodos al genoma completo de Peshkin. Y, eventualmente, Phillippy dice: “Queremos que cada genoma sea de telómero a telómero”.

----

Artículo relacionado:

¿De quién es el ADN que constituye el nuevo genoma humano "completo"?

Por Elizabeth Pennisi

Un biólogo de la Universidad de Harvard de 51 años llamado Leonid Peshkin y un hombre anónimo que casi se convirtió en padre hace décadas se han unido inextricablemente en el genoma humano más completo hasta ahora analizado.

El cromosoma Y del genoma proviene de Peshkin, y el resto del ADN secuenciado por The TelomeretoTelomereConsortium (T2T) proviene de un llamado embarazo molar, un crecimiento uterino raro que ocurre cuando un espermatozoide ingresa a un óvulo carente de cromosomas. La célula fertilizada puede copiar los 23 cromosomas del esperma, creando dos conjuntos idénticos, y comenzar a replicarse. Como parte de la investigación sobre cómo se desarrollan estos lunares, UrvashiSurti, genetista de la Universidad de Pittsburgh, quería crear líneas celulares a partir de tales crecimientos. Con el permiso de la junta de revisión institucional de su centro médico y la eliminación de cualquier información que pudiera vincular estos tejidos con los "padres", tuvo éxito en 2001, obteniendo acceso a docenas de crecimientos extirpados por los médicos entre 1981 y 2000.

Surti y otros reconocieron que la composición cromosómica única de estas líneas celulares, que sólo tienen el ADN de uno de los padres, podría hacerlas útiles para los estudios genómicos. En una década, algunos datos genómicos para una línea celular que el equipo de Surti desarrolló, CHM13 (CHM que significa molahidatiforme completa), estaban en bases de datos públicas, dice Adam Phillippy, colíder del Consorcio T2T y bioinformático del Instituto Nacional de Investigación del Genoma Humano (NHGRI). Entonces, después de que Tamara Potapova y Jennifer Gerton, biólogas cromosómicas del Instituto Stowers para la Investigación Médica, confirmaron que CHM13 tenía el número correcto de cromosomas y que ese número no cambió con el tiempo, el consorcio decidió secuenciar su genoma.

Esa decisión se volvió potencialmente problemática en 2019, cuando el NHGRI comenzó a requerir un consentimiento más explícito de los donantes de tejidos y ADN para cualquier "intercambio de datos genómicos". Un libro de 2010 sobre la línea celular HeLa ampliamente estudiada, creada a partir de tejido proporcionado sin saberlo por una mujer llamada HenriettaLacks, había puesto de relieve la necesidad de que los investigadores obtuvieran el consentimiento adecuado de los proveedores de tejidos o sus familias. Hoy en día, se les pide a los donantes que permitan que su material se comparta ampliamente y se utilice en futuras investigaciones. Pero no se solicitó un consentimiento tan detallado a la mujer con el embarazo molar que condujo a CHM13, y mucho menos al hombre cuyo ADN de esperma realmente compone el genoma.

Sin embargo, NHGRI permitió que el trabajo de T2T siguiera adelante, decidiendo que se justificaba una excepción porque gran parte de la secuencia de CHM13 ya se conocía y la línea era muy útil. La pregunta sigue abierta de si el propietario del genoma de CHM13 podría ser identificado utilizando secuencias públicas de ADN en bases de datos de genealogía. Phillippy piensa que no porque el genoma de CHM13 sólo representa la mitad del ADN de esa persona. Incluso si fuera posible, los funcionarios del NHGRI argumentan que no sería ético revelarlo por cualquier motivo, incluso para obtener el consentimiento.

Debido a que CHM13 tiene un cromosoma X pero no Y, el Consorcio T2T agregó el ADN de Peshkin. Él y sus padres ya habían donado tejido para la investigación del ADN como parte del programa Genome in a Bottle de una década de duración coordinado por el Instituto Nacional de Estándares y Tecnología (NIST). Ese programa proporciona secuencias genómicas bien validadas (y líneas celulares y muestras de tejido) para probar nuevas tecnologías y para otros estudios que involucran ADN.

Hace unos meses, Peshkin había llamado al NIST para proponer que el genoma y las líneas celulares que él y su padre habían proporcionado se utilizaran para estudios de envejecimiento. Mientras estaba hablando por teléfono, la agencia le dijo que el grupo T2T estaba secuenciando exhaustivamente el cromosoma X e Y de Peshkin, su formulario de consentimiento original permite el uso a gran escala de su ADN, y planeó que su genoma eventualmente sería el primer genoma humano completo en recibir el tratamiento T2T. “Estoy emocionado de ser parte de esta vanguardia en la ciencia”, dice Peshkin.