Search

¬ŅQu√© tan grande es tu genoma? ¬ŅCabe en un pendrive?

Autor
Fecha de Publicación
2016/10/19
8 more properties
Hoy en d√≠a hablar de genes es casi tan com√ļn como hablar de‚Ķ no s√©‚Ķ genes. Es un concepto que escuchamos e incluso aplicamos a diario en conversaciones cotidianas para explicar ciertas conductas, rasgos f√≠sicos, personalidades, la conspiraci√≥n de Monsanto, etc. Si el concepto de gen le parece tan com√ļn, imagine lo que ha avanzado la ciencia respecto a estos.

Mucha agua debajo de la hélice

Desde el descubrimiento de la estructura de doble h√©lice del ADN en el a√Īo 1953 (1,1b) ha pasado mucha agua por debajo de¬†la h√©lice. En 1977, por ejemplo, Sanger y su equipo (2) introdujeron un m√©todo que aun utilizamos para poder secuenciar el ADN (al que llamaron adivinen c√≥mo‚Ķ S√≠, ¬ęm√©todo Sanger¬Ľ).
Luego, lleg√≥ a nuestras manos una t√©cnica llamada PCR (por el apellido del cient√≠fico John Pcr... No, en realidad es por la sigla en ingl√©s para Reacci√≥n en Cadena de la Polimerasa), desarrollada el a√Īo 1986 por el qu√≠mico estadounidense Kary Mullis (3). El desarrollo de la PCR¬†le vali√≥ a Mullis, junto con el canadiense Michael Smith, el premio Nobel de Qu√≠mica el a√Īo 1993. Esta t√©cnica nos permite, usando una enzima llamada Taq polimerasa extra√≠da desde una bacteria termorresistente, replicar in-vitro¬†un gen objetivo tantas veces como sea posible, lo que, junto con el m√©todo de secuenciaci√≥n de Sanger, llev√≥ el an√°lisis de los genes a otro nivel.
Pero dos preguntas aparecen como consecuencia: ¬Ņqu√© rayos es un gen? Y ¬Ņqu√© diablos significa ¬ęsecuenciar¬Ľ un gen?
Para la primera pregunta: un gen es lo que llamamos unidad básica de herencia (Darwin, te pienso). Se puede definir como una región del ADN que contiene información genética, la que tiene las instrucciones para poder fabricar unas moléculas llamadas proteínas. Esto define gran parte de que usted sea lo que es.
La suma de todos los genes componen lo que podr√≠amos llamar ¬ęel cat√°logo de caracter√≠sticas que le hacen √ļnico¬Ľ, o genoma, si quiere ponerse t√©cnico.
Ahora, la respuesta a qué significa secuenciar un gen suena sospechosamente simple, aunque no lo sea. Usted podría decir: ver su secuencia, obvio.
La verdad es que sí. En esencia es ver cómo estas cuatro famosas letritas (A, G, T, C, que corresponden a adenina, guanina, timina, citosina) se van empalmando una luego de la otra para formar un gen. Entonces, una secuencia de ADN se ve algo como esto:
AGTCGGTGTGCAACGTGCTATAGCCGTATGGC
¬ŅLo desilusion√©?
No, no me quedé dormido sobre el teclado. Simplemente somos biólogos. La estética no siempre es lo nuestro.

De genes a genomas

Probablemente usted escuch√≥ que, hace un poco m√°s de diez a√Īos, los cient√≠ficos hab√≠an logrado secuenciar por primera vez el genoma humano. Un proyecto que parti√≥ en la d√©cada de 1990 (4) y que fue finalmente presentado el a√Īo 2003 (5) . Fue un tremendo avance: ya no estamos hablando de un gen o de diez, sino de los miles de genes (m√°s de 20.000) que conforman un genoma; en este caso, el humano.
Pero esto avanza r√°pido y, hoy en d√≠a, secuenciar genes masivamente no es tan complejo ni tan caro como hace diez a√Īos. Han aparecido diversos m√©todos que nos permiten secuenciar a este nivel pr√°cticamente lo que queramos, haya o no informaci√≥n de referencia al respecto (6). Incluso podemos secuenciar a nivel de genomas (no necesariamente el genoma completo, pero s√≠ una parte significativa), bichos organismos que no le importan a nadie (s√≥lo a mi <3) o, como le llamamos muchas veces en biolog√≠a, organismos NO modelo (7). Y ya no s√≥lo algunos pocos individuos, sino cientos de una sola pasada. Una maravilla.
Como puede notar, el avance ha sido notable. Sin embargo, a veces las preguntas simples son las que m√°s cuesta responder.

Partir desde las bases

Hace no mucho tiempo, alguien me preguntó:
‚ÄĒ¬ŅCu√°nto pesa un genoma humano?
‚ÄĒ¬ŅA qu√© te refieres?
‚ÄĒDado que todo esto es b√°sicamente informaci√≥n, se debe poder determinar cu√°nto ¬ępesa¬Ľ, ¬Ņno?
Eso nos lleva a preguntas como las siguientes: ¬Ņqu√© tan grande es nuestro genoma? ¬ŅCu√°nto pesa toda la informaci√≥n contenida en nuestro c√≥digo gen√©tico? ¬ŅQu√© tan grande es esa secuencia compuesta por cuatro letras presente en las millones de c√©lulas de su cuerpo que define que usted¬†sea usted?
Lamentablemente, como la est√©tica no es nuestro fuerte, la unidad de medida que usamos para el ¬ępeso¬Ľ de los genes o genomas es bastante poco intuitiva: pares de bases (que abreviamos pb).
Pero eso no nos dice mucho, salvo porque mide… pares de bases (recuerde que A, G, T y C son bases nitrogenadas; como se unen a su base complementaria en esta doble hélice llamada ADN, le llamamos pares de bases). Pero si tuviera que convertir esto en algo más entendible para cualquiera, pensando en que nuestro genoma contiene, básicamente, información, lo más simple es tratar de transformarlo en megabytes.
Lo primero que debemos¬†tener en cuenta antes de intentar la conversi√≥n es que la respuesta siempre depende. ¬ŅDe qu√© depende? Pues de seg√ļn c√≥mo se mire todo depende. Porque conocer el peso de la secuencia completa de ADN al interior de una c√©lula es distinto a calcular el tama√Īo de los datos que podemos efectivamente generar con las t√©cnicas de √ļltima generaci√≥n disponibles, donde la cantidad de informaci√≥n que se genera¬†es mucho mayor... Y¬†m√°s adelante le cuento el porqu√©.

Calculando el tama√Īo

Algunas precisiones:
1.
Vamos a tomar en cuenta la informaci√≥n como si s√≥lo fueran letras (sabemos que cada letra corresponde a lo que llamamos un nucle√≥tido (A, G, T, C), es decir, es un compuesto org√°nico constituido por una base nitrogenada, az√ļcar y √°cido fosf√≥rico;¬†componentes clave de los √°cidos nucleicos como el ADN [y ARN por cierto]).
2.
Consideraremos de forma operacional 1024 bytes como 1 kilobyte. Sin embargo, hace unos a√Īos lleg√≥ el SI (Sistema Internacional, el mismo que dice que un metro es un poco m√°s de 90 cent√≠metros) y dijo: ¬ę¬°Paren! Kilo es 1000, no 1024¬Ľ. Por eso, la forma m√°s correcta es: 1000 bytes = 1 kilobyte (KB) 1024 bytes = 1 kibibyte (Kib) Pero, seg√ļn un est√°ndar, 1024 bytes a√ļn es un kilobyte. Y lo usaremos de esa forma s√≥lo con fines did√°cticos.

Primero, el mundo ideal

Contando las aproximadamente 3.000 millones¬†de letras (6) que componen su genoma, las cuales residen en los 23 pares de cromosomas que hay dentro del n√ļcleo de una de sus c√©lulas, este pesar√≠a algo as√≠ como 715 megabytes. Es decir, usted podr√≠a almacenar toda su informaci√≥n gen√©tica en un CD (para los millenials, un CD es una unidad de almacenamiento antigua con forma de disco que almacenaba alrededor de 700 megabytes de datos, o alrededor de 80 minutos de m√ļsica).

¬ŅDe d√≥nde sale esto?

Pensando en que usted tiene una secuencia completa perfecta de su genoma, lo √ļnico que importa es esa cadena de cuatro letras que lo componen. Por lo tanto lo que ver√≠a es algo as√≠, pero poderoso:
AGCCCCTCAGGAGTCCGGCCACATGGAAACTCCTCATTCCGGAGGTCAGTCAGATTTACCCTGGCTCACCTTGGCGTCGCGTCCGGCGGCAAACTAAGAACACGTCGTCTAAATGACTTCTTAAAGTAGAATAGCGTGTTCTTATACAGACACACTCCTTCCAGCCTCCGAAAAACTCGGACCAAAGATCAGGCTTGTCCGTTCTTCGCTAGTGATGAGACTGCGCCTCTGTTCGTACAACCAATTTAGGTGAGTTCAAACTTCAGGGTCCAGAGGTCTTGCACCAGTATGTAATCTACTTACCCAAACATAGTCAGGGTCCAGAGGCTGATAATCTACTTACCCAAACATAGTCAGGGTCCAGAGGCTGATAATCTACTTACCCAAACATAGTCAGGTGTTTAGCATCGGCGATCCGATCTCGAGGTCCAGAGTTGACTAGGCTCGAATCGATCGAATCGAGGCTGATAATCTACTTACCCAAACATAGTCAGGGTCCAGAGGCTGATAATCTACTTACCCAAACATAGTCAGGGTCCAGAGGTTCATCGAAGATCCGATCGGATCGAGATTCGGAATAAGCTAGCTAGCTTATCTGGAGTCGGACACACCCAAACATAGTCAGGGTCCAGAGGCTGATA
(No, no es el monólogo de uno de los marcianos de Mars Attack.)
Pensando en que cada una de estas letras pesa 2 bits (se puede usar 00, 01, 10, y 11 para T, G, C y A), multiplicado por estos 3.000 millones, nos da algo como 6.000 millones de bits. Luego, podemos transformar estos bits a bytes (para luego llegar a los megabytes). Un bit es simplemente una sola unidad de información digital (un 1 o un 0), pero un byte es una secuencia de bits (generalmente 8). Como los computadores funcionan en binario, 1 kilobyte = 1024 bytes (es decir 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 = 1.024). Por lo que 1 gigabyte regularmente se considera como 1024 megabytes, que es lo mismo que 1.048.576 kilobytes, que a su vez es lo mismo que 1.073.741.824 bytes (ver nota al inicio).
Yo también estoy mareado. Vamos a algo más amigable:
Tomamos entonces esos 6.000 millones de bits y podemos calcular hasta obtener megabytes:
6.000 millones de bits/8= 750.000.000 de bytes.
750.000.000 de bytes/1024 = 732.421,875 kilobytes.
732.421,875 kilobytes/1024 = ~715 megabytes.
El origen de las especies. Charles Darwin
Una cantidad de informaci√≥n respetable, tomando en cuenta que estos ~715 Mb corresponden ¬ęs√≥lo¬Ľ a una secuencia gigante compuesta por 4 letras.
Para comparar, tomaremos como referencia la obra de Darwin El origen de la especies, que¬†tiene aproximadamente 1.000.000 de caracteres (en su versi√≥n en espa√Īol). Como cada caracter tiene la informaci√≥n de un byte, en un genoma completo¬†nos cabe la informaci√≥n de casi 750 ejemplares de la obra magna de¬†este c√©lebre naturalista. Se puede hacer lo mismo para los Principia mathematica de Newton, que tienen aproximadamente 800.000 caracteres. Es decir, la informaci√≥n de casi 1.000 ejemplares del libro fundacional de la f√≠sica newtoniana y del c√°lculo caben ordenaditos en su ADN. Puede hacer la misma cuenta con Papelucho y el marciano (~100.000 caracteres) y ver√≠a¬†que en un genoma completo cabr√≠a¬†la informaci√≥n equivalente a 7.500 ejemplares de este libro¬†de Marcela Paz (tratamos de hacer este mismo ejercicio con la obra de Pilar Sordo, pero no encontramos versiones digitalizadas... Una l√°stima).

El rompecabezas del mundo real

En el mundo real, es dif√≠cil tener un genoma perfecto y sin errores. Es m√°s, si pensamos en un genoma que podr√≠amos estudiar efectivamente, la cifra se eleva de 715 Mb a... ¬°Alrededor de 180 Gb! ¬ŅPor qu√©?
No es que ahora tengamos un genoma m√°s grande que antes, es el mismo, s√≥lo que esta vez la forma en que se presenta la informaci√≥n es distinta. Lo que se hace es generar millones de secuencias cortas llamadas reads o lecturas (regularmente de ~100 pb), las que luego pueden ensamblarse para obtener finalmente la secuencia de un genoma. Pero tambi√©n hay mucha m√°s informaci√≥n extra necesaria para poder confiar en estos datos, como par√°metros de calidad, posici√≥n, etc. En pocas palabras: al tratar de ¬ęsacarle una foto¬Ľ al genoma, esta puede salir borrosa. Para asegurarse de tener la imagen completa, sacamos millones de fotos a¬†partes distintas (y, si usted es como yo, muchas de esas fotos saldr√°n defectuosas). El peso del archivo aumenta, porque tenemos que almacenar muchas ¬ęfotos¬Ľ.
Es como armar un rompecabezas. Uno puede tener una imagen de referencia (o en este caso un genoma de referencia), y tratar de encontrar una forma tal en que todas las piezas logren formar esta imagen. Sólo que, en este rompecabezas, no siempre tenemos todas las piezas, o no todas son de buena calidad, porque el mundo de la ciencia es así. Entonces, la capacidad de estas secuencias cortas para ensamblarse a este gran rompecabezas llamado genoma de referencia se llama cobertura. Es un concepto muy simple, pues por ejemplo, cuando los científicos dicen que secuenciaron un genoma con una cobertura de 30x, lo que quieren decir es simplemente que cada base (A, G, T o C) presente en el genoma fue cubierta por 30 lecturas (o reads). Entre más cobertura, más probabilidades hay de tener todas las piezas del rompecabezas y, por lo tanto, de completar esta imagen/genoma.