¿Qué tan grande es tu genoma? ¿Cabe en un pendrive?

Hoy en día hablar de genes es casi tan común como hablar de… no sé… genes. Es un concepto que escuchamos e incluso aplicamos a diario en conversaciones cotidianas para explicar ciertas conductas, rasgos físicos, personalidades, la conspiración de Monsanto, etc. Si el concepto de gen le parece tan común, imagine lo que ha avanzado la ciencia respecto a estos.

Mucha agua debajo de la hélice

Desde el descubrimiento de la estructura de doble hélice del ADN en el año 1953 (1,1b ) ha pasado mucha agua por debajo de la hélice. En 1977, por ejemplo, Sanger y su equipo (2) introdujeron un método que aun utilizamos para poder secuenciar el ADN (al que llamaron adivinen cómo… Sí, «método Sanger»).

Luego, llegó a nuestras manos una técnica llamada PCR (por el apellido del científico John Pcr... No, en realidad es por la sigla en inglés para Reacción en Cadena de la Polimerasa), desarrollada el año 1986 por el químico estadounidense Kary Mullis (3). El desarrollo de la PCR le valió a Mullis, junto con el canadiense Michael Smith, el premio Nobel de Química el año 1993. Esta técnica nos permite, usando una enzima llamada Taq polimerasa extraída desde una bacteria termorresistente, replicar in-vitro un gen objetivo tantas veces como sea posible, lo que, junto con el método de secuenciación de Sanger, llevó el análisis de los genes a otro nivel.

Pero dos preguntas aparecen como consecuencia: ¿qué rayos es un gen? Y ¿qué diablos significa «secuenciar» un gen?

Para la primera pregunta: un gen es lo que llamamos unidad básica de herencia (Darwin, te pienso). Se puede definir como una región del ADN que contiene información genética, la que tiene las instrucciones para poder fabricar unas moléculas llamadas proteínas. Esto define gran parte de que usted sea lo que es.

La suma de todos los genes componen lo que podríamos llamar «el catálogo de características que le hacen único», o genoma, si quiere ponerse técnico.

Ahora, la respuesta a qué significa secuenciar un gen suena sospechosamente simple, aunque no lo sea. Usted podría decir: ver su secuencia, obvio.

La verdad es que sí. En esencia es ver cómo estas cuatro famosas letritas (A, G, T, C, que corresponden a adenina, guanina, timina, citosina) se van empalmando una luego de la otra para formar un gen. Entonces, una secuencia de ADN se ve algo como esto:

AGTCGGTGTGCAACGTGCTATAGCCGTATGGC

¿Lo desilusioné?

No, no me quedé dormido sobre el teclado. Simplemente somos biólogos. La estética no siempre es lo nuestro.

De genes a genomas

Probablemente usted escuchó que, hace un poco más de diez años, los científicos habían logrado secuenciar por primera vez el genoma humano. Un proyecto que partió en la década de 1990 (4 ) y que fue finalmente presentado el año 2003 (5) . Fue un tremendo avance: ya no estamos hablando de un gen o de diez, sino de los miles de genes (más de 20.000) que conforman un genoma; en este caso, el humano.

Pero esto avanza rápido y, hoy en día, secuenciar genes masivamente no es tan complejo ni tan caro como hace diez años. Han aparecido diversos métodos que nos permiten secuenciar a este nivel prácticamente lo que queramos, haya o no información de referencia al respecto (6). Incluso podemos secuenciar a nivel de genomas (no necesariamente el genoma completo, pero sí una parte significativa), bichos organismos que no le importan a nadie (sólo a mi <3) o, como le llamamos muchas veces en biología, organismos NO modelo (7). Y ya no sólo algunos pocos individuos, sino cientos de una sola pasada. Una maravilla.

Como puede notar, el avance ha sido notable. Sin embargo, a veces las preguntas simples son las que más cuesta responder.

Partir desde las bases

Hace no mucho tiempo, alguien me preguntó:

—¿Cuánto pesa un genoma humano? 

—¿A qué te refieres?

 —Dado que todo esto es básicamente información, se debe poder determinar cuánto «pesa», ¿no?

Eso nos lleva a preguntas como las siguientes: ¿qué tan grande es nuestro genoma? ¿Cuánto pesa toda la información contenida en nuestro código genético? ¿Qué tan grande es esa secuencia compuesta por cuatro letras presente en las millones de células de su cuerpo que define que usted sea usted?

Lamentablemente, como la estética no es nuestro fuerte, la unidad de medida que usamos para el «peso» de los genes o genomas es bastante poco intuitiva: pares de bases (que abreviamos pb).

Pero eso no nos dice mucho, salvo porque mide… pares de bases (recuerde que A, G, T y C son bases nitrogenadas; como se unen a su base complementaria en esta doble hélice llamada ADN, le llamamos pares de bases). Pero si tuviera que convertir esto en algo más entendible para cualquiera, pensando en que nuestro genoma contiene, básicamente, información, lo más simple es tratar de transformarlo en megabytes.

Lo primero que debemos tener en cuenta antes de intentar la conversión es que la respuesta siempre depende. ¿De qué depende? Pues de según cómo se mire todo depende. Porque conocer el peso de la secuencia completa de ADN al interior de una célula es distinto a calcular el tamaño de los datos que podemos efectivamente generar con las técnicas de última generación disponibles, donde la cantidad de información que se genera es mucho mayor... Y más adelante le cuento el porqué.

Calculando el tamaño

Algunas precisiones:

Vamos a tomar en cuenta la información como si sólo fueran letras (sabemos que cada letra corresponde a lo que llamamos un nucleótido (A, G, T, C), es decir, es un compuesto orgánico constituido por una base nitrogenada, azúcar y ácido fosfórico; componentes clave de los ácidos nucleicos como el ADN [y ARN por cierto]).

Consideraremos de forma operacional 1024 bytes como 1 kilobyte. Sin embargo, hace unos años llegó el SI (Sistema Internacional, el mismo que dice que un metro es un poco más de 90 centímetros) y dijo: «¡Paren! Kilo es 1000, no 1024». Por eso, la forma más correcta es: 1000 bytes = 1 kilobyte (KB) 1024 bytes = 1 kibibyte (Kib) Pero, según un estándar, 1024 bytes aún es un kilobyte. Y lo usaremos de esa forma sólo con fines didácticos.

Primero, el mundo ideal

Contando las aproximadamente 3.000 millones de letras (6) que componen su genoma, las cuales residen en los 23 pares de cromosomas que hay dentro del núcleo de una de sus células, este pesaría algo así como 715 megabytes. Es decir, usted podría almacenar toda su información genética en un CD (para los millenials, un CD es una unidad de almacenamiento antigua con forma de disco que almacenaba alrededor de 700 megabytes de datos, o alrededor de 80 minutos de música).

¿De dónde sale esto?

Pensando en que usted tiene una secuencia completa perfecta de su genoma, lo único que importa es esa cadena de cuatro letras que lo componen. Por lo tanto lo que vería es algo así, pero poderoso:

AGCCCCTCAGGAGTCCGGCCACATGGAAACTCCTCATTCCGGAGGTCAGTCAGATTTACCCTGGCTCACCTTGGCGTCGCGTCCGGCGGCAAACTAAGAACACGTCGTCTAAATGACTTCTTAAAGTAGAATAGCGTGTTCTTATACAGACACACTCCTTCCAGCCTCCGAAAAACTCGGACCAAAGATCAGGCTTGTCCGTTCTTCGCTAGTGATGAGACTGCGCCTCTGTTCGTACAACCAATTTAGGTGAGTTCAAACTTCAGGGTCCAGAGGTCTTGCACCAGTATGTAATCTACTTACCCAAACATAGTCAGGGTCCAGAGGCTGATAATCTACTTACCCAAACATAGTCAGGGTCCAGAGGCTGATAATCTACTTACCCAAACATAGTCAGGTGTTTAGCATCGGCGATCCGATCTCGAGGTCCAGAGTTGACTAGGCTCGAATCGATCGAATCGAGGCTGATAATCTACTTACCCAAACATAGTCAGGGTCCAGAGGCTGATAATCTACTTACCCAAACATAGTCAGGGTCCAGAGGTTCATCGAAGATCCGATCGGATCGAGATTCGGAATAAGCTAGCTAGCTTATCTGGAGTCGGACACACCCAAACATAGTCAGGGTCCAGAGGCTGATA

(No, no es el monólogo de uno de los marcianos de Mars Attack.)

Pensando en que cada una de estas letras pesa 2 bits (se puede usar 00, 01, 10, y 11 para T, G, C y A), multiplicado por estos 3.000 millones, nos da algo como 6.000 millones de bits. Luego, podemos transformar estos bits a bytes (para luego llegar a los megabytes). Un bit es simplemente una sola unidad de información digital (un 1 o un 0), pero un byte es una secuencia de bits (generalmente 8). Como los computadores funcionan en binario, 1 kilobyte = 1024 bytes (es decir 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 = 1.024). Por lo que 1 gigabyte regularmente se considera como 1024 megabytes, que es lo mismo que 1.048.576 kilobytes, que a su vez es lo mismo que 1.073.741.824 bytes (ver nota al inicio).

Yo también estoy mareado. Vamos a algo más amigable:

Tomamos entonces esos 6.000 millones de bits y podemos calcular hasta obtener megabytes:

6.000 millones de bits/8= 750.000.000 de bytes.

750.000.000 de bytes/1024 = 732.421,875 kilobytes.

732.421,875 kilobytes/1024 = ~715 megabytes.

El origen de las especies. Charles Darwin

Una cantidad de información respetable, tomando en cuenta que estos ~715 Mb corresponden «sólo» a una secuencia gigante compuesta por 4 letras.

Para comparar, tomaremos como referencia la obra de Darwin El origen de la especies, que tiene aproximadamente 1.000.000 de caracteres (en su versión en español). Como cada caracter tiene la información de un byte, en un genoma completo nos cabe la información de casi 750 ejemplares de la obra magna de este célebre naturalista. Se puede hacer lo mismo para los Principia mathematica de Newton, que tienen aproximadamente 800.000 caracteres. Es decir, la información de casi 1.000 ejemplares del libro fundacional de la física newtoniana y del cálculo caben ordenaditos en su ADN. Puede hacer la misma cuenta con Papelucho y el marciano (~100.000 caracteres) y vería que en un genoma completo cabría la información equivalente a 7.500 ejemplares de este libro de Marcela Paz (tratamos de hacer este mismo ejercicio con la obra de Pilar Sordo, pero no encontramos versiones digitalizadas... Una lástima).

El rompecabezas del mundo real

En el mundo real, es difícil tener un genoma perfecto y sin errores. Es más, si pensamos en un genoma que podríamos estudiar efectivamente, la cifra se eleva de 715 Mb a... ¡Alrededor de 180 Gb! ¿Por qué?

No es que ahora tengamos un genoma más grande que antes, es el mismo, sólo que esta vez la forma en que se presenta la información es distinta. Lo que se hace es generar millones de secuencias cortas llamadas reads o lecturas (regularmente de ~100 pb), las que luego pueden ensamblarse para obtener finalmente la secuencia de un genoma. Pero también hay mucha más información extra necesaria para poder confiar en estos datos, como parámetros de calidad, posición, etc. En pocas palabras: al tratar de «sacarle una foto» al genoma, esta puede salir borrosa. Para asegurarse de tener la imagen completa, sacamos millones de fotos a partes distintas (y, si usted es como yo, muchas de esas fotos saldrán defectuosas). El peso del archivo aumenta, porque tenemos que almacenar muchas «fotos».

Es como armar un rompecabezas. Uno puede tener una imagen de referencia (o en este caso un genoma de referencia), y tratar de encontrar una forma tal en que todas las piezas logren formar esta imagen. Sólo que, en este rompecabezas, no siempre tenemos todas las piezas, o no todas son de buena calidad, porque el mundo de la ciencia es así. Entonces, la capacidad de estas secuencias cortas para ensamblarse a este gran rompecabezas llamado genoma de referencia se llama cobertura. Es un concepto muy simple, pues por ejemplo, cuando los científicos dicen que secuenciaron un genoma con una cobertura de 30x, lo que quieren decir es simplemente que cada base (A, G, T o C) presente en el genoma fue cubierta por 30 lecturas (o reads). Entre más cobertura, más probabilidades hay de tener todas las piezas del rompecabezas y, por lo tanto, de completar esta imagen/genoma.