• Home
  • ¿Quiénes somos?
  • Etilmercurio Retrógrado
  • P.A.I.P.E.
  • Arteimerosal
  • Contacto
  • Home
  • ¿Quiénes somos?
  • Etilmercurio Retrógrado
  • P.A.I.P.E.
  • Arteimerosal
  • Contacto

¿Qué tan grande es tu genoma? ¿Cabe en un pendrive?

  • Por Nico Segovia
  • Octubre 19, 2016
  • 8 Comentarios
  • Aladdín, genes, genoma, jarabe de palo, Los Vial, Secuenciación

Hoy en día hablar de genes es casi tan común como hablar de… no sé… genes. Es un concepto que escuchamos e incluso aplicamos a diario en conversaciones cotidianas para explicar ciertas conductas, rasgos físicos, personalidades, la conspiración de Monsanto, etc. Si el concepto de gen le parece tan común, imagine lo que ha avanzado la ciencia respecto a estos.

 

Mucha agua debajo de la hélice

Desde el descubrimiento de la estructura de doble hélice del ADN en el año 1953 (1,1b) ha pasado mucha agua por debajo de la hélice. En 1977, por ejemplo, Sanger y su equipo (2) introdujeron un método que aun utilizamos para poder secuenciar el ADN (al que llamaron adivinen cómo… Sí, «método Sanger»).

Luego, llegó a nuestras manos una técnica llamada PCR (por el apellido del científico John Pcr… No, en realidad es por la sigla en inglés para Reacción en Cadena de la Polimerasa), desarrollada el año 1986 por el químico estadounidense Kary Mullis (3). El desarrollo de la PCR le valió a Mullis, junto con el canadiense Michael Smith, el premio Nobel de Química el año 1993. Esta técnica nos permite, usando una enzima llamada Taq polimerasa extraída desde una bacteria termorresistente, replicar in-vitro un gen objetivo tantas veces como sea posible, lo que, junto con el método de secuenciación de Sanger, llevó el análisis de los genes a otro nivel.

Pero dos preguntas aparecen como consecuencia: ¿qué rayos es un gen? Y ¿qué diablos significa «secuenciar» un gen?

Para la primera pregunta: un gen es lo que llamamos unidad básica de herencia (Darwin, te pienso). Se puede definir como una región del ADN que contiene información genética, la que tiene las instrucciones para poder fabricar unas moléculas llamadas proteínas. Esto define gran parte de que usted sea lo que es.

La suma de todos los genes componen lo que podríamos llamar «el catálogo de características que le hacen único», o genoma, si quiere ponerse técnico.

Ahora, la respuesta a qué significa secuenciar un gen suena sospechosamente simple, aunque no lo sea. Usted podría decir: ver su secuencia, obvio.

La verdad es que sí. En esencia es ver cómo estas cuatro famosas letritas (A, G, T, C, que corresponden a adenina, guanina, timina, citosina) se van empalmando una luego de la otra para formar un gen. Entonces, una secuencia de ADN se ve algo como esto:

 

AGTCGGTGTGCAACGTGCTATAGCCGTATGGC

 

¿Lo desilusioné?

No, no me quedé dormido sobre el teclado. Simplemente somos biólogos. La estética no siempre es lo nuestro.

 

De genes a genomas

Probablemente usted escuchó que, hace un poco más de diez años, los científicos habían logrado secuenciar por primera vez el genoma humano. Un proyecto que partió en la década de 1990 (4) y que fue finalmente presentado el año 2003 (5) . Fue un tremendo avance: ya no estamos hablando de un gen o de diez, sino de los miles de genes (más de 20.000) que conforman un genoma; en este caso, el humano.

Pero esto avanza rápido y, hoy en día, secuenciar genes masivamente no es tan complejo ni tan caro como hace diez años. Han aparecido diversos métodos que nos permiten secuenciar a este nivel prácticamente lo que queramos, haya o no información de referencia al respecto (6). Incluso podemos secuenciar a nivel de genomas (no necesariamente el genoma completo, pero sí una parte significativa), bichos organismos que no le importan a nadie (sólo a mi <3) o, como le llamamos muchas veces en biología, organismos NO modelo (7). Y ya no sólo algunos pocos individuos, sino cientos de una sola pasada. Una maravilla.

Como puede notar, el avance ha sido notable. Sin embargo, a veces las preguntas simples son las que más cuesta responder.

 

Partir desde las bases

Hace no mucho tiempo, alguien me preguntó:

—¿Cuánto pesa un genoma humano?
—¿A qué te refieres?
—Dado que todo esto es básicamente información, se debe poder determinar cuánto «pesa», ¿no?

Eso nos lleva a preguntas como las siguientes: ¿qué tan grande es nuestro genoma? ¿Cuánto pesa toda la información contenida en nuestro código genético? ¿Qué tan grande es esa secuencia compuesta por cuatro letras presente en las millones de células de su cuerpo que define que usted sea usted?

Lamentablemente, como la estética no es nuestro fuerte, la unidad de medida que usamos para el «peso» de los genes o genomas es bastante poco intuitiva: pares de bases (que abreviamos pb).

Pero eso no nos dice mucho, salvo porque mide… pares de bases (recuerde que A, G, T y C son bases nitrogenadas; como se unen a su base complementaria en esta doble hélice llamada ADN, le llamamos pares de bases). Pero si tuviera que convertir esto en algo más entendible para cualquiera, pensando en que nuestro genoma contiene, básicamente, información, lo más simple es tratar de transformarlo en megabytes.

Lo primero que debemos tener en cuenta antes de intentar la conversión es que la respuesta siempre depende. ¿De qué depende? Pues de según cómo se mire todo depende. Porque conocer el peso de la secuencia completa de ADN al interior de una célula es distinto a calcular el tamaño de los datos que podemos efectivamente generar con las técnicas de última generación disponibles, donde la cantidad de información que se genera es mucho mayor… Y más adelante le cuento el porqué.

 

Calculando el tamaño

Algunas precisiones: 

  1. Vamos a tomar en cuenta la información como si sólo fueran letras (sabemos que cada letra corresponde a lo que llamamos un nucleótido (A, G, T, C), es decir, es un compuesto orgánico constituido por una base nitrogenada, azúcar y ácido fosfórico; componentes clave de los ácidos nucleicos como el ADN [y ARN por cierto]).
  2. Consideraremos de forma operacional 1024 bytes como 1 kilobyte. Sin embargo, hace unos años llegó el SI (Sistema Internacional, el mismo que dice que un metro es un poco más de 90 centímetros) y dijo: «¡Paren! Kilo es 1000, no 1024». Por eso, la forma más correcta es:

    1000 bytes = 1 kilobyte (KB)
    1024 bytes = 1 kibibyte (Kib)

    Pero, según un estándar, 1024 bytes aún es un kilobyte. Y lo usaremos de esa forma sólo con fines didácticos.

Primero, el mundo ideal

Contando las aproximadamente 3.000 millones de letras (6) que componen su genoma, las cuales residen en los 23 pares de cromosomas que hay dentro del núcleo de una de sus células, este pesaría algo así como 715 megabytes. Es decir, usted podría almacenar toda su información genética en un CD (para los millenials, un CD es una unidad de almacenamiento antigua con forma de disco que almacenaba alrededor de 700 megabytes de datos, o alrededor de 80 minutos de música).

 

¿De dónde sale esto?

Pensando en que usted tiene una secuencia completa perfecta de su genoma, lo único que importa es esa cadena de cuatro letras que lo componen. Por lo tanto lo que vería es algo así, pero poderoso:

luksic-video-3

AGCCCCTCAGGAGTCCGGCCACATGGAAACTCCTCATTCCGGAGGTCAGTCAGATTTACCCTGGCTCACCTTGGCGTCGCGTCCGGCGGCAAACTAAGAACACGTCGTCTAAATGACTTCTTAAAGTAGAATAGCGTGTTCTTATACAGACACACTCCTTCCAGCCTCCGAAAAACTCGGACCAAAGATCAGGCTTGTCCGTTCTTCGCTAGTGATGAGACTGCGCCTCTGTTCGTACAACCAATTTAGGTGAGTTCAAACTTCAGGGTCCAGAGGTCTTGCACCAGTATGTAATCTACTTACCCAAACATAGTCAGGGTCCAGAGGCTGATAATCTACTTACCCAAACATAGTCAGGGTCCAGAGGCTGATAATCTACTTACCCAAACATAGTCAGGTGTTTAGCATCGGCGATCCGATCTCGAGGTCCAGAGTTGACTAGGCTCGAATCGATCGAATCGAGGCTGATAATCTACTTACCCAAACATAGTCAGGGTCCAGAGGCTGATAATCTACTTACCCAAACATAGTCAGGGTCCAGAGGTTCATCGAAGATCCGATCGGATCGAGATTCGGAATAAGCTAGCTAGCTTATCTGGAGTCGGACACACCCAAACATAGTCAGGGTCCAGAGGCTGATA

(No, no es el monólogo de uno de los marcianos de Mars Attack.)

Pensando en que cada una de estas letras pesa 2 bits (se puede usar 00, 01, 10, y 11 para T, G, C y A), multiplicado por estos 3.000 millones, nos da algo como 6.000 millones de bits. Luego, podemos transformar estos bits a bytes (para luego llegar a los megabytes). Un bit es simplemente una sola unidad de información digital (un 1 o un 0), pero un byte es una secuencia de bits (generalmente 8). Como los computadores funcionan en binario, 1 kilobyte = 1024 bytes (es decir 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 = 1.024). Por lo que 1 gigabyte regularmente se considera como 1024 megabytes, que es lo mismo que 1.048.576 kilobytes, que a su vez es lo mismo que 1.073.741.824 bytes (ver nota al inicio).

Yo también estoy mareado. Vamos a algo más amigable:

Tomamos entonces esos 6.000 millones de bits y podemos calcular hasta obtener megabytes:

6.000 millones de bits/8= 750.000.000 de bytes.

750.000.000 de bytes/1024 = 732.421,875 kilobytes.

732.421,875 kilobytes/1024 = ~715 megabytes.

 

803703715_116722_3054654563842152256

El origen de las especies. Charles Darwin

Una cantidad de información respetable, tomando en cuenta que estos ~715 Mb corresponden «sólo» a una secuencia gigante compuesta por 4 letras. 

Para comparar, tomaremos como referencia la obra de Darwin El origen de la especies, que tiene aproximadamente 1.000.000 de caracteres (en su versión en español). Como cada caracter tiene la información de un byte, en un genoma completo nos cabe la información de casi 750 ejemplares de la obra magna de este célebre naturalista. Se puede hacer lo mismo para los Principia mathematica de Newton, que tienen aproximadamente 800.000 caracteres. Es decir, la información de casi 1.000 ejemplares del libro fundacional de la física newtoniana y del cálculo caben ordenaditos en su ADN. Puede hacer la misma cuenta con Papelucho y el marciano (~100.000 caracteres) y vería que en un genoma completo cabría la información equivalente a 7.500 ejemplares de este libro de Marcela Paz (tratamos de hacer este mismo ejercicio con la obra de Pilar Sordo, pero no encontramos versiones digitalizadas… Una lástima).

 

El rompecabezas del mundo real

En el mundo real, es difícil tener un genoma perfecto y sin errores. Es más, si pensamos en un genoma que podríamos estudiar efectivamente, la cifra se eleva de 715 Mb a… ¡Alrededor de 180 Gb! ¿Por qué?

No es que ahora tengamos un genoma más grande que antes, es el mismo, sólo que esta vez la forma en que se presenta la información es distinta. Lo que se hace es generar millones de secuencias cortas llamadas reads o lecturas (regularmente de ~100 pb), las que luego pueden ensamblarse para obtener finalmente la secuencia de un genoma. Pero también hay mucha más información extra necesaria para poder confiar en estos datos, como parámetros de calidad, posición, etc. En pocas palabras: al tratar de «sacarle una foto» al genoma, esta puede salir borrosa. Para asegurarse de tener la imagen completa, sacamos millones de fotos a partes distintas (y, si usted es como yo, muchas de esas fotos saldrán defectuosas). El peso del archivo aumenta, porque tenemos que almacenar muchas «fotos».

rompecabezasEs como armar un rompecabezas. Uno puede tener una imagen de referencia (o en este caso un genoma de referencia), y tratar de encontrar una forma tal en que todas las piezas logren formar esta imagen. Sólo que, en este rompecabezas, no siempre tenemos todas las piezas, o no todas son de buena calidad, porque el mundo de la ciencia es así. Entonces, la capacidad de estas secuencias cortas para ensamblarse a este gran rompecabezas llamado genoma de referencia se llama cobertura. Es un concepto muy simple, pues por ejemplo, cuando los científicos dicen que secuenciaron un genoma con una cobertura de 30x, lo que quieren decir es simplemente que cada base (A, G, T o C) presente en el genoma fue cubierta por 30 lecturas (o reads). Entre más cobertura, más probabilidades hay de tener todas las piezas del rompecabezas y, por lo tanto, de completar esta imagen/genoma.

Entonces, siguiendo en lo nuestro, ya no es una secuencia limpia de letras, sino que es algo así:

Seq_1

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT

+

!’’*((((***+))%%%++)(%%%%).1***-

+*’’))**55CCF>>>>>>CCCCCCC65

Parecen garabatos, pero tenemos millones de pequeñas secuencias de este mismo estilo a lo largo de todo nuestro archivo. Esta vez se incluyen también algunos códigos sólo legibles por un computador. Así se ven las piezas del rompecabezas. La pasamos muy bien armándolo (?).

ensamble

Un esquema un poco más realista del rompecabezas.

Para no complicar mucho las cosas, vamos nuevamente a pensar en un número fijo de 3.000 millones de letras en el genoma humano y que tenemos una cobertura justamente de 30x. Como entonces cada letra es cubierta unas 30 veces, tenemos la no despreciable suma de 90.000 millones de letras en este archivo, lo que ocupa casi 90 gigabytes en un disco duro. Considerando que estos archivos contienen tanto secuencias como parámetros de calidad (esos garabatos), el tamaño total es aproximadamente el doble, es decir, unos 180 gigabytes.

Entonces, ante la pregunta «¿qué tan grande es un archivo que contiene un genoma humano?», la respuesta es: en un mundo ideal, usted puede andar trayendo todo en un CD; en el mundo real, usted tendrá que conseguir un disco duro de al menos 180 gigabytes (para un solo genoma), pues estará mucho tiempo armando el rompecabezas antes de quedarse con sólo la información que es útil (715 Mb).

Es decir, si usted pertenece a la extensa familia Vial, necesitará probablemente varios discos duros de más de 1Tb para almacenar la información contenida en todos los genomas antes de armarlos. 

Referencias

  1. Watson J.D & Crick F.H.C. 1953. A Structure for Deoxyribose Nucleic Acid. Nature, 171: 737-738; 1b: Wilkins M.H.F., A.R. Stokes A.R. & Wilson, H.R., 1953, Molecular Structure of Deoxypentose Nucleic Acids. Nature 171, 738-740.
  2. Sanger F, Nicklen S, Coulson AR, 1977, DNA sequencing with chain-terminating inhibitors. PNAS. 74(12):5463-7
  3. Mullis K, Faloona F, Scharf S, Saiki R, Horn G, Erlich H, 1986, Specific enzymatic amplification of DNA in vitro: the polymerase chain reaction. Cold Spring Harb Symp Quant Biol. 51 Pt 1:263-73.
  4. Adams et al. 1991. Complementary DNA sequencing: expressed sequence tags and human genome project. Science, 252(5013), 1651-1656.
  5. Francis S. Collins, Michael Morgan, Aristides Patrinos, 2003. The Human Genome Project: Lessons from Large-Scale Biology. Science. 300 (5617): 286-290
  6. The Human Genome Project Completion: Frequently Asked Questions. Disponible acá
  7. Hohenlohe PA, Amish SJ, Catchen JM, Allendorf FW, Luikart G. (2011). Next-generation RAD sequencing identifies thousands of SNPs for assessing hybridization between rainbow and westslope cutthroat trout. Molecular Ecology Resources. 11(Suppl 1): 117–122.
  8. Ellegren, H. (2014). Genome sequencing and population genomics in non-model organisms. Trends in Ecology & Evolution, 29(1), 51–63. doi:10.1016/j.tree.2013.09.008.
  9. Reid J. Robison. How big is the human genome? In megabytes, not base pairs. [Internet]. Precision Medicine. 2014. Disponible acá
 1

8 Comments

andres
  • Oct 19 2016
  • Responder
Buen articulo, bien explicado, felicitaciones! hay un richard dawkins que explica lo del rompecabezas y tambien calcula el peso del gen, espero encontrarlo.
Daniel
  • Oct 19 2016
  • Responder
ERRATA: "1000 bytes = 1 megabyte (MB); 1024 bytes = 1 mebibyte (MiB)" Noooo!!!! 1024 bytes es un kilobyte (kB), 2 elevado a 10 bytes; un MEGAbyte (MB) serían 1024*1024 bytes, es decir 1048576 bytes (2 elevado a 20 bytes). Pero los humanos no-informaticos no tienen tanta memoria para números tan raros, por eso es que se confunden y prefieren los limpios 1000 y 1000000 de los prefijos k y M del SI: "Historical context* Once upon a time, computer professionals noticed that 210 was very nearly equal to 1000 and started using the SI prefix "kilo" to mean 1024. That worked well enough for a decade or two because everybody who talked kilobytes knew that the term implied 1024 bytes. But, almost overnight a much more numerous "everybody" bought computers, and the trade computer professionals needed to talk to physicists and engineers and even to ordinary people, most of whom know that a kilometer is 1000 meters and a kilogram is 1000 grams." [ http://physics.nist.gov/cuu/Units/binary.html ] Y como eso lleva a confusión, OK, 1024 bytes entonces es 1 kiB aplicando esa norma IEC, pero ¡¡¡POR NINGÚN MOTIVO 1 MiB!!! Atentamente, un ingeniero de software...
    Nico Segovia
    • Oct 19 2016
    • Responder
    Tiene razón. Ya lo corregimos y todo bien. No tenía para que gritarnos. Espero le haya gustado el resto.
Juan
  • Oct 20 2016
  • Responder
Muy buen artículo!! En particular la comparación con el puzzle. De hecho es un ejemplo que siempre usamos para mostrar el desafió de ensamblar secuencias...y se hace mas difícil si una empieza a incluir mas cosas, como las limitaciones técnicas (pedazos que uno no tiene), repeticiones (pedazos iguales), etc. Lo que quería comentar era sobre el tamaño del genoma en si. Lo que uno quiere llevar de un lado a otro son solo los 715Mb del genoma, ya que esa es la información útil (el libro). Los 180Gb los utilizas para armar ese libro, pero después de eso no tienes que andar llevándolos de un lado a otro (a menos que uno sea ñoño y le gusten esas cosas..jejeje). Así que si puedes guardar la información de tu genoma en un CD...o en discos Zip! (a la salida recojo el carnet, gracias).
    Nico Segovia
    • Oct 20 2016
    • Responder
    Muchas gracias por tu comentario, Juan. De hecho, modifiqué un poco esa parte para que no quede la sensación de que el genoma que se genera es más grande, aunque lo precisamos en un inicio. Pero es mejor no dejar espacio a dudas. Saludos!!
Marcelo
  • Oct 20 2016
  • Responder
Interesante, sólo pensemos en lo compleja que es la molécula del ADN, quizás no es tan descabellado que su procedencia sea externa a la formación de nuestro planeta, creo que una vez escuche que es más probable que un tornado entre a un hangar lleno de piezas de un airbus y dispersas y al momento de salir este armado el avion que una molécula con ese nivel de sofisticación partiera de cero sobre la superficie de nuestro planeta.
    Flipper
    • Ene 23 2018
    • Responder
    Bueno yo ya pienso en pillar la inmortalidad y la panacea de todas las enfermedades que sería como chekearte el genoma o craquearte el adn a través de insertores de jodida información escrita en BN ,insertada y dirigida por un conjunto proteico curioso e insertadas a través de un virus con un pinchazo,,además el vih el muy cabron posee una proteína llamada TAT que interactúa con PTEBb y aparcado Arn pasado a adn e insertado en el genoma mira el Watson y el Crick digieron la cita y por último esta clarísimo que el lenguaje de la química fue creado por algo,alguien llámalo como uno quiera y esta claro aunque mi gremio esta comprado por las élites,existen civilizaciones extraterrestres en torno a 10-15 aňos luz pues es lo obvio cuando se estudia la vida,si te mola la ciencia meterle caňa que es leche ,)
Flipper
  • Ene 23 2018
  • Responder
Yo estudio la medicina y la verdad es que al final todos los putos códigos fuentes del cosmos se escriben igual y la falta poco para que podamos pillar la jodida inmortalidad además de conexiones computadora-conscientes y podamos meternos conscientemente en un podido videojuego online donde tienes totalidad de facultades de los niveles telen-diencefalicos,claro este controlado por un software del 15 .Viva la putativo ciencia buen artículo :-)

Leave Reply Cancelar respuesta

Su dirección de correo no se hará público. Los campos requeridos están marcados *

Demuestra que no eres un Robot (o al menos eres uno con sentimientos) *

Tienes ojos (u otro dispositivo compatible) para leer correo? Entérate de nuestros nuevos posts suscribiendote acá

* campo obligatorio
Artículos destacados

  • P.A.I.P.E. – LA VACUNA DEL VPH - Parte 1

  • P.A.I.P.E. MAREAS ROJAS
Comic zans

  • MIENTRAS TANTO EN LOS CUARTELES DE ETILMERCURIO – ETILMERCURIO RETURNS
Secciones
  • Especial Coronavirus
  • Etilmercurio Retrógrado
  • Todos los posts
  • EtilmerCurie
  • Arteimerosal
  • Comic Zans
  • Random Post
  • P.A.I.P.E.
  • PSLP (Por Si Lo Preguntan)
Ultimos Posts
  • MIENTRAS TANTO EN LOS CUARTELES DE ETILMERCURIO – A VOTAR
  • La preguntación de la Constitución
  • ¿De qué hablamos cuando hablamos de nueva Constitución?
  • La Constitución tiene mucha emoción
  • Etilmercurio Retrógrado | Cuarentena Parte 9 | 10/09/2020
Archivos
  • Octubre 2020
  • Septiembre 2020
  • Julio 2020
  • Junio 2020
  • Mayo 2020
  • Abril 2020
  • Marzo 2020
  • Febrero 2020
  • Enero 2020
  • Diciembre 2019
  • Noviembre 2019
  • Octubre 2019
  • Septiembre 2019
  • Julio 2019
  • Abril 2019
  • Marzo 2019
  • Febrero 2019
  • Enero 2019
  • Diciembre 2018
  • Noviembre 2018
  • Octubre 2018
  • Septiembre 2018
  • Agosto 2018
  • Julio 2018
  • Junio 2018
  • Mayo 2018
  • Abril 2018
  • Marzo 2018
  • Febrero 2018
  • Enero 2018
  • Diciembre 2017
  • Noviembre 2017
  • Octubre 2017
  • Septiembre 2017
  • Agosto 2017
  • Julio 2017
  • Junio 2017
  • Mayo 2017
  • Abril 2017
  • Marzo 2017
  • Febrero 2017
  • Enero 2017
  • Diciembre 2016
  • Noviembre 2016
  • Octubre 2016
  • Septiembre 2016

Voces de Chernóbil: el horror de la ignorancia

Previous thumb

Leche de demonia: las pequeñas grandes cosas que nos llevan a triunfar

Next thumb
Scroll
  • Home
  • ¿Quiénes somos?
  • P.A.I.P.E.
  • Arteimerosal
  • Observatorio de Medios
  • PSLP (Por Si Lo Preguntan)
  • Publica en Etilmercurio 
  • Suscribete a Etilmercurio
  • Contacto
Artículos recientes
  • MIENTRAS TANTO EN LOS CUARTELES DE ETILMERCURIO – A VOTAR
  • La preguntación de la Constitución
  • ¿De qué hablamos cuando hablamos de nueva Constitución?
2016 Etilmercurio Licencia de Creative Commons Este obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
Diseño web y Gráfica estudio uno