Disparan la velocidad de cómputo en Genómica aplicando técnicas Big Data al alineamiento de cadenas de ADN

Un trabajo del CiTIUS y la Fundación Pública Galega de Medicina Xenómica (FPGMX) da lugar a la solución BigBWA, una herramienta capaz de reducir drásticamente los tiempos de ejecución del Burrows-Wheeler Aligner (BWA), software de referencia en genómica.

Imagine que está ante un paisaje tan extenso que no puede abarcar en una única fotografía. Si su dispositivo se lo permite, tal vez decida capturar la escena desde distintos ángulos para obtener una panorámica que refleje con mayor realismo su entorno, pero una vez haya concluido la fase óptica, observará cómo la imagen final –completamente ensamblada- tardará, al menos, unos segundos en aparecer: el tiempo necesario para procesar toda la información.

El alineamiento de las cadenas de ADN capturadas por los sistemas de secuenciación es fundamental en el estudio del genoma. (Unsplash / Pixabay / CiTIUS)

El alineamiento de las cadenas de ADN capturadas por los sistemas de secuenciación es fundamental en el estudio del genoma. (Unsplash / Pixabay / CiTIUS)

La creación de una panorámica a partir de imágenes adyacentes es sólo un ejemplo menor, que ilustra la creciente demanda de recursos computacionales a pequeña escala. Pero donde realmente juegan un papel crucial las tecnologías avanzadas de procesamiento (Computación de Altas prestaciones o HPC, por sus siglas en inglés) es en ámbitos en los que se manejan grandes cantidades de datos, como sucede con frecuencia en ciertas áreas de investigación.

Para los científicos, uno de los ámbitos más exigentes a nivel computacional es el de la biología; tanto, que incluso ha dado lugar al advenimiento de una rama de la ciencia conocida como Bioinformática, encargada de dirimir de qué manera pueden ayudar los computadores a la gestión y análisis de datos biológicos. La Bioinformática encuentra aplicación en muchas y muy variadas disciplinas, pero en lo que respecta al tratamiento de grandes volúmenes de datos, un campo de estudio destaca especialmente sobre todos los demás: la genómica.

Como piezas de un puzle

La secuenciación del ADN es un proceso complejo y costoso, que ha de ser abordado a lo largo de fases sucesivas. Como en el ejemplo del paisaje –cuya captura requería de la toma de varias imágenes para su posterior ensamblado-, los sistemas de secuenciación genética capturan cadenas o fragmentos de ADN a partir de una muestra, que más tarde habrán de ser ‘alineados’ con un genoma de referencia de cara a su posterior estudio e interpretación.

De entre todas las fases implicadas en la secuenciación del genoma, el alineamiento es una de las más costosas a nivel computacional; una barrera que se manifiesta de manera más acuciante conforme aumenta el número de cadenas de ADN que han de ser alineadas, pudiendo alcanzar cifras cercanas a millones, o incluso miles de millones –en la actualidad, las tecnologías de secuenciación más punteras generan hasta 6.000 millones de lecturas de cadenas de ADN en cada ejecución-. Procesar un volumen de información de esa magnitud en un servidor, usando la herramienta de referencia en el campo (conocida como BWA o Burrows-Wheeler Aligner) exige un tiempo de ejecución superior a cuatro días; una respuesta excesivamente lenta, que ha llevado a los profesionales a demandar soluciones para incrementar el rendimiento de los alineadores con el objetivo de obtener resultados en un tiempo razonable.

Tratando de dar respuesta a este desafío científico, los investigadores del CiTIUS presentan ahora en la revista Bioinformatics la solución BigBWA, una nueva herramienta que permite aprovechar las ventajas de las tecnologías Big Data para incrementar el rendimiento de las operaciones de alineado acometidas por BWA. Para ello se sirve de Hadoop, la implementación de código abierto más exitosa del modelo de programación MapReduce introducido por Google; de esta manera, el programador puede concentrar todos sus esfuerzos en el desarrollo del algoritmo llamado a resolver el problema científico que se plantea, ya que el propio Hadoop se encarga de distribuir la carga computacional entre los distintos procesadores o núcleos (cores) de computación, de forma totalmente automática y transparente al usuario.

Los resultados demuestran que el uso de BigBWA se traduce en un incremento espectacular de la eficiencia. Así, mediante la utilización de este software los investigadores lograron reducir el tiempo necesario para alinear los 6.000 millones de cadenas de ADN a tan sólo 8 horas usando un pequeño clúster de computación (6 servidores). En la práctica, esta mejora supone multiplicar por 12 la velocidad actual de cómputo, un salto cualitativo que puede aumentar mucho más en caso de disponer de un mayor número de servidores.

Rápida, robusta y sencilla

La principal ventaja de la herramienta es que consigue dividir la labor de alineamiento de secuencias de ADN en multitud de procesos independientes que pueden ejecutarse al mismo tiempo –tanto en distintos procesadores como en distintos servidores-. Sin embargo, el aspecto más singular del trabajo es que no sólo introduce el paralelismo a nivel de cómputo, sino que presenta también soluciones de almacenamiento distribuido. Una aproximación claramente innovadora en el ámbito de la genómica, que junto a la paralelización del código hace posible reducir drásticamente los tiempos de ejecución

Por otra parte, BigBWA es tolerante a fallos, lo que permite asegurar la correcta finalización de las tareas de alineamiento –incluso si se produjeran errores hardware en alguno de los servidores utilizados durante el proceso-. «Es una solución de software libre que ya está disponible para los profesionales, y puede ejecutarse tanto en pequeños servidores como en sistemas de computación de altas prestaciones». Para Juan Carlos Pichel, investigador principal del equipo responsable del trabajo, «una ventaja sustancial es que el uso de BigBWA no implica ningún tipo de modificación en el código fuente de la herramienta original. Eso significa que cualquier futura actualización en los algoritmos BWA seguirá siendo compatible con nuestra solución».

Facebooktwitterlinkedinmailby feather

Here's your chance to leave a comment!