La inteligencia artificial en el estudio de los genomas

Emanuel Villafán de la Torre

 En las últimas décadas, el avance de las tecnologías de secuenciación de nueva generación ha permitido la obtención de grandes volúmenes de datos genéticos, transformando así los estudios genómicos que antes se limitaban a unos pocos genes o regiones específicas del ADN. Este cambio ha impulsado la necesidad de nuevos métodos de análisis, donde el aprendizaje computacional o machine learning ha desempeñado un papel crucial.

Esta integración tecnológica ha permitido explorar en profundidad las complejidades del genoma, facilitando el descubrimiento de relaciones evolutivas y adaptaciones biológicas entre distintas especies.

Hace algunas décadas, los estudios genéticos solían centrarse en pocos genes o en regiones específicas de los genomas, pues no existían métodos asequibles que permitieran realizar estudios con todos los elementos contenidos en el ADN. Este enfoque, aunque permitía entender las funciones específicas de algunos elementos genéticos, hacía difícil obtener una visión completa de la composición genética de las especies.

Con la llegada de las tecnologías de secuenciación de nueva generación a principios del siglo XXI, el volumen de los datos genéticos que podían generarse en un solo experimento creció de forma exponencial, dando lugar a los estudios de genomas completos. Este cambio de paradigma hizo necesario implementar nuevos abordajes en el análisis de dichos datos, ya que los métodos tradicionales no podían procesar de manera eficiente los volúmenes generados con estas nuevas tecnologías. En este contexto surge la integración de técnicas de aprendizaje computacional o machine learning en el campo de la genómica.

El machine learning es una rama de la inteligencia artificial que se centra en el desarrollo de algoritmos que permiten a las computadoras aprender y hacer predicciones a partir de datos. Existen dos enfoques principales en machine learning: los métodos supervisados y los no supervisados. Los métodos supervisados son aquellos en los que se brinda al algoritmo un conjunto de datos etiquetados con la intención de elaborar un modelo de entrenamiento que sirva para clasificar nuevos datos. Por ejemplo, en un contexto genómico, este tipo de algoritmos se utilizan para entrenar modelos predictivos que permitan identificar los genes contenidos dentro de un genoma. Recordemos que un genoma es una secuencia compuesta por un alfabeto de cuatro letras (A, T, G, C) que representan los nucleótidos que conforman la estructura del ADN (adenina, timina, guanina y citosina). A partir de estas cuatro letras se forman secuencias compuestas por millones de nucleótidos (los cromosomas) y que constituyen un código con instrucciones precisas para que la maquinaria celular pueda realizar todas las funciones de un organismo. Identificar un solo gen, es decir, solo algunos cientos de bases nucleotídicas en todo el genoma, resulta una labor muy exhaustiva, especialmente si se considera que en un solo genoma puede haber decenas de miles de genes. Para hacer frente a este reto, es posible emplear aproximaciones supervisadas de machine learning en las que un modelo se entrena a partir de una base de datos con secuencias de genes conocidos. Al saber que todos los datos utilizados para entrenar el modelo son genes, podemos decir que están etiquetadas, por lo que el método se considera supervisado. A partir de esta base de datos, el algoritmo puede aprender a identificar genes basándose en tamaños o patrones de secuencias. Una vez que se tiene un modelo entrenado, este puede ser utilizado para identificar otros genes, ya sea en el mismo genoma o en otro diferente.

A diferencia de los enfoques supervisados, los no supervisados no requieren datos etiquetados. Estas aproximaciones suelen ser útiles cuando se busca identificar patrones en los datos sin la necesidad de categorías predeterminadas. Por ejemplo, pueden ser utilizados para agrupar secuencias de ADN basándose en su composición, con la intención de identificar aquellos elementos que potencialmente están involucrados en procesos o funciones similares.

Así pues, es evidente que la integración de los métodos de machine learning en el campo de la genómica ha revolucionado nuestra capacidad para analizar y comprender la enorme cantidad de datos generados por las tecnologías de secuenciación del ADN, permitiéndonos explorar la diversidad genómica a través de los distintos linajes que forman el árbol de la vida.

"La opinión es responsabilidad de los autores y no representa una postura institucional"

Créditos de las figuras: "Imágenes generadas con la aplicación de Microsoft Designer (https://designer.microsoft.com/)"