Uno de los mayores descubrimientos al secuenciar el genoma humano por primera vez, hace más de dos décadas, fue la sorprendente cantidad de genes que contenía: menos de un tercio de lo que algunos científicos habían estimado. Resultó que, con menos de 30.000 genes, y las proteínas que estos codifican, es suficiente para construir y hacer funcionar el cuerpo humano. Recientes investigaciones han incluso reducido este número a unos 20.000 genes. Sin embargo, un análisis más exhaustivo de lo que algunos llaman el «proteoma oscuro» sugiere que los expertos han pasado por alto millas de genes no convencionales, ubicados en regiones del genoma que previamente no se habían considerado, los cuales producen proteínas más pequeñas.
Los genes recientemente identificados y sus productos podrían transformar profundamente varios aspectos de la biología humana y acelerar los avances médicos. Un ejemplo es el descubrimiento de un gen que produce una proteína en miniatura, la cual parece jugar un papel crucial en un tipo de cáncer infantil.
Uno de los principales impulsores de este análisis, John Prensner, comenzó a explorar el proteoma oscuro después de que sus intentos de identificar genes relacionados con el cáncer dentro de las secuencias genéticas conocidas no dieran resultados. «Me interesé por lo que el resto del genoma podía ofrecer», señaló Prensner, neurooncólogo pediátrico y actual miembro de la Facultad de Medicina de la Universidad de Michigan.
Junto a su equipo, amplió la definición tradicional de un gen, que generalmente se considera una secuencia larga de ADN que codifica proteínas, conocida como marco de lectura abierto (ORF, por sus siglas en inglés). Un ORF tiene señales específicas que indican a la célula dónde debe comenzar y finalizar su lectura. La célula transcribe esta secuencia en ARN mensajero, que luego viaja a los ribosomas, las fábricas celulares encargadas de ensamblar las secuencias de aminoácidos en proteínas. En un ORF típico, esta secuencia está precedida por un fragmento de ADN que atrae las proteínas necesarias para leer el gen. Para la mayoría de los investigadores, un ORF se considera un gen si codifica una proteína de al menos 100 aminoácidos.
Iluminando el lado oscuro
Recientemente, biólogos que estudian desde levaduras hasta serpientes y seres humanos han descubierto una gran cantidad de lo que se conoce como ORF no canónicos, los cuales carecen de los fragmentos introductorios típicos y son más cortos de lo habitual. Aunque estos ORF son más pequeños, muchos de ellos aún se transcriben en ARN. Un método innovador llamado perfil ribosómico o Ribo-Seq ha mostrado que varios de estos ARN transcritos se unen a los ribosomas, donde pueden ser traducidos en cadenas cortas de aminoácidos, e incluso en proteínas con menos de una docena de aminoácidos.
A pesar de esto, muchos científicos descartaron las miniproteínas resultantes, considerándolas irrelevantes y pensando que eran solo «ruido» que se degradaba rápidamente. Sin embargo, hace unos tres años, Prensner y su equipo demostraron que las células cancerosas contenían alrededor de 550 de estas microproteínas. Dos años antes, Sebastiaan van Heesch, biólogo de sistemas en el Centro Princesa Máxima de Oncología Pediátrica del Instituto Oncode, había descubierto cantidades similares de estas diminutas proteínas en el tejido cardíaco.
Por este motivo, se asociaron con Jonathan Mudge, especialista en anotación genética de GENCODE, la base de datos oficial de genes reconocidos, y reclutaron a varios investigadores de 20 instituciones en cuatro continentes para evaluar la cantidad de ORF no canónicos en el genoma. humano. Este equipo no llevó a cabo experimentos propios, sino que revisó el trabajo realizado por otros. Comenzaron analizando estudios previos sobre perfiles ribosómicos. Para 2022, los científicos habían identificado 7.264 ORF no canónicos en el genoma humano. Con el apoyo de la Organización del Proteoma Humano, que se dedica a catalogar todas las proteínas humanas, y PeptideAtlas, que recopila datos de espectrometría de masas sobre proteínas, se propusieron demostrar que estos ORF realmente producen proteínas.
El consorcio revisó el archivo de datos de espectrometría de masas de PeptideAtlas en busca de pequeñas proteínas que coincidieron con las secuencias de ORF y clasificó experimentos publicados que identificaban fragmentos de proteínas detectados por el sistema inmunológico humano, un campo en auge conocido como inmunopeptidómica. En total, confirmaron que una cuarta parte de los 7.264 ORF no canónicos que habían identificado realmente formaban proteínas, alrededor de 3.000 en total.
Estas miniproteínas recién descubiertas ayudan a proporcionar una imagen más completa de la porción codificante del genoma humano, aseguran los investigadores. Además, ofrecen a los científicos nuevos objetivos biomédicos para su investigación. Prensner y van Heesch ya habían comenzado a estudiar un ORF y su miniproteína, que identificaron al inicio de sus investigaciones sobre el proteoma oscuro. Utilizando el editor de genes CRISPR para introducir mutaciones en el ORF, pudo analizar la importancia de esta proteína en las células cancerosas. Aunque pequeña, la proteína producida por el ORF resulta esencial para la supervivencia de los tumores de meduloblastoma, un tipo de cáncer cerebral que afecta a los niños, según informaron.
Aplicar IA en este campo
En este sentido, en España una colaboración entre el Centro Andaluz de Biología del Desarrollo (CABD) y el Instituto de Biología Evolutiva (IBE: CSIC-UPF) comenzó a analizar proteínas utilizando inteligencia artificial (IA). Este estudio examinó las secuencias de organismos modelo (levadura, ratón y mosca de la fruta) mediante aprendizaje profundo o deep learning , logrando determinar y clasificar con gran precisión las funciones de proteínas sobre las cuales no se disponía de información previa.
Los autores también observaron que, entre los dos métodos de aprendizaje profundo utilizados, los modelos de lenguaje o transformadores son más eficientes que las redes neuronales convolucionales. Mientras que estas últimas se basan en el procesamiento de imágenes, los transformadores procesan secuencias y lenguaje, lo que los hace más informativos y precisos, además de permitirles recuperar información a partir de secuencias de ARN.
Esta investigación es crucial para abordar el desafío del proteoma oscuro, compuesto por todas las proteínas de las cuales aún no se tiene información. Así, se pueden analizar proteínas e identificar funciones de genes con potencial biomédico y biotecnológico, especialmente en organismos poco estudiados hasta ahora. Esto resulta especialmente relevante en un momento en que se están secuenciando grandes cantidades de organismos desconocidos, generando millones de secuencias para las cuales los métodos tradicionales.
También te puede interesar…