¿Qué problemas de biología se pueden resolver en casa?

En realidad, muchos de los problemas más interesantes y fundamentales en biología pueden resolverse, o al menos estudiarse con gran detalle, sin una sola pieza de equipo de laboratorio.

1. Asamblea del genoma

Cada vez que se secuencian nuevos genomas, lo que realmente se imprime de las máquinas son pequeñas “cadenas” de caracteres (en el caso del ADN, estas son varias “palabras” que contienen las letras A, T, G y C en algún orden). Una salida simple podría verse así:

ATGCCGCAACCT

ACCTACTCTA

y así.

La razón por la que el resultado se ve así es porque leer un genoma de principio a fin llevaría un tiempo extremadamente largo. Además, en el caso de los humanos (y la mayoría de los eucariotas), los genomas se dividen en fragmentos distintos (cromosomas), por lo que es imposible leer el genoma de forma continua.

Sin entrar en demasiados detalles, los científicos pueden superar los problemas anteriores comenzando con muchas copias físicas completas del genoma objetivo (generalmente extraído de muchas células) y “cortando” al azar estas copias en fragmentos cortos, idealmente para que no haya dos copias del genoma. cortar de la misma manera. Luego, todos estos fragmentos cortos son leídos por una máquina de secuencia en paralelo (miles o millones a la vez).

Para pasar de la lista resultante de “lecturas” a un genoma secuenciado, uno tiene que “ensamblar” todas estas cadenas. Si observa el ejemplo anterior, puede notar (no se sienta mal si no lo hizo) que las dos primeras lecturas comparten una subcadena común:

ATGCCGCA ACCTACT

ACCTACT CTA

Por lo tanto, se pueden “alinear” donde coinciden sus secuencias. Si la región alineada es lo suficientemente larga, entonces podemos decir con confianza que estas dos lecturas “se superponen” en una secuencia de consenso “ACCTACT”. Este proceso puede repetirse hasta que todas las lecturas estén alineadas al máximo, y las áreas de alta superposición en la alineación correspondan a “datos de secuencia de alta calidad”. Vea a continuación una explicación más detallada.

Phage Assembly Suite y Tutorial

Este es solo uno de varios enfoques de “secuenciación del genoma completo”, pero el principio básico es similar en otros. Por ahora, los pasos de extracción y secuenciación reales deben realizarse en un laboratorio, aunque eso probablemente cambie en un futuro muy cercano:

El secuenciador de ADN del tamaño de una pinta impresiona a los primeros usuarios

En cuanto al paso de ensamblaje, bueno, básicamente puede hacer todo en una computadora portátil, y hay paquetes de software muy sofisticados (y GRATIS) disponibles para este tipo de trabajo. (Estoy seguro de que hay algunos laboratorios de investigación a los que no les importaría externalizar los pasos de la asamblea a voluntarios en capacitación a cambio de reconocimiento en un documento de investigación).

2. Alineación de secuencia múltiple

A veces, los biólogos no están interesados ​​en comparar lecturas genéticas cortas de una sola especie u organismo; Quieren comparar genes de diferentes especies. Para hacer eso, una vez más, las secuencias de genes deben estar alineadas, pero ahora los genes son de diferentes especies, por lo que las secuencias no son exactamente las mismas en las áreas donde se superponen. Alinear estas secuencias requiere un tipo de algoritmo fundamentalmente diferente al utilizado para el ensamblaje directo del genoma (e IDEALMENTE un usuario con una comprensión decente del análisis / teoría evolutiva), pero hay varias preguntas de investigación biológica que pueden abordarse solo con alineamientos de secuencias ( ej., desarrollando modelos evolutivos, predicción de estructura / función, inferencia filogenética, etc.). Además, casi todo el software de alineación es gratuito y de código abierto. Algunos paquetes buenos que uso todo el tiempo son MAFFT, Muscle y ClustalX (menos precisos que los dos primeros pero MUY rápidos).

3. Inferencia filogenética

Me referí a esto en el ejemplo anterior, pero una de las mejores cosas que puede hacer con las alineaciones de secuencias es usarlas como conjuntos de datos de entrada para construir árboles filogenéticos. Básicamente, estos son diagramas derivados matemáticamente que tienen como objetivo mostrar cómo un conjunto dado de genes (o especies / taxones) están “muy probablemente” relacionados en términos evolutivos.

Archivo: Los Ancestros Cuento Mamíferos Árbol Filogenético en mya.png

Mientras que el “Árbol de la vida” puede considerarse el árbol filogenético más grande e inclusivo, a veces es útil construir subárboles que representan grupos más pequeños de organismos (especialmente porque el “Árbol de la vida real” no puede ser realmente “conocido”, dejemos solo construido). La inferencia filogenética también se utiliza para estudiar la relación de los genes dentro de un solo organismo (las llamadas “familias de genes”), que evolucionan de la misma manera que los organismos mismos.

Los programas que construyen estos árboles usan varios enfoques / algoritmos y pueden tardar mucho tiempo en ejecutarse (si cree que instalar las actualizaciones de Windows es una pérdida de tiempo, intente ejecutar un algoritmo de inferencia bayesiano durante tres meses consecutivos, solo para tener el análisis completo choque debido a un corte de energía). Sin embargo, hay literalmente MILLONES de secuencias de genes y miles de genomas completos disponibles gratuitamente en la web, que son más datos de los que cualquier investigador podría analizar a fondo en varias vidas. Nuevamente, prácticamente todos los paquetes de software que necesitaría (PAUP, RaxML, PhyML, MrBayes, MEGA, Mesquite, etc.) son gratuitos y / o de código abierto.

4. Simulación de proteínas / plegado

Muchas de las proteínas en su cuerpo solo pueden realizar su función prevista después de lograr una conformación tridimensional estable, conocida como el “pliegue” de esa proteína. Esencialmente, si piensa en una proteína como una cadena o “cadena” de moléculas de aminoácidos, entonces el pliegue es la forma específica en que una cadena dada (1D) tiende a organizarse en el espacio (3D).

Proteína plegable

Hoy en día, las personas que estudian proteínas entienden que este punto de vista es bastante simplista, ya que muchas proteínas se pueden convertir libremente entre un “conjunto” de múltiples pliegues estables, y algunas proteínas nunca logran un pliegue estable (el llamado “intrínsecamente desestructurado proteínas “o” desordenadas “). Sin embargo, para las muchas proteínas que sí requieren un pliegue estable para funcionar, exactamente cómo se logra ese pliegue es un bit de información muy interesante y ÚTIL. Por ejemplo, si supiéramos la “trayectoria” o “trayectoria” que toma una proteína viral para ir desde el lado izquierdo de la figura anterior al lado derecho, quizás podríamos diseñar medicamentos que interfieran con el proceso de plegamiento y evitar que el virus se replique …

El problema principal aquí es que, para simular este proceso en una computadora, necesita una cantidad increíble de poder de procesamiento, porque debe calcular pequeños cambios en la fuerza y ​​el momento de cada átomo en la molécula de proteína (y todos los agua circundante, iones, etc.) CADA 1 / 1,000,000,000,000,000 DE UN SEGUNDO (también conocido como “femtosegundo”). Entonces, para una proteína razonablemente grande, se necesitan miles de millones de cálculos para avanzar el sistema en un solo femtosegundo, y puede tomar varias semanas de tiempo de computación real para simular solo unos pocos microsegundos de movimiento (unas pocas millonésimas de segundo). Sin embargo, muchas proteínas tardan al menos varios MILLISECONDS (milésimas de segundo) en plegarse por completo, por lo que podría llevar décadas simular todo el evento usando solo una computadora.

Afortunadamente, existen iniciativas que permiten a los entusiastas de la ciencia “prestar” potencia informática a los principales grupos de investigación al vincular las computadoras de sus hogares a una red distribuida. Esencialmente, cada vez que su computadora portátil está conectada a esta red, los científicos pueden usarla para ejecutar algunos de los cálculos plegables discutidos anteriormente.

[correo electrónico protegido]

Además, si crees que puedes plegar una proteína más rápido que una computadora (¡y algunas personas realmente PUEDEN!), Puedes probar FoldIT, un “juego” en 3D que permite a los usuarios plegar estructuras de proteínas manualmente. ¡Los resultados de muchos de estos juegos se utilizan para informar la investigación real!

Resuelve acertijos para la ciencia

Y si desea hacer la simulación completa usted mismo, puede descargar VMD y NAMD y seguir los tutoriales de configuración en el sitio web de TCB:

Desarrollo de software

Debo aclarar que la mayoría de los ejemplos que proporcioné son cosas que pueden ser estudiadas “en casa”, pero no necesariamente estudiadas “en casa por un aficionado con poca o ninguna formación o antecedentes científicos”. Hay una curva de aprendizaje bastante empinada para temas como dinámica molecular, inferencia filogenética y predicción estructural porque son 1) muy especializados y 2) requieren una comprensión profunda de algunos conceptos fundamentales en biología, química y matemáticas. Sin embargo, ciertamente no es imposible comenzar a aprender sobre estas cosas por su cuenta, ya que hay cientos de recursos en línea disponibles. La biología en su conjunto se está convirtiendo rápidamente en una “gran ciencia de datos” con el advenimiento de la genómica, la transcriptómica y la epigenética. Esencialmente, si quiere sumergirse en estos campos “en casa”, nadie lo detendrá.

Espero que ayude.