¿Cómo puede alguien usar los datos de la secuencia de genes para encontrar genes responsables de una enfermedad genética en particular?

Esta es una gran pregunta y el tema de gran parte de la investigación genética actual que se está llevando a cabo en este momento:
http://www.cell.com/retrieve/pii…

Los fundamentos de los estudios de asociación:
Los investigadores generalmente recogen tantos pacientes como sea posible y tratan especialmente de encontrar gemelos discordantes (donde uno tiene la enfermedad y el otro no) para reducir el número de variables entre las muestras para aislar las variantes genéticas que tienen más probabilidades de causar enfermedad. El genoma es bastante grande y varía mucho entre individuos, por lo que este tipo de estudios de asociación, incluso cuando se realizan en miles de pacientes, a menudo tienen dificultades para separar la señal del ruido. Esto es especialmente cierto para las enfermedades complejas que no dependen de un solo gen. Para estas enfermedades, los componentes heredables que causan la enfermedad pueden ser cambios sutiles en las secuencias reguladoras diseminadas por todo el genoma. Para complicar aún más las cosas, los fenotipos similares (al menos observados y diagnosticados por un médico en la clínica) pueden no ser el resultado de alelos comunes sino de muchas mutaciones raras diferentes (diferentes alelos raros en diferentes personas son responsables de la enfermedad). Alternativamente, la interacción genética x ambiente también puede enmascarar diferencias / similitudes entre pacientes.

Las pruebas de significación general del genoma de las variantes descubiertas se realizan normalmente ajustando una regresión logística donde el estado de la enfermedad es la respuesta y las variantes genéticas son los predictores. Se puede ajustar una regresión lineal si los estados de la enfermedad se pueden codificar de alguna manera cuantitativa significativa. Una prueba F le dirá si cada predictor de variante en el modelo es significativo (si la efectividad del modelo se ve afectada por su eliminación, es una variante informativa, por lo que debe prestarle atención). La construcción de modelos estadísticos es un campo completo http://www-stat.stanford.edu/~ti… así que hay mucho que se puede hacer para descubrir cuáles de las variantes genéticas contribuyen más a la enfermedad. Dado que estos son lo que se conoce como “conjuntos de datos amplios”, lo que significa que el número de variables p es mucho mayor que el número de muestras N, puede ser útil agregar una función de penalización de parámetros a la regresión (como un lazo o una regresión de cresta) )

algunas referencias:
http://www.nature.com/nrg/journa…
http://www.cell.com/fulltext/S00…
http://www.joslinresearch.org/EV…

datos cuantitativos
En última instancia, describir un estado de enfermedad en términos cuantitativos es esencial para comprender los mecanismos detrás de él. Un rasgo cuantitativo importante que es relevante en muchos casos es el perfil general de expresión génica de las células enfermas frente a las células normales. La asociación de loci genéticos con cambios en la expresión génica que pueden cuantificarse identifica regiones del genoma que podrían ser responsables de la regulación de la expresión génica, denominada Loci de rasgos cuantitativos de expresión (eQTLs). Su relación con genes específicos a menudo se juzga por proximidad, pero también, dependiendo de la cantidad de datos disponibles, los cambios en la expresión de un gen específico pueden correlacionarse con ciertas variantes genéticas.

http://www.nature.com/nrg/journa…

La exploración científica básica sigue este proceso:
(1) Capturas “células enfermas” y “células sanas”.
(2) Mata las células y mide la actividad de los genes midiendo cuántas copias de ARNm de cada gen existen en la célula. Lo haría secuenciando el ARN en la célula o usando un chip de secuenciación.
(3) Luego usa estadísticas para analizar qué genes se expresan más o menos entre grupos.
(4) Realice un análisis biclustering.

El estándar de oro para el paso (3) es usar R, con la biblioteca “limma” usando la función “eBayes”. Si necesita más ayuda / información, con gusto lo ayudaré.

Es importante señalar aquí que si alguien supiera una muy buena manera de hacer esto, él / ella podría obtener el premio Nobel. La agrupación y correlación de Big Data es un campo emergente y joven en informática.

También preguntó sobre la conversión de datos categóricos a numéricos. Esta es una mala práctica estadística y no se debe hacer una regla general.

Según lo que describa, desea hacer un Estudio de asociación amplia del genoma (GWAS).

El esquema básico es así.
1) Identifique las diferencias entre los genomas (generalmente, esto se limita a los polimorfismos de un solo nucleótido (SNPS), pero se está trabajando en el uso de otras regiones variables para el mismo propósito)
2) Para cada variación de este tipo, use alguna métrica (el clásico es la prueba Chi ^ 2) para comparar personas con / sin la variación con personas con / sin la enfermedad.
3) Obtenga valores P para todas las variaciones de la métrica y seleccione aquellos que sean significativos. Asegúrese de usar algo para corregir las comparaciones múltiples (la corrección de Bonforonni se usa comúnmente: .05 / Número de sitios de variación)
4) Busque grupos de SNPS significativos, luego busque en la región cercana a estos SNP los genes que podrían estar involucrados en su enfermedad. Vea si algún SNP que esté correlacionado con la enfermedad afecta la estructura o función de la proteína de alguna manera, luego pase a los … casos más difíciles, donde la mutación se encuentra en una región reguladora.

Las variables continuas son, por regla general, mejores para este tipo de cosas, pero los cálculos se vuelven más difíciles. Si es categórico, déjelo así para la simple versión Chi ^ 2 de las cosas.

More Interesting

La pérdida (entropía cruzada) está disminuyendo, pero la precisión sigue siendo la misma durante el entrenamiento de redes neuronales convolucionales. Como puede suceder

Cómo migrar modelos de aprendizaje automático que están escritos en diferentes lenguajes de programación

¿Por qué necesitamos barajar entradas para el descenso de gradiente estocástico?

¿Vale la pena desarrollar un algoritmo de minería de datos más rápido que otros de código abierto y comerciales existentes? Si vale lo suficiente, ¿qué valor tiene ser el algoritmo más rápido?

¿Cuáles son las aplicaciones más prometedoras de ML / AI en el cuidado de la salud, excluyendo la informática de imágenes?

En la minería de texto, ¿por qué deberíamos eliminar el término disperso de la matriz de términos del documento?

Cómo usar la función Master-Slave de PHPMyAdmin para replicar una base de datos en una máquina diferente

¿Cómo utilizaría el aprendizaje automático para resolver este tipo de preguntas: 1 + 4 = 5, 2 + 5 = 12, 3 + 6 = 21, 8 + 11 =?

¿Qué es la estimación de máxima verosimilitud?

¿Qué piensa Pedro Domingos de la investigación de aprendizaje automático que está ocurriendo en la industria versus la academia?

¿Cuál puede ser un buen problema de investigación computacional para trabajar con el conjunto de datos de Wikipedia?

¿Cuál es la mejor clase de Machine Learning en Penn?

¿Dónde puedo encontrar los mejores tutoriales de aprendizaje automático como principiante?

¿Qué versión de Python debería usar en 2016 en Machine Learning y Data Science, Python 2.7 o Python 3.0+?

Cómo ejecutar una sesión de tensorflow en un solo proceso y núcleo