Esta es una gran pregunta y el tema de gran parte de la investigación genética actual que se está llevando a cabo en este momento:
http://www.cell.com/retrieve/pii…
Los fundamentos de los estudios de asociación:
Los investigadores generalmente recogen tantos pacientes como sea posible y tratan especialmente de encontrar gemelos discordantes (donde uno tiene la enfermedad y el otro no) para reducir el número de variables entre las muestras para aislar las variantes genéticas que tienen más probabilidades de causar enfermedad. El genoma es bastante grande y varía mucho entre individuos, por lo que este tipo de estudios de asociación, incluso cuando se realizan en miles de pacientes, a menudo tienen dificultades para separar la señal del ruido. Esto es especialmente cierto para las enfermedades complejas que no dependen de un solo gen. Para estas enfermedades, los componentes heredables que causan la enfermedad pueden ser cambios sutiles en las secuencias reguladoras diseminadas por todo el genoma. Para complicar aún más las cosas, los fenotipos similares (al menos observados y diagnosticados por un médico en la clínica) pueden no ser el resultado de alelos comunes sino de muchas mutaciones raras diferentes (diferentes alelos raros en diferentes personas son responsables de la enfermedad). Alternativamente, la interacción genética x ambiente también puede enmascarar diferencias / similitudes entre pacientes.
Las pruebas de significación general del genoma de las variantes descubiertas se realizan normalmente ajustando una regresión logística donde el estado de la enfermedad es la respuesta y las variantes genéticas son los predictores. Se puede ajustar una regresión lineal si los estados de la enfermedad se pueden codificar de alguna manera cuantitativa significativa. Una prueba F le dirá si cada predictor de variante en el modelo es significativo (si la efectividad del modelo se ve afectada por su eliminación, es una variante informativa, por lo que debe prestarle atención). La construcción de modelos estadísticos es un campo completo http://www-stat.stanford.edu/~ti… así que hay mucho que se puede hacer para descubrir cuáles de las variantes genéticas contribuyen más a la enfermedad. Dado que estos son lo que se conoce como “conjuntos de datos amplios”, lo que significa que el número de variables p es mucho mayor que el número de muestras N, puede ser útil agregar una función de penalización de parámetros a la regresión (como un lazo o una regresión de cresta) )
- ¿Hay algún curso sobre blockchain, Python o aprendizaje automático durante un máximo de 6 meses en el extranjero que también pueda conseguirme un trabajo allí?
- Cómo obtener trabajos de aprendizaje automático sin una educación formal
- En los campos de redes neuronales o aprendizaje profundo, ¿qué es un "gráfico computacional"?
- ¿Pueden Kmeans y el algoritmo DBSCAN dar el mismo resultado para un conjunto de datos en particular?
- ¿Qué enfoques / regulaciones se utilizan para manejar el 'problema mínimo / máximo local' cuando se usa el descenso de gradiente con redes neuronales profundas?
algunas referencias:
http://www.nature.com/nrg/journa…
http://www.cell.com/fulltext/S00…
http://www.joslinresearch.org/EV…
datos cuantitativos
En última instancia, describir un estado de enfermedad en términos cuantitativos es esencial para comprender los mecanismos detrás de él. Un rasgo cuantitativo importante que es relevante en muchos casos es el perfil general de expresión génica de las células enfermas frente a las células normales. La asociación de loci genéticos con cambios en la expresión génica que pueden cuantificarse identifica regiones del genoma que podrían ser responsables de la regulación de la expresión génica, denominada Loci de rasgos cuantitativos de expresión (eQTLs). Su relación con genes específicos a menudo se juzga por proximidad, pero también, dependiendo de la cantidad de datos disponibles, los cambios en la expresión de un gen específico pueden correlacionarse con ciertas variantes genéticas.
http://www.nature.com/nrg/journa…