¿Cuáles son algunos buenos indicadores para ideas de proyectos en biología computacional?

Lo siento, te perdiste la recompensa de 3M $: Premio Heritage Health. ¡Pero todavía estás a tiempo para premios mucho más grandes!

1) ¿Podría predecir la firma molecular de los diferentes tipos de cáncer? Puede usar el Atlas del genoma del cáncer (TCGA) para muchos tipos de datos de perfiles moleculares en diferentes tipos de cáncer. Otra tarea relacionada es desarrollar los marcadores moleculares para diferentes subtipos o diferentes etapas de cualquier cáncer. Además, sería inmensamente útil conocer los biomarcadores para los cánceres en etapas tempranas, ya que el tratamiento del cáncer en etapa temprana generalmente es más exitoso.

2) Si bien se reconocen muchas formas diferentes de enfermedad neurodegenerativa (como el Parkinson, la enfermedad de Alzheimer, ELA), las líneas que se separan una de otra a menudo no están claras (consulte esta página en healthandenvironment.org). ¿Podría usar un clasificador (clasificadores?) Para diferenciarlos?

3) Las células madre son pluripotentes , lo que significa que pueden generar todo otro tipo de células “diferenciadas” (células comprometidas con un destino particular). Durante la división celular de las células madre, algunas conservarán la propiedad de “pluripotencia” (= autorrenovación), mientras que otras irán hacia la ruta de diferenciación. ¿Podría usar un clasificador molecular que prediga los dos tipos de células? Aquí hay dos trabajos de investigación similares: clasificador SVM para predecir genes importantes para la autorrenovación y la pluripotencia de células madre embrionarias de ratón y Exploración de la autorrenovación de células madre con aprendizaje automático

Similar es el caso de las células sanguíneas maduras, todas las cuales se originan de las células madre llamadas células madre hematopoyéticas, siguiendo un proceso llamado hematopoyesis. En una persona adulta sana, diariamente se producen aproximadamente [matemáticas] 10 ^ {11} –10 ^ {12} [/ matemáticas] nuevas células sanguíneas para mantener niveles estables en la circulación periférica. ¿Podría derivar marcadores moleculares (temporales) para diferentes tipos de células sanguíneas?

Estas tareas son desafiantes y requieren un poco de conocimiento de dominio también. Una solución exitosa de cualquiera de ellos podría conducir a, si no el premio Nobel, ciertamente algo más cercano. Sin embargo, puede comenzar a ensuciarse las manos y divertirse mucho con los desafíos menos intimidantes de los conjuntos de datos del Depósito de aprendizaje automático de UCI. También puede probar desafíos de salud / biomédicos en Kaggle, Innocentive o KDnuggets

¡La mejor de las suertes!

Como usuario de tales proyectos y esfuerzos, mi mayor queja sobre muchas herramientas de biología computacional es que a menudo producen resultados basura para aplicaciones basura. Aquí hay algunos consejos para evitar caer en esas trampas.

  • Busque problemas que sean problemas reales. A nadie le importa si su software es mejor que otro software que básicamente hace lo mismo pero un poco mejor, pero no notablemente. Del mismo modo, no elija problemas en los que sus respuestas no proporcionen ninguna información útil.
  • Tenga un equilibrio bueno y razonable entre sensibilidad y selectividad. Los falsos positivos pueden causar muchos problemas costosos en biología.
  • La mayoría de los usuarios serán biólogos moleculares como yo. Agregue el hecho de que la mayoría de nosotros no piensa en términos de HMM y redes. Aún más, realmente no sé cómo usar las herramientas en línea. Ayuda a un hermano y explícanos cómo usar tu proyecto.

Algunas ideas de proyectos: http://www.cs.columbia.edu/~cles

Relacionado: ¿Cuáles son algunos buenos recursos para aprender sobre genómica computacional? ¿Por qué?

More Interesting

Aprendizaje profundo: ¿Qué es la búsqueda jerárquica de correspondencia?

¿Por qué el escalado es importante para la clasificación SVM lineal?

¿Se pueden describir las redes adversas generativas como un método de entrenamiento en el que se aprende la función de pérdida en lugar de seleccionarse manualmente?

¿Por qué el uso de información mutua / ganancia de información / funciones similares funciona mejor que simplemente usar el error promedio (usando probabilidad) para un booleano (conjunto de datos de 2 clases) al construir un árbol de decisión?

Cómo convertir datos categóricos en numéricos por Excel

¿Qué tan buenos antecedentes en ML ofrece el curso Coursera Machine Learning a alguien?

¿Qué es una explicación intuitiva de lo que es la dimensión VC?

¿Cómo se puede hacer la experimentación de aprendizaje profundo en una PC en casa?

¿Cómo utilizan los RNN estándar la información de los pasos de tiempo anteriores?

¿Es posible asegurar trabajos solo en base a la experiencia en aprendizaje automático sin ser un ingeniero de software adecuado?

¿Cuáles son los algoritmos utilizados en los sistemas de preguntas y respuestas en PNL?

¿Qué es más beneficioso para la comprensión general de la informática, el procesamiento del lenguaje natural o la teoría de la computación?

¿En qué se diferencia el aprendizaje automático de la minería de datos?

¿Para qué se utiliza el aprendizaje automático?

Me gustaría trabajar en Apple como ingeniero de Machine Learning. Sé un poco de Python y R, ¿cómo me distingo de otros candidatos?