¿Qué debo elegir para mi tesis en Machine Learning?

Gracias por pedirme que responda esto. En primer lugar, me gustaría apreciar su decisión de hacer su tesis en el campo del aprendizaje automático. Según mi propia experiencia, esta es la mejor manera en que puedes aprender el aprendizaje automático. Comencé con mi viaje de aprendizaje automático con mi tesis de maestría. Si se realiza correctamente, este viaje podría enseñarle muchas advertencias ocultas en la práctica del aprendizaje automático.

Como otros han señalado correctamente, la buena información es crucial para tener éxito en el aprendizaje automático. Basura dentro basura fuera. Y para no olvidar, la mayoría de las veces en la práctica de la minería de datos real, se dedica a la preparación de datos, el preprocesamiento y la generación de funciones. Cuando estás en una configuración académica, tiendes a olvidar eso. Si desea una experiencia rica con el aprendizaje automático, mi recomendación es elegir un problema en el que pueda recopilar y preprocesar los datos. Esta habilidad es imprescindible si quieres convertirte en un minero de datos.

Los datos genéticos obtenidos mediante secuenciación son de naturaleza muy dimensional. Si recién está comenzando con el aprendizaje automático, es posible que evitar este problema sea una buena idea. Pero estás seguro de que quieres contribuir a la raza humana, continúa. Pero planifique lo que quiere hacer, en el lapso de tiempo que desea hacer en su tesis. Encuentre personas que ya estén investigando en esta área y vea si puede ayudar / colaborar con ellas. Lea sus documentos para ver lo que ya se está investigando sobre el neuroblastoma. Aquí hay algunos enlaces útiles para comenzar

TU Dortmund – Informática VIII
Selección de características en datos de alta dimensión …

La inversión automatizada también es un área amplia, para la tesis debe descubrir algo más específico. por ejemplo, predecir automáticamente la dirección del movimiento de las existencias en la próxima semana (arriba / abajo), solo dirección. Luego puede convertirlo en un problema de series de tiempo y concentrarse en resolverlo.

Para resumir,
* el procesamiento previo de datos es más importante de lo que piensas
* Identifique un problema específico y defina claramente las métricas de rendimiento para lograr la calidad de su (s) modelo (s)

Te deseo buena suerte con el viaje.

EDITAR: Al igual que el usuario de Quora, creo que la actitud y la experiencia con la mezcla de datos y la limpieza son más importantes que los algoritmos específicos para un campo determinado. Por lo tanto, si todo lo demás es igual, elija el campo que le apasiona más e intente comenzar con datos sin procesar.

Cada una de las otras respuestas es valiosa. Aquí hay otro ángulo:
Uno no escribe una tesis en el vacío.
Si su universidad tiene un laboratorio trabajando en uno de estos problemas,
Intenta conseguir que la cabeza del laboratorio sea tu asesor de tesis y ve con ese proyecto.
De esta manera, algunos de los trabajos preparatorios ya podrían haberse realizado para usted,
Y es más probable que reciba comentarios y consejos, los cuales son recursos valiosos.
Como se menciona en las otras respuestas, también debe planificar con anticipación: ¿está escribiendo una tesis como etapa para convertirse en académico? ¿Para desarrollar habilidades relacionadas con el trabajo? ¿por diversión? ¿Para abordar un tema que le interesa personalmente?
En general, el tema que está más motivado para estudiar sería la mejor opción.
También vea usted y su investigación.

El primer problema que debe tener en cuenta es si tiene suficientes datos. El primer problema parece ser interesante, pero debe beneficiarse de la experiencia en el dominio del formulario para realizar la extracción / selección de características. El segundo problema podría ir con el aprendizaje en conjunto: embolsado, refuerzo, apilamiento, ver Empaquetado, refuerzo y apilamiento en el aprendizaje automático.

Creo que ambos son problemas bastante ambiciosos. En mi propia experiencia, la aplicación de métodos de ML a los datos genéticos puede ser bastante decepcionante y, como señala Julian, es fundamental tener suficientes datos. También es importante tener en cuenta el tamaño de los conjuntos de datos. Solo la alineación de las secuencias antes del entrenamiento puede requerir mucha potencia informática y es una línea de investigación por sí sola. A pesar de todo esto, esta línea de investigación es extremadamente hermosa y requiere de matemáticas y algoritmos innovadores.

Con respecto al segundo tema, no tengo experiencia, pero vale la pena explorarlo si quieres seguir una carrera como cuantitativo :-).

Solo mis dos centavos.

Elegiría el segundo como tesis de maestría. Es más sencillo que el primero.

Primero, estará expuesto a más métodos de aprendizaje automático que el primero, y comprenderá mejor el rendimiento de estos métodos. Es posible que también pueda usar muchos métodos diferentes en el primero, sin embargo, es muy difícil compararlos porque no conoce la respuesta verdadera (probablemente los biólogos que trabajan en el mismo problema tampoco lo sabrán).

En segundo lugar, no necesita pasar mucho tiempo para comprender los conceptos básicos del neuroblastoma a menos que realmente se preocupe. Y para mí, algunas experiencias en estrategia de inversión podrían brindarle una ventaja adicional en el mercado laboral.

Divulgación completa: no tengo experiencia en Machine Learning.

Leí esta cita hace un par de semanas

Las mejores mentes de mi generación están pensando en cómo hacer que la gente haga clic en los anuncios ” … ” Eso apesta “.

Si en lugar de apuntar su increíble infraestructura para hacer que la gente haga clic en los anuncios, … lo apuntaron a grandes problemas no resueltos en la ciencia, ¿cómo sería el mundo diferente hoy?”

Jeff Hammerbacher: ‘Las mejores mentes de mi …

Espero que optes por el primero.
Atb!

¿Quieres ayudar a las personas enfermas o quieres ganar dinero? Esta es la pregunta básica que debes hacerte.

More Interesting

¿Qué funciona mejor, un ANN con miles de unidades por capa pero solo docenas de capas o uno con docenas de unidades por capa, pero cientos de capas?

Cómo calcular la huella de memoria de un modelo particular de aprendizaje profundo

¿Debería considerarse un experto en aprendizaje automático después de completar la clase de ML del profesor Andrew en Coursera?

¿En qué medida se utilizan las técnicas de optimización del aprendizaje automático, como el descenso de gradiente, en el modelado financiero?

¿Cuántos parámetros deben ajustarse para Random Forest?

¿OCR es una amenaza para CAPTCHA?

¿Cuál es la filosofía de la matriz, la descomposición del tensor para encontrar la estructura latente?

Cómo implementar SVM yo mismo

¿Cómo funciona el sistema de clasificación de Aarne-Thompson?

¿Por qué usamos k-means clustering? ¿Qué usos tiene en un escenario del mundo real?

¿Cuáles son algunos de los obstáculos que evitan que las empresas aprovechen el poder del aprendizaje automático?

¿Qué es un sistema o algoritmo de recomendación que dice 'Dado que consumiste X {a} veces, Y {b} veces y Z {c} veces, ¿cuál de {X, Y, Z} debería recomendarte que consumas a continuación'?

¿Cuál es la relación entre los clasificadores uno contra uno, conjunto y SVM?

¿Cuáles son las principales conferencias sobre inteligencia artificial, procesamiento del lenguaje natural y aprendizaje automático?

¿Cuáles son las diferencias en profundidad, amplitud y rigor entre 6.036 Introducción al aprendizaje automático - MIT, y el curso del Curso de aprendizaje automático de Andrew Ng?