Odio decir esto, pero depende de dónde se encuentre en su educación en el aprendizaje automático y de lo que planea hacer después de este proyecto de un semestre, además de factores externos como encontrar un profesor que lo guíe en la tarea.
Personalmente, creo que la competencia puede ser un factor motivador muy fuerte siempre que aprenda de la experiencia. La tabla de clasificación de Kaggle le dará esa motivación y comentarios junto con la promesa de una recompensa al final. Sin embargo, debe saber cómo abordar el desafío para que realmente aprenda algo.
La mayoría de las personas en investigación no están entusiasmadas con las competencias de Kaggle principalmente porque no hay mucho que aprender de ellas, y usted quiere resolver problemas “más grandes” en el área, que pueden ser aplicables a cualquier desafío en particular. Sin embargo, si recién estás comenzando, una competencia de Kaggle probablemente sea lo mejor para que aprendas a atacar un problema. Si ayuda, así es como podría desarrollarse:
- ¿Cuál es su opinión sobre el Programa Insight Data Science Fellows?
- Para convertirse en un científico de datos, ¿en qué campos son los más útiles?
- R requiere que los datos se carguen en la RAM, ¿eso no dificulta el trabajo con grandes conjuntos de datos? En caso afirmativo, ¿cómo es R tan popular entre los científicos de datos?
- ¿Cuáles son los usos de la estructura de datos de árbol?
- ¿Cómo aprendes la programación de Python para la ciencia de datos?
Por ejemplo, suponga que tiene que resolver una tarea de clasificación de imágenes binarias en una hipotética competencia de Kaggle. Comienza por comprender cómo se realiza la clasificación de la mayoría de las imágenes: antes del aprendizaje profundo, las personas usaban vectores de características artesanales como SIFT y HoG junto con un modelo de bolsa de palabras conectado a un SVM. Usted lee acerca de cómo funcionan estas cosas y luego las implementa en su conjunto de datos de destino (el que Kaggle proporciona en este caso).
Envías tus resultados y te das cuenta de que estás en el cuadrante inferior de todas las presentaciones. Sí, su algoritmo tardó días en extraer características y ajustar los hiperparámetros del SVM, pero parece que a pesar del rendimiento de validación del 90%, su modelo tiene un rendimiento horrible en el conjunto de pruebas de Kaggle. Ahí es cuando aprendes qué es la generalización en aprendizaje automático Luego edita sus vectores de características para mejorar un poco su rendimiento, pero aún está muy por detrás (en algún lugar en el medio 25%). Este segundo paso se llama ingeniería de características .
Tienes seis semanas en tu proyecto y aún tienes resultados inferiores. Luego te topas con el santo grial de la visión por computadora moderna: el aprendizaje profundo . Prueba varias funciones de redes neuronales convolucionales pre-entrenadas, entrena sus propias redes y finalmente envía otra presentación. Esta vez estás mucho mejor en la clasificación de la tabla de clasificación y has alcanzado el 25% superior. En este momento también has entendido un poco sobre la práctica del aprendizaje profundo.
Y ahora estás en las últimas seis semanas de tu proyecto. Empiezas a escribir lo que hiciste durante los últimos tres meses y cómo gradualmente escalaste al 20% superior desde el 20% inferior. Has implementado un par de algoritmos, entiendes cómo realizar experimentos correctamente y te has visto mejorar a medida que aprendiste cosas nuevas. Pero eso no es suficiente: después de todo, quieres ese premio de $ 100K.
Este es el momento en que estás pasando del desarrollo a la investigación, y adivina cuál es el primer paso: leer .
Pasas dos semanas solo leyendo periódicos y absorbiendo el tipo de cosas diferentes que la gente ha hecho. Algunos papeles te hacen encogerte de hombros y decir: “Bueno, casi cualquiera podría haber hecho eso”, pero luego están estos pocos papeles que encuentras fascinantes y casi elegantes , y siempre terminas exclamando: “Maldición, ¿por qué no he aparecido?” ¡con eso! ”mientras sonríes ante los obvios resultados empíricos.
Empiezas a apreciar la belleza de la disciplina y te sientes más cerca del tema. Reenfocas tu problema desde una perspectiva diferente, con una perspectiva más amplia y con la ingenuidad aprendida de alguien que realmente ha pasado tiempo examinando el trabajo de otras personas. Luego encuentra un artefacto de los datos y la tarea que antes era demasiado ingenuo para ver, pero ahora ve cómo podría explotarse. Lo codifica, ejecuta algunas pruebas y realiza una presentación final.
Ves que estás entre los 10 primeros. Algunas personas todavía lo están haciendo mejor, pero en este punto, ya no te importa la competencia de Kaggle. Prueba su técnica general en un conjunto de otros conjuntos de datos similares y, después de todo, ve que su intuición era correcta.
Hace una visita final a su profesor en la última semana con su escrito y ellos están gratamente sorprendidos por su progreso. En este punto, si las cosas van bien, podrían sugerir que lo envíes a una conferencia o revista, y listo, tendrás tu primer trabajo de investigación. Al final de todo, estás contento contigo mismo de que lo que comenzó como un pésimo intento de parchear una competencia de Kaggle como un proyecto a término realmente terminó por hacerte interesado en una investigación real.
Por supuesto, mucho de esto es incidental y extremadamente subjetivo, dependiendo de sus antecedentes, dedicación, inclinación académica y capacidad general. Pero sí, esta es la mejor manera en que podría funcionar, y si lo logra, aprenderá casi todo lo que hubiera hecho si hubiera hecho un proyecto tradicional que le proporcionó su supervisor, junto con una apreciación personal por los numerosos hombros. te pusiste de pie para lograr lo que hiciste.