¿Es un desafío kaggle suficiente para ser utilizado como un proyecto de un semestre?

Odio decir esto, pero depende de dónde se encuentre en su educación en el aprendizaje automático y de lo que planea hacer después de este proyecto de un semestre, además de factores externos como encontrar un profesor que lo guíe en la tarea.

Personalmente, creo que la competencia puede ser un factor motivador muy fuerte siempre que aprenda de la experiencia. La tabla de clasificación de Kaggle le dará esa motivación y comentarios junto con la promesa de una recompensa al final. Sin embargo, debe saber cómo abordar el desafío para que realmente aprenda algo.

La mayoría de las personas en investigación no están entusiasmadas con las competencias de Kaggle principalmente porque no hay mucho que aprender de ellas, y usted quiere resolver problemas “más grandes” en el área, que pueden ser aplicables a cualquier desafío en particular. Sin embargo, si recién estás comenzando, una competencia de Kaggle probablemente sea lo mejor para que aprendas a atacar un problema. Si ayuda, así es como podría desarrollarse:

Por ejemplo, suponga que tiene que resolver una tarea de clasificación de imágenes binarias en una hipotética competencia de Kaggle. Comienza por comprender cómo se realiza la clasificación de la mayoría de las imágenes: antes del aprendizaje profundo, las personas usaban vectores de características artesanales como SIFT y HoG junto con un modelo de bolsa de palabras conectado a un SVM. Usted lee acerca de cómo funcionan estas cosas y luego las implementa en su conjunto de datos de destino (el que Kaggle proporciona en este caso).

Envías tus resultados y te das cuenta de que estás en el cuadrante inferior de todas las presentaciones. Sí, su algoritmo tardó días en extraer características y ajustar los hiperparámetros del SVM, pero parece que a pesar del rendimiento de validación del 90%, su modelo tiene un rendimiento horrible en el conjunto de pruebas de Kaggle. Ahí es cuando aprendes qué es la generalización en aprendizaje automático Luego edita sus vectores de características para mejorar un poco su rendimiento, pero aún está muy por detrás (en algún lugar en el medio 25%). Este segundo paso se llama ingeniería de características .

Tienes seis semanas en tu proyecto y aún tienes resultados inferiores. Luego te topas con el santo grial de la visión por computadora moderna: el aprendizaje profundo . Prueba varias funciones de redes neuronales convolucionales pre-entrenadas, entrena sus propias redes y finalmente envía otra presentación. Esta vez estás mucho mejor en la clasificación de la tabla de clasificación y has alcanzado el 25% superior. En este momento también has entendido un poco sobre la práctica del aprendizaje profundo.

Y ahora estás en las últimas seis semanas de tu proyecto. Empiezas a escribir lo que hiciste durante los últimos tres meses y cómo gradualmente escalaste al 20% superior desde el 20% inferior. Has implementado un par de algoritmos, entiendes cómo realizar experimentos correctamente y te has visto mejorar a medida que aprendiste cosas nuevas. Pero eso no es suficiente: después de todo, quieres ese premio de $ 100K.

Este es el momento en que estás pasando del desarrollo a la investigación, y adivina cuál es el primer paso: leer .

Pasas dos semanas solo leyendo periódicos y absorbiendo el tipo de cosas diferentes que la gente ha hecho. Algunos papeles te hacen encogerte de hombros y decir: “Bueno, casi cualquiera podría haber hecho eso”, pero luego están estos pocos papeles que encuentras fascinantes y casi elegantes , y siempre terminas exclamando: “Maldición, ¿por qué no he aparecido?” ¡con eso! ”mientras sonríes ante los obvios resultados empíricos.

Empiezas a apreciar la belleza de la disciplina y te sientes más cerca del tema. Reenfocas tu problema desde una perspectiva diferente, con una perspectiva más amplia y con la ingenuidad aprendida de alguien que realmente ha pasado tiempo examinando el trabajo de otras personas. Luego encuentra un artefacto de los datos y la tarea que antes era demasiado ingenuo para ver, pero ahora ve cómo podría explotarse. Lo codifica, ejecuta algunas pruebas y realiza una presentación final.

Ves que estás entre los 10 primeros. Algunas personas todavía lo están haciendo mejor, pero en este punto, ya no te importa la competencia de Kaggle. Prueba su técnica general en un conjunto de otros conjuntos de datos similares y, después de todo, ve que su intuición era correcta.

Hace una visita final a su profesor en la última semana con su escrito y ellos están gratamente sorprendidos por su progreso. En este punto, si las cosas van bien, podrían sugerir que lo envíes a una conferencia o revista, y listo, tendrás tu primer trabajo de investigación. Al final de todo, estás contento contigo mismo de que lo que comenzó como un pésimo intento de parchear una competencia de Kaggle como un proyecto a término realmente terminó por hacerte interesado en una investigación real.

Por supuesto, mucho de esto es incidental y extremadamente subjetivo, dependiendo de sus antecedentes, dedicación, inclinación académica y capacidad general. Pero sí, esta es la mejor manera en que podría funcionar, y si lo logra, aprenderá casi todo lo que hubiera hecho si hubiera hecho un proyecto tradicional que le proporcionó su supervisor, junto con una apreciación personal por los numerosos hombros. te pusiste de pie para lograr lo que hiciste.

Bueno, un desafío en Kaggle es en realidad muy largo. En promedio, una competencia tiene una duración de 3 meses. Si ve la tabla de líderes de cualquier competencia, puede encontrar que los kagglers en la parte superior de la lista tienen alrededor de 100 presentaciones. Para mejorar la precisión, se deben probar diferentes hipótesis, se deben probar diferentes modelos y se deben crear nuevas características. Este es un proceso largo y necesita persistencia y entusiasmo.

Ahora, si este desafío puede usarse como un proyecto semestral depende del profesor, que lo aprobará. Es muy posible que tome cualquier problema y realice un EDA, pruebe diferentes modelos, cree nuevas características. Estos son los problemas que enfrenta la industria hoy en día, por lo tanto, resolver este problema es desafiante, interesante y da satisfacción.

Si está buscando un problema complejo, tome este Data Science Bowl 2017, que contiene imágenes. Necesita procesamiento de imágenes e inclinación profunda (CNN & LSTM) y el desafío es detectar el cáncer de pulmón. Creo que, de hecho, este sería un proyecto de un semestre y cualquier profesor estaría encantado de contribuir a este proyecto.

More Interesting

¿Cómo se obtiene el conocimiento de dominio requerido al obtener un título en matemática aplicada o ciencia de datos?

¿Cómo se utilizó el método de análisis de datos doble ciego en el LHC?

Entre Data Analytics y JavaScript, ¿qué habilidad es más valiosa y por qué? Si tuvieras que estudiar uno de ellos, ¿cuál elegirías?

¿Qué es la curva ROC?

¿Cuál es la diferencia entre un título en Business Analytics y un título en Data Science?

¿Cuál es su fuente de aprendizaje automático y noticias de ciencia de datos? ¿Por qué?

¿Sería mejor tomar un curso de análisis de datos? ¿Hay mejores oportunidades para un nuevo análisis en India como analista de datos?

¿Cómo funciona un algoritmo aleatorio en general? ¿Hay algunos algoritmos de aprendizaje automático también involucrados?

¿Cómo se compara el programa inmersivo de ciencia de datos de la Asamblea General con los cursos de ciencia de datos, inteligencia artificial y aprendizaje automático / aprendizaje profundo de los MOOC?

¿Cómo resuelven los problemas los científicos de datos? ¿Cuál es el marco del proceso de pensamiento para enmarcar un problema y trabajar en la solución?

¿Con qué lenguaje de programación debo comenzar para la ciencia de datos, considerando que soy nuevo en ambos?

¿Cuál es el mejor curso de posgrado a tiempo completo en ciencia de datos?

¿Qué técnicas podrían usar datos para predecir un valor específico y asignar un grado de confianza a esa predicción?

No soy muy bueno en Estadística o Probabilidad, pero soy un buen programador. ¿Debo aprender Big Data?

¿Esperamos que se creen más trabajos en las pruebas de Big Data dados los enormes requisitos para los roles de desarrollador de Big Data?