Aprendizaje automático: ¿Puede alguien que es horrible en los concursos de kaggle seguir siendo bueno como científico de datos?

Si y no. Por un lado, Kaggle está bastante centrado en el aprendizaje automático, que es una pequeña parte del panorama de la ciencia de datos. Entonces, incluso si no eres bueno en eso, aún podrías ser un muy buen científico de datos, quizás especializado en cosas como pruebas A / B, visualización, análisis exploratorio. Por otro lado, ser horrible en kaggle es una bandera roja que indica que puede carecer de habilidades analíticas básicas. Aunque los proyectos de Kaggle se enmarcan como competencia ML, ML es más que solo ejecutar algoritmos ML. Usas habilidades de programación para manipular datos, usas visualización para comprender los datos, usas ciencia para probar hipótesis. Todas esas son habilidades esenciales en ciencia de datos. Además, ser horrible en Kaggle es una gran señal de alerta porque es sinceramente difícil ser horrible en Kaggle si sabes algo sobre análisis. Hacer el 25% superior debería estar al alcance de cualquier persona que sepa algo sobre análisis.

Deberías poder hacerlo bien en los concursos relacionados con tu dominio.

Es razonable no hacerlo bien en un concurso de, por ejemplo, visión por computadora, si está enfocado principalmente en el pronóstico de series de tiempo.

Solo competí en una competencia y ocupé el cuarto lugar como parte de un equipo. Entrar en el 10% superior era completamente trivial si realmente sabía algo sobre validación cruzada e ingeniería de características. Entrar en el top 5 de miles fue brutal, requirió un esfuerzo de equipo coordinado con algunos científicos de datos muy buenos, y las diferencias en el rendimiento dentro de los 5 primeros fueron infinitesimales.

¿Qué significa ser horrible en kaggle?

Si por horrible quieres decir que ni siquiera puedes establecer cómo abordar la mayoría de los concursos allí, entonces no, no te irá bien en la ciencia de datos sin estudiar y entrenar. Eso significa que no comprende el problema que desea resolver o la pregunta que desea responder.

Si por horrible quieres decir que nunca llegas a las primeras posiciones, entonces sí, puedes hacerlo bien como científico de datos. La competencia allí es feroz, no lograr la primera posición puede suceder por muchas razones que no están relacionadas con su habilidad.

Como Giuliano Janson mencionó, hay más en ciencia de datos que “solo” ML. Lo que él describió como roles especializados se ajusta a la mayoría de lo que hago, por ejemplo, y lo estoy haciendo muy bien en Miniclip. Encuentro interesante a Kaggle pero no me importa competir y estoy bastante seguro de que no lo haría muy bien por muchas razones.

Por qué no?
Bueno, Kaggle es un gran lugar para probar sus capacidades de ciencia de datos, pero no creo que este sea el único punto de referencia para decidir sus habilidades. He visto competiciones de Kaggle en el pasado, la mayoría de los problemas no me motivaron a avanzar más. Participé una vez y lo hice bastante bien, pero no tuve mucho tiempo extra para trabajar en esos problemas, así que me concentré mejor en mi doctorado.

Como dijo Giuliano Janson, si llega al final de las competiciones de Kaggle, por ejemplo, por debajo de la línea de base, entonces algo está mal y debe evaluar sus opciones de carrera.

Actualmente (23-11-2015) la competencia más popular en Kaggle es Rossmann con cerca de 3000 participantes. En la sección especial, llamada “Scripts”, encontrará muchos códigos para calcular soluciones. No hay necesidad de escribir su propio código para funcionar bastante bien (en el LB, por supuesto). En muchos casos, LB refleja de cerca los resultados finales. Básicamente, tiene buenas posibilidades de obtener el 10% superior sin hacer nada en absoluto.

More Interesting

¿Cómo funciona el refuerzo con los algoritmos de clasificación del árbol de decisión?

¿Cuáles son los beneficios de usar unidades lineales rectificadas frente a la función de activación sigmoidea típica?

¿Cuánto tiempo tomará aprender Python para que pueda aprender el aprendizaje automático?

¿Qué otros algoritmos / métodos se pueden usar como alternativa al algoritmo vecino más cercano para la medición de distancia y cuál funciona mejor que NN?

¿Dónde puedo encontrar modelos de TensorFlow previamente entrenados como el zoológico modelo Caffe?

¿Conoces algún software que implemente cálculos de los últimos k vectores singulares de matriz dispersa de entrada? Solía ​​irlba, pero que yo sepa, solo calcula los primeros k vectores singulares

Cómo diferenciar entre características globales y características locales en una imagen

¿Cómo puede un programa determinar rápidamente si un tweet es negativo o positivo?

¿Qué algoritmo puedo implementar para hacer una reducción de dimensión con restricción no negativa? (PCA se asignará al espacio negativo)

¿Hay grupos de investigación trabajando en aprendizaje profundo teórico?

¿Puede cualquier máquina interpretar y actuar sobre las respuestas que da Watson en lenguaje humano?

¿Cómo se debe elegir el parámetro [math] l [/ math] en la regresión de mínimos cuadrados parciales?

Debido a que este será el tema de un panel en el Instituto de Verano NBER, ¿qué puede aprender la economía de Data Science y / o Machine Learning, y qué puntos sobre este tema le gustaría ver incluidos?

¿Es efectivo el entrenamiento de confrontación contra los ejemplos de confrontación en general?

Cómo combinar un clasificador basado en características con un modelo de serie temporal como ARIMA