¿Qué se necesita para clasificar dentro del # 10 en Kaggle? ¿Cuál es el camino de aprendizaje ideal para un principiante en ciencia de datos? ¿Qué todas las tecnologías y habilidades necesita adquirir y en qué orden? ¿Cuánto tiempo se tarda?

Supongo que recién está comenzando el largo esfuerzo por convertirse en un científico de datos.

Por lo tanto, no me preocuparía por el rango en este momento, es decir, si fuera usted, me concentraría en aprender el Crux de los algoritmos y dónde se pueden aplicar diferentes algoritmos.

Iniciar el análisis de datos es relativamente más fácil en R, python, por otro lado, está creciendo rápidamente entre la comunidad, especialmente con paquetes como el flujo de tensor.

Por lo tanto, le recomendaría comenzar con un curso básico que lo borre de todas las palabras de moda relacionadas con este campo o con los vecinos adyacentes, a saber, análisis de negocios y big data.

Y en lo que respecta al rango, depende de qué conjunto de datos se proporciona y cuánto tiempo y esfuerzo podemos invertir en este momento …

Muchos modelos usan métodos de conjunto como bosques aleatorios, ya que son bastante potentes, muchas veces podemos ver que también se aplica el descenso de gradiente, y, a veces, puede poner una red neuronal y esperar un momento para la salida, muchas personas hacen esto si tienen suficiente tiempo en sus manos

Si eres completamente nuevo, puede ser difícil entender estas cosas, por lo tanto, la única forma es aprender algoritmos mediante la aplicación práctica en competiciones como kaggle u otros hackatones.

Primero, hagamos algunos números.

Aquí están los 10 mejores Kagglers a partir del 5/13/2017.

Actualmente, para clasificar a los 10 mejores en Kaggle, necesitas más de 97,562 puntos.

Puede ganar puntos al participar en una competencia destacada o de reclutamiento. El punto de Kaggle que puede ganar en cada competencia se calcula de la siguiente manera:

, donde t es el número de días transcurridos desde que se otorgó el punto (generalmente un par de días después de la fecha límite de la competencia) [1].

El año pasado, el número promedio de equipos en las últimas 17 competencias fue de 1.586.

Por lo tanto, si terminas primero y segundo por tu cuenta en 2 competiciones, ganarás aproximadamente 99,000 puntos y serás el top 10.

No es imposible y Cardal hizo algo similar, que terminó primero en 2 competiciones en marzo y junio de 2015 y llegó al top 10. Hasta ahora ha participado en solo 4 competiciones en Kaggle y terminó primero 3 veces y 11º una vez.

De todos modos, no es la forma común de llegar al top 10. Aquí hay un enfoque más realista:

Primero, necesitas trabajar en competiciones regularmente. Obviamente, para estar entre los 10 primeros, primero debes hacer los primeros 1000, 500, 250 y 100.

Puede llegar al top 1000 terminando el 10% superior un par de veces [2], lo que, creo, no es demasiado difícil si practica con los códigos y enfoques compartidos en Kernel y foros.

Sin embargo, para ascender desde los primeros 1000, debe desarrollar su propia experiencia en ingeniería de características, ajuste de algoritmos, conjunto y canalización, lo que permite experimentos rápidos con muchas ideas prometedoras.

Se necesita tiempo y esfuerzo para desarrollar tal experiencia. Entonces, si aún no los tiene, debe desarrollarlos trabajando en ellos de forma regular.

En segundo lugar, será mejor que formes un equipo con otros. De acuerdo con el sistema de puntos anterior, si duplica el tamaño de su equipo (por ejemplo, 1 → 2 o 2 → 4) y mejora su rango en aproximadamente un 37% (por ejemplo, 100º → 63º), obtendrá aproximadamente el mismo puntaje. En la práctica, formar equipo lleva a una clasificación mucho mejor y, por lo tanto, a más puntos; además de eso, es más divertido trabajar juntos.

Un consejo para formar equipo es ingresar a una competencia temprano y llegar lo más alto posible en la clasificación. Esto atraerá a Kagglers fuertes a tu equipo.

En tercer lugar, debe terminar con fuerza (como los 10 principales) de manera consistente al menos durante un corto período de tiempo.

En mi caso, llegué al top 10 en 2015 después de terminar tercero, quinto y sexto en 3 competencias consecutivas. Antes de eso, me clasificaba en el puesto 160 al participar en competiciones con bastante regularidad.

Para esto, necesitas algo de suerte. Seriamente. Creo que cualquiera que haya llegado al top 100 podría tener el top 10 con un poco más de suerte.

Nunca pensé que sería el top 10 porque había tantos Kagglers que eran (y aún son) mucho mejores que yo. Disfruté compitiendo en Kaggle, trabajé en competiciones regularmente, me uní a grandes personas y tuve mucha suerte.

Si disfrutas el viaje en sí mismo, ya sea que llegues al top 10 o no realmente no importa, pero al mismo tiempo, si se te presenta la oportunidad, espero que estés allí listo para tomarla.

¡Disfrutar!

Notas al pie

[1] Sistema de progresión de Kaggle

[2] Bruno16 | Kaggle

Hmm, mi sincera opinión es que, como principiante, su posición dentro de los 10 principales no debería ser su prioridad (al menos por ahora), sino que debe conocer los conceptos básicos y familiarizarse con los rudimentos de la programación y las aplicaciones DS.

De hecho, ser clasificado como un Guru Kaggler lo retrata como una persona inteligente que podría aprender de manera rápida y tiene una varita mágica para la programación, no lo convierte automáticamente en un experto científico de datos.

Entonces, diré que el camino de aprendizaje ideal para un principiante en DS no es enfocarse en la clasificación de Kaggle, ya que eso solo lo haría concentrarse en un ML competitivo en lugar de un desarrollo integral en Data Science. Kaggle siempre sería excelente para ML, especialmente si se considera su fantástica comunidad, pero Data Science es más que solo Machine Learning.

Los mejores deseos.

More Interesting

¿Cuáles son los mejores institutos para la capacitación en línea de ciencia de datos en Hyderabad?

¿Cómo es trabajar como científico de datos / analista de datos en una empresa de servicios? ¿Cual es el rol?

¿Los mapas electorales se basan en la geografía y no en la población engañosa?

¿Cuáles son algunos enfoques / reglas generales estándar para la ingeniería de características en el aprendizaje automático competitivo (o de otra manera)?

¿Qué es la ciencia de datos y el análisis de big data?

¿A qué empresa debo postularme para un trabajo si soy ciudadano de la UE y quiero trabajar en los Estados Unidos?

¿Cómo podemos analizar y consultar sobre el diseño, implementación y evaluación de un algoritmo?

¿Es realista que las personas puedan tener el control total de sus datos digitales? ¿Cómo podría cambiar la web comercial y la publicidad en línea?

¿Cómo funciona el análisis espacial con datos topológicos?

¿Cuál es el escenario actual / las perspectivas futuras de la ciencia de datos en la India en comparación con Silicon Valley?

¿Qué hace el signo at (@) en el lenguaje de programación R?

Cómo concentrarme en mis planes (ciencia de datos y programación) para vacaciones de verano

¿Cuál es la mejor manera de probar los motores de recomendación en los datos históricos del usuario?

¿Cuál es la relación entre sobreajuste y cambio de datos?

¿Tengo la oportunidad de trabajar en San Francisco como científico de datos?