¿Cuántos científicos de datos empleados pueden resolver problemas de competencias en línea como la de Kaggle?

Antes de seguir leyendo, vea este video (solo 1m 47s de largo), que muestra cómo un hombre promedio se compara con un jugador de fútbol a 40 yardas.

Cuando hablo con profesionales de la ciencia de datos, especialmente con personas mayores con más experiencia, a menudo encuentro optimismo sobre la competitividad de uno: “Sé lo que estoy haciendo y puedo construir buenos modelos en el trabajo, tal vez mejor que otros”.

Las competencias en línea proporcionan medidas objetivas para al menos algunos criterios, como la precisión de la predicción, el tiempo para construir un buen modelo, la reproducibilidad, etc.

Para la mayoría de los científicos de datos, incluyéndome a mí, trabajar en competiciones es una prueba de realidad y una experiencia humilde:

  • En el torneo de Actividad de Proyectos de Investigación Avanzada de Inteligencia (IARPA), el desempeño de los “super pronosticadores” fue 50% mejor que otros pronosticadores, y 30% mejor que incluso aquellos con acceso a datos secretos [1].
  • En la KDD Cup 2015, los equipos ganadores lograron más del 90% de precisión, mientras que más de 100 equipos se mantuvieron alrededor del 60% de precisión, un 30% más bajo que el mejor puntaje [2].
  • En Criteo Display Advertising Challenge, la solución de referencia proporcionada por un experto de dominio respetado fue superada por más de 100 líneas de código Python escritas por un usuario de Kaggle, tinrtgu.

La larga duración no garantiza un rendimiento superior. Como resumió el Dr. Ericsson en su libro más vendido, Peak, el médico, maestro o conductor con veinte años de experiencia probablemente sea peor que el que tiene solo cinco porque el rendimiento de uno se deteriora gradualmente con años de trabajo rutinario / automatizado en el ausencia de esfuerzos deliberados para mejorar.

Volviendo a la pregunta original, es probable que los científicos de datos empleados “sin aprender de las competencias” tengan un desempeño muy pobre en las competencias.

El aprendizaje no necesita provenir de participar en competencias. De los usuarios de 1MM + Kaggle, solo 65K + participan en concursos, mientras que otros aprenden algoritmos de vanguardia y mejores prácticas de tutoriales, soluciones compartidas por otros, trabajando en conjuntos de datos abiertos, etc.

Cada vez que hablo con alguien que descuenta los beneficios de las competiciones sin tener una sola experiencia de competencia y, sin embargo, tiene mucha confianza en su capacidad de modelado, no puedo dejar de pensar en el video de jugador promedio vs jugador de fútbol anterior, y solo sonríe. 🙂

Compitiendo contra 0.1% de mejora en la precisión? Es como criticar que los velocistas olímpicos de 100 metros compiten por 0.1 segundos. Eso no es para la mayoría de nosotros. No te preocupes por eso hasta que te acerques. Tenemos mucho más camino por recorrer.

Notas al pie

[1] Superforecasting: El arte y la ciencia de la predicción eBook: Philip E. Tetlock, Dan Gardner: Tienda Kindle

[2] Rango

Soy un Data Scientist empleado, y he hecho Kaggle durante un par de años, ganando dos competiciones y luego retirándome definitivamente del competitivo aprendizaje automático.

A pesar del hecho de que el título de Data Scientist significa todo tipo de cosas, esperaría que cualquiera con ese título de trabajo pueda resolver un problema de Kaggle. Dejame explicar.

Para mí, resolver un problema de Kaggle realmente significa hacer una presentación basada en un modelo que entrenaste. Eso es todo. Presentó una solución (quizás débil) a un problema de aprendizaje automático.
No estoy hablando de hacer un top 10% o ser competitivo. Si eso es lo que quisiste decir, entonces mi respuesta sería no.

Con esa suposición en mente, ¿esperaría que alguien sea bueno en eso? No.
¿Esperaría que alguien supiera qué hacer en el momento en que vea el problema? No.

Pero si te llamas a ti mismo un Científico de Datos, deberías tener algunas habilidades analíticas mínimas que, incluso si nunca antes habías hecho Kaggle y no sabías nada sobre el aprendizaje automático, te permitirían arrastrarte hacia una presentación.

Espero que cualquier científico de datos pueda trabajar con datos. Y espero que cualquier Data Scientist sea capaz y tenga la curiosidad de usar Google y StackOverflow para descubrir cómo usar una API. Todo lo que digo es que un Científico de Datos debería poder importar algunos datos, usar una API para preparar los datos y alimentarlos en un algoritmo de ML, y realizar un envío.

Ahora, si resolver el problema significa hacer algo más y tal vez ser algo competitivo, entonces esperaría que solo una minoría de científicos de datos puedan hacerlo. Puede ser un gran científico de datos, tal vez trabajar en Google y ser el mejor que hay en las pruebas A / B y aportar un montón de valor, aunque puede saber muy poco sobre el aprendizaje automático. Eso está perfectamente bien. Para hacerlo bien en Kaggle, necesitas algunos antecedentes de ML.

Si equiparas “resolver” a ser competitivo en un nivel superior de 10, entonces esperaría que menos de 1 en 1,000 pueda hacerlo. Incluso si conoces muy bien el LD en un contexto empresarial, ser un actor de Kaggle requiere un conocimiento de las cosas que aportan muy poco valor a la mayoría de los problemas comerciales de ML, como el ensamblaje extremo, el aprendizaje semi supervisado y muchos otros trucos que suman 4to. Mejoras decimales, pero marcan la diferencia entre un top 10 y un rendimiento medio del paquete.

Trabajo como científico de datos durante varios años.

Siento que llegar al 10% superior es relativamente fácil: pocos días de trabajo.

Mi enfoque es implementar adecuadamente las técnicas estándar a veces incluso sin creatividad, y es útil si conoce el campo o conoce las dificultades comunes de la implementación de ML, como la corrección cruzada o la corrección correcta. Creo que las personas por debajo del 90% se deben principalmente a errores sutiles que puedes evitar si tienes experiencia en ML.

Además, nunca hago conjuntos extremos, ya que es muy conflictivo con mi comprensión de lo práctico, consume mucho tiempo y no me enseña cosas nuevas, por lo que no podría ser muy competitivo.

Entonces, mi opinión, muchos científicos de datos reales podrían fácilmente ubicarse en el 10% superior en su campo, y en cualquier otro campo de competencia con algún trabajo adicional.

Nunca hice Kaggle, nunca me metí en eso, ya que tengo muchos datos del trabajo para jugar y hay otros más fáciles para probar nuevos métodos en un trabajo académico.

Me aventuraría a que el 100% de las personas empleadas en el campo podrían crear un buen modelo predictivo en un conjunto de datos dado. Probablemente el 60-70% de ellos podría elegir el mejor método para satisfacer las necesidades del proyecto de manera confiable (la interpretabilidad, el tiempo de cálculo, los supuestos de los métodos / los datos recopilados, la ingeniería de software sin conocimientos matemáticos y otras personas sin muchos conocimientos matemáticos que se aventuran en el aprendizaje automático son probablemente los que podrían luchar).

En cuanto a ganar competiciones de Kaggle, en el mundo real, una diferencia del 0.1% con un esfuerzo adicional del 50% probablemente no valga la pena.

More Interesting

¿Cómo explicaría al público la importancia de generar ideas a partir de los datos?

¿Cuáles son las carreras alternativas para una persona que es buena en análisis / algoritmos / estadísticas pero que no es buena en programación como se requiere para un científico de datos?

¿Existe una buena biblioteca para los algoritmos de detección de deriva conceptual?

¿Ayudará una formación en economía si me especializo en ciencia de datos?

¿En qué se diferencia una maestría en ciencia e ingeniería de datos de la analítica empresarial? ¿Cuál es mejor?

¿Qué tan difícil es para un chico experimentado de 5 años cambiar a la carrera de ciencia de datos en India?

¿Qué tipo de métodos de ciencia de datos se pueden aplicar a los datos de tráfico web?

¿Cuál es su opinión del Certificado de Harvard Data Science?

Quiero ser exhaustivo con programación y estadísticas en profundidad en poco tiempo. ¿Qué tengo que hacer? ¿Cuáles son algunos buenos libros para principiantes / intermedios?

¿Cuáles son las 5 principales ventajas principales de Big Data?

¿Qué es la ciencia de datos y cómo se relaciona Python con ella?

¿Cuál es el panorama del big data en 2016?

¿Qué opinas de todos estos programas de maestría de Data Science que están saliendo?

¿Cuántos estudiantes han completado la especialización en ciencia de datos de Coursera hasta la fecha?

Por lo general, en la tercera sección de un artículo describimos el tipo de datos, la fuente de datos, el análisis de datos, etc. ¿Es este un método o una sección de metodología?