Antes de seguir leyendo, vea este video (solo 1m 47s de largo), que muestra cómo un hombre promedio se compara con un jugador de fútbol a 40 yardas.
Cuando hablo con profesionales de la ciencia de datos, especialmente con personas mayores con más experiencia, a menudo encuentro optimismo sobre la competitividad de uno: “Sé lo que estoy haciendo y puedo construir buenos modelos en el trabajo, tal vez mejor que otros”.
- ¿Cuáles son los mejores institutos de capacitación y certificación de Big Data y Hadoop en Bangalore?
- ¿Cuáles deberían ser algunos hitos razonables para un principiante en ciencia de datos?
- ¿Qué tipo de preguntas de prueba A / B debo esperar en una entrevista con un científico de datos y cómo debo prepararme para esas preguntas?
- ¿Cómo afecta la recolección de datos al análisis de datos?
- ¿Es esto con lo que tienen que lidiar los científicos de datos?
Las competencias en línea proporcionan medidas objetivas para al menos algunos criterios, como la precisión de la predicción, el tiempo para construir un buen modelo, la reproducibilidad, etc.
Para la mayoría de los científicos de datos, incluyéndome a mí, trabajar en competiciones es una prueba de realidad y una experiencia humilde:
- En el torneo de Actividad de Proyectos de Investigación Avanzada de Inteligencia (IARPA), el desempeño de los “super pronosticadores” fue 50% mejor que otros pronosticadores, y 30% mejor que incluso aquellos con acceso a datos secretos [1].
- En la KDD Cup 2015, los equipos ganadores lograron más del 90% de precisión, mientras que más de 100 equipos se mantuvieron alrededor del 60% de precisión, un 30% más bajo que el mejor puntaje [2].
- En Criteo Display Advertising Challenge, la solución de referencia proporcionada por un experto de dominio respetado fue superada por más de 100 líneas de código Python escritas por un usuario de Kaggle, tinrtgu.
La larga duración no garantiza un rendimiento superior. Como resumió el Dr. Ericsson en su libro más vendido, Peak, el médico, maestro o conductor con veinte años de experiencia probablemente sea peor que el que tiene solo cinco porque el rendimiento de uno se deteriora gradualmente con años de trabajo rutinario / automatizado en el ausencia de esfuerzos deliberados para mejorar.
Volviendo a la pregunta original, es probable que los científicos de datos empleados “sin aprender de las competencias” tengan un desempeño muy pobre en las competencias.
El aprendizaje no necesita provenir de participar en competencias. De los usuarios de 1MM + Kaggle, solo 65K + participan en concursos, mientras que otros aprenden algoritmos de vanguardia y mejores prácticas de tutoriales, soluciones compartidas por otros, trabajando en conjuntos de datos abiertos, etc.
Cada vez que hablo con alguien que descuenta los beneficios de las competiciones sin tener una sola experiencia de competencia y, sin embargo, tiene mucha confianza en su capacidad de modelado, no puedo dejar de pensar en el video de jugador promedio vs jugador de fútbol anterior, y solo sonríe. 🙂
Compitiendo contra 0.1% de mejora en la precisión? Es como criticar que los velocistas olímpicos de 100 metros compiten por 0.1 segundos. Eso no es para la mayoría de nosotros. No te preocupes por eso hasta que te acerques. Tenemos mucho más camino por recorrer.
Notas al pie
[1] Superforecasting: El arte y la ciencia de la predicción eBook: Philip E. Tetlock, Dan Gardner: Tienda Kindle
[2] Rango