Pensar en el aprendizaje profundo y los grandes datos es la solución para todo.
Este es el error más común que veo entre los nuevos científicos de datos. Si bien el aprendizaje profundo ha demostrado un rendimiento de vanguardia en algunos dominios problemáticos, como la visión por computadora, existen muchos otros algoritmos que son más apropiados en otros casos. La regresión lineal y los árboles de decisión simples todavía se encuentran entre los algoritmos más útiles en la ciencia de datos. Hay metaheurísticas, varias técnicas de simulación y un montón de otras clases de algoritmos de los que casi nadie habla nunca más. Los científicos de datos sin experiencia a menudo pensarán que son “obsoletos”. Bueno, eso simplemente no es cierto.
En cuanto a Big Data, es más un problema que una solución. La mayoría de las veces, tratamos de mantener los datos en un volumen manejable, solo recurriendo a las tecnologías de big data cuando es necesario. Además, más datos no significa automáticamente más valor. Anteriormente he discutido esto en la respuesta de Håkon Hapnes Strand a ¿Los científicos de datos necesariamente trabajan con grandes datos?
- ¿Cómo comenzar con Apache Spark y dónde buscar un buen entrenamiento?
- ¿Cuál de los siguientes 2 cursos en la India es mejor para una carrera en ciencia de datos, Udacity o Courseera?
- ¿Puedo duplicar los mismos datos para una tarea de clasificación en términos de aumento de datos?
- ¿Cuándo los vecinos más cercanos clasificador \ regresión fallarían miserablemente?
- ¿Dónde puedo obtener tutoriales en línea gratuitos para análisis de big data con python?
Prefiere soluciones complejas a las simples.
Los científicos de datos sin experiencia adoran los algoritmos complejos, porque suenan geniales. Puede sentirse bien consigo mismo cuando está trabajando en una topología de aprendizaje profundo altamente compleja y esotérica, pero si puede lograr el mismo resultado con una regresión lineal, solo está perdiendo el tiempo. En igualdad de condiciones, la solución más simple es la mejor. Recuerda la navaja de Occam [1]. Sé que has oído hablar de eso.
Modelado antes de entender.
Todo científico de datos en ciernes debería analizar detenidamente el Proceso estándar de la industria cruzada para la minería de datos o el CRISP-DM [2]. Es un acrónimo horrible, pero hay una razón por la cual este ha sido el estándar de la industria durante dos décadas. Un proyecto de ciencia de datos comienza con la comprensión empresarial, la comprensión de datos y la preparación de datos. Esto es realmente importante Un científico de datos sin experiencia puede verse tentado a saltar directamente al modelado, pero eso solo será contraproducente.
Ver patrones donde no hay ninguno.
Los humanos tienen un talento increíble para encontrar patrones en los datos, incluso donde no los hay. Incluso hay una palabra para eso, se llama apofenia [3]. Hemos observado los cielos y hemos visto figuras y constelaciones en las estrellas desde los albores del hombre, sin embargo, las estrellas son solo puntos al azar. Los científicos de datos sin experiencia a menudo se sienten tentados a poner demasiado en series de datos correlacionadas. Recuerde, niños y niñas, la correlación no es lo mismo que la causalidad [4].
No pasar suficiente tiempo en ingeniería de características.
Aquí es donde Kaggle puede enseñarnos algo. La ingeniería de características sólidas puede obtener una puntuación muy alta en la tabla de clasificación con un algoritmo de aprendizaje relativamente simple. Los científicos de datos sin experiencia pueden pensar que el apilamiento de modelos sofisticados y el ajuste de hiperparámetros es donde se debe tener toda la ventaja, pero esas son principalmente técnicas en las que los ganadores de las competiciones de Kaggle dedican mucho tiempo para obtener esos últimos pocos puntos decimales en la puntuación. En un entorno del mundo real, esta fantasía no es rentable y solo contribuye a una mayor complejidad. Sin embargo, la ingeniería de características puede mejorar enormemente los resultados.
No pasar suficiente tiempo hablando con expertos en dominios.
Cada proyecto exitoso de ciencia de datos consta de tres personas clave: un científico de datos, un experto en dominios y un experto en datos. El experto en dominios es alguien con una buena comprensión del negocio, mientras que el experto en datos es idealmente un ingeniero de datos que está íntimamente familiarizado con los datos. Muchos científicos de datos sin experiencia intentan ser los tres a la vez. A menos que esté trabajando en un problema dentro de su propia organización y haya trabajado allí durante varios años, necesita ayuda.
Ser descuidado con la prueba de hipótesis.
Si usa el mismo conjunto de datos para validación cruzada y pruebas, su modelo estará sujeto a sesgos de selección. Los científicos de datos que recién están comenzando parecen amar la buena y antigua división de tren / prueba 70/30, pero esto no es lo suficientemente bueno. Debe probar su modelo correctamente en producción para evaluar realmente su rendimiento.
Notas al pie
[1] Navaja de Occam – Wikipedia
[2] Proceso estándar de la industria cruzada para la minería de datos – Wikipedia
[3] Apophenia – Wikipedia
[4] 15 cosas locas que se correlacionan entre sí