Mucho.
Breve resumen de los principales descubrimientos:
- Hay mucho que se puede hacer con los datos. La mayor parte es elegante pero no tiene valor comercial. Elegir sabiamente. Déjate llevar por lo que quieres entregar, no por lo que sería genial construir.
- Qué datos usar es la pregunta más importante. Descubrir cómo conectar los puntos entre diferentes áreas es un orden de magnitud más importante que saber cómo aprovechar al máximo los datos que provienen de un solo dominio.
- La diferencia entre algoritmos es a menudo menor. La diferencia entre los métodos es a menudo enorme. Rara vez es la clave utilizar la regresión logística en lugar de un simple SVM. Sin embargo, es extremadamente importante tener la intuición que daría sugerencias en la línea de “filtrar por clics y ejecutar el filtrado colaborativo”.
- Los datos siguen sorprendiendo incluso a las personas más experimentadas. La mayoría de las veces “los veteranos” tendrían una buena idea sobre cuál sería el resultado de cierto experimento o qué ideas valen o no vale la pena intentar. Pero de vez en cuando surgiría un caso contrario a la intuición y mantendría al equipo desconcertado durante varias horas o días. Esos son los momentos invaluables para aprender.
- Las herramientas universales no valen la pena. Casi siempre es imposible predecir qué tipo de información sobre datos es la próxima gran cosa. Los intentos de construir una caja negra capaz de responder cualquier pregunta posible son en su mayoría inútiles. Cada nuevo tipo de experimento requeriría un nuevo código; esta es la idea para sentirse cómodo. Personalmente me encanta, pero algunas personas pueden tener reservas.
Actualización: Hice una publicación de blog con esta respuesta: Big Data Experience Takeaways.
- Cómo implementar el aprendizaje sensible al costo en TensorFlow para penalizar la clasificación errónea en clases minoritarias (los datos tienen un problema de desequilibrio de clase)
- ¿Cómo se mejora y mejora la técnica de aprendizaje automático mientras nadie sabe exactamente cómo funciona?
- ¿Cuál es más adecuado para un aprendizaje automático de codificador o desarrollo web?
- ¿Qué es una comprensión intuitiva del análisis factorial?
- En un modelo gráfico dirigido, el aprendizaje es fácil pero la inferencia es difícil. ¿Es esto cierto?