Esta es la situación ideal
Sus principales problemas serán asociaciones espurias y construcción de modelos que tomarán demasiado tiempo.
[Asociaciones espurias]. Supongamos que sus datos no se limpian del todo correctamente y algunas variables de entrada provienen después del evento, o tiene tantos datos que alcanzará el 99% de confianza solo por coincidencia aleatoria. Tiendo a abordar esto pensando en cómo modelaría el mundo real y luego qué tan cerca puedo asignarlo a los datos.
- ¿Cuál es el mejor instituto en Hyderabad para aprender Hadoop y big data?
- ¿Qué es big data en telecomunicaciones?
- ¿Qué es la asociación de datos en el aprendizaje automático?
- Cómo adelantarme a mi competencia con la ayuda de Big Data
- El ícono de Machine Learning Xavier Amatriain dejó recientemente Netflix para unirse a Quora como vicepresidente de ingeniería. ¿Qué hará él allí? ¿Qué hizo a Quora lo suficientemente interesante como para unirse? ¿Qué nos tiene reservado Quora?
[Tiempo de construir]. Cuantos más datos agregue, más tiempo llevará construir el modelo. Esto se soluciona fácilmente desechando los datos. Siempre puede volver a ejecutar más tarde con más datos si encuentra que aumenta la precisión de su modelo.
Oh, la otra cosa que vale la pena mencionar son las agregaciones. Los modelos no son mágicos … solo porque tiene todos los datos brutos necesarios para que el modelo cree asociaciones sofisticadas, y está utilizando un algoritmo que puede crear asociaciones sofisticadas (por ejemplo, red profunda) … eso no lo convierte en una buena idea . Si puede utilizar su conocimiento sobre el mundo real para simplificar el proceso de modelado, casi le garantizo que obtendrá mejores resultados. Por ejemplo, si está prediciendo abandono y tiene sus datos de transacción, teóricamente un modelo sofisticado podría derivar si el gasto total tiende a la baja, pero en la práctica construir un atributo de ‘tendencia en gasto total’ dará resultados mucho mejores.