Sí, puede usar absolutamente datos de entrenamiento sintéticos para entrenar nuevos modelos.
A menudo, esta es una buena manera si tiene un modelo totalmente funcional pero muy lento que representa muy bien sus datos. Su objetivo se convierte esencialmente en entrenar un modelo nuevo y más rápido que refleje el anterior. Alternativamente, es posible que tenga una función que funcione perfectamente para asignar X a Y, pero necesita la función inversa que asigna Y a X.
En cuanto a los riesgos de hacer esto, dos vienen a la mente:
1. Solo lo harás tan bien como tus datos de entrenamiento. Esto también es válido para los datos de la vida real, por supuesto, pero ahora tiene un riesgo adicional de sintetizar datos defectuosos.
2. Incluso si sus datos sintéticos son datos perfectamente correctos, es posible que no esté cubriendo casos de esquina como lo harían los datos reales.
- ¿En qué técnicas de aprendizaje automático se puede confiar para identificar (y posiblemente tratar) la deriva del concepto?
- Cómo lidiar con una matriz escasa de pares de elementos de usuario mientras se construye un sistema de recomendación de filtrado colaborativo basado en perceptrón
- ¿Debería Facebook usar el aprendizaje automático para identificar a los usuarios con potencial de convertirse en un asesino en masa?
- ¿Es mejor hacer una competencia de ciencia de datos en Kaggle o crear un algoritmo comercial en Quantopian para encontrar un trabajo en finanzas cuantitativas?
- Cómo combinar clasificador basado en reglas y SVM
TL; DR Si sus datos sintéticos imitan perfectamente los datos reales, es igual de bueno para fines de capacitación, y el riesgo es que este no sea el caso, incluso si cree que lo es.