¿Es posible usar datos sintéticos (no de la vida real) en un modelo de aprendizaje automático?

Sí, puede usar absolutamente datos de entrenamiento sintéticos para entrenar nuevos modelos.

A menudo, esta es una buena manera si tiene un modelo totalmente funcional pero muy lento que representa muy bien sus datos. Su objetivo se convierte esencialmente en entrenar un modelo nuevo y más rápido que refleje el anterior. Alternativamente, es posible que tenga una función que funcione perfectamente para asignar X a Y, pero necesita la función inversa que asigna Y a X.

En cuanto a los riesgos de hacer esto, dos vienen a la mente:
1. Solo lo harás tan bien como tus datos de entrenamiento. Esto también es válido para los datos de la vida real, por supuesto, pero ahora tiene un riesgo adicional de sintetizar datos defectuosos.
2. Incluso si sus datos sintéticos son datos perfectamente correctos, es posible que no esté cubriendo casos de esquina como lo harían los datos reales.

TL; DR Si sus datos sintéticos imitan perfectamente los datos reales, es igual de bueno para fines de capacitación, y el riesgo es que este no sea el caso, incluso si cree que lo es.

Sí, puede usar datos de simulación para entrenar un modelo de aprendizaje automático.

¡Esto es exactamente lo que hicieron los físicos del CERN (y continuarán haciendo) para buscar y, con suerte, descubrir nuevas partículas como el bosón de Higgs!

Sus búsquedas y análisis dependen en gran medida de la comprensión de los datos registrados por los detectores que tienen. Entonces es sencillo usar estos datos y datos simulados de un fenómeno hipotético para buscarlos en datos reales.

Este es un enfoque común en la física de partículas.

Definitivamente es posible utilizar datos sintéticos en la construcción de un modelo de aprendizaje automático.

Ventajas:

  • Sin riesgo de problemas de derechos de autor.
  • Genial para entender un concepto particular.

Desventajas

  • Riesgo de introducir sesgos.
  • No es bueno para comprender problemas de datos del mundo real.

No hay distinción entre datos sintéticos y datos de la vida real.

Entonces sí.

More Interesting

¿Cuál es el mejor algoritmo de agrupamiento adaptativo k-means (que k se elige automáticamente)?

¿Cuál es la explicación de la causa de la explosión y desaparición del gradiente de red neuronal recurrente RNN?

¿Se utiliza el álgebra abstracta y el análisis real en el aprendizaje automático? Si es así, ¿cómo se usan?

¿Cuál es la principal diferencia entre los problemas de clasificación y los problemas de regresión en el aprendizaje automático?

¿Cuál es la función de transferencia en redes neuronales artificiales?

¿Está muriendo la investigación en aprendizaje profundo?

¿Por qué los pesos hacia adelante y hacia atrás son iguales en la máquina de Boltzmann restringida?

¿Cuál es la diferencia entre el análisis factorial y las técnicas de selección de características, como el análisis de componentes principales y la asignación de dirichlet latente?

Además de experimentar emoción, ¿qué cosas puede hacer un niño humano que una computadora no puede hacer?

¿Por qué es importante aprender el descenso de gradiente en el aprendizaje automático?

¿Cuáles son algunos de los problemas de desarrollo que enfrenta la inteligencia artificial?

¿Puede el aprendizaje profundo predecir los dígitos de Pi?

¿Cuáles son las diferentes técnicas de minería de texto?

Redes neuronales convolucionales: ¿Qué están haciendo los regresores de cuadro delimitador en Fast-RCNN?

¿Las redes neuronales artificiales pueden modelar interacciones multiplicativas?