Los datos de entrenamiento son datos con clasificación conocida. Si ya conoce la clasificación de cada dato, entonces no hay necesidad de aprendizaje automático. El aprendizaje automático es útil cuando conoce la clasificación de un conjunto de muestra (entrenamiento) grande y desea predecir la clasificación para un conjunto de datos desconocido (prueba).
Por supuesto, un conjunto de entrenamiento más grande le brinda más precisión para predecir su conjunto de prueba. Pero también requiere más espacio de memoria y más tiempo de procesamiento. Uno de los grandes desafíos de ML es seleccionar los mejores criterios y construir el algoritmo más eficiente para comparar y distinguir mejor las clases de muestra.
Sí, siempre puede arrojar más potencia de cálculo a su problema, pero generalmente está trabajando con una cantidad fija de potencia de cálculo y tiene que escribir un algoritmo que se ejecute en un tiempo razonable. ¿¿Cuánto tiempo?? Eso depende de sus datos y su algoritmo.
- ¿Cuál es la mejor manera de aprender la programación CUDA C para implementar nuevas ideas de aprendizaje profundo?
- ¿Cuáles son algunos algoritmos para resolver el problema de los bandidos multi-armados?
- Máquinas de factorización: ¿cómo hacen los FM para hacer predicciones y aprender?
- ¿Por qué los modelos acústicos DNN / HMM son mejores que GMM / HMM?
- ¿Cuál es el papel de la informática en el aprendizaje automático?
Por cierto, en realidad no “siempre” tenemos datos de entrenamiento. A veces se le presenta un problema sin datos de capacitación, en cuyo caso todo lo que puede hacer es agrupar muestras similares en grupos en lugar de identificarlos. Esto se llama un problema de agrupamiento, mientras que el problema sobre el que preguntó es un problema de clasificación.