Los datos de entrenamiento deben estar lo más cerca posible de los datos reales que espera ver. Debes evitar usar un subconjunto sesgado de posibles ejemplos de entrenamiento porque entonces tu clasificador entrenado probablemente funcionará mal en el resto del espacio de entrada.
La cantidad de datos que necesita depende de la complejidad del concepto que la máquina está tratando de aprender.
- Idealmente, use un conjunto de datos grande y previamente etiquetado. Por ejemplo, si intentaba predecir el clima, sería excelente utilizar datos de entrenamiento históricos que ya estaban etiquetados.
También puede encontrar una amplia variedad de conjuntos de datos etiquetados aquí: http://archive.ics.uci.edu/ml/da… - Si esto no es posible, el siguiente mejor enfoque sería etiquetar los datos a mano. Para la clasificación de la escritura a mano, por ejemplo, podría tomar muchas muestras de texto escrito a mano y tener una etiqueta humana.
La desventaja de este enfoque es que lleva mucho tiempo. Podrías externalizar esto a un servicio similar a Mechanical Turk o construir un juego que produzca ejemplos de entrenamiento etiquetados, si vale la pena el esfuerzo. - Si el algoritmo interactúa con los usuarios, podría recopilar comentarios de los usuarios (por ejemplo, ¿se aceptó o rechazó la ‘recomendación’ aprendida por la máquina?) Para desarrollar aún más su conjunto de datos de capacitación, si su política de privacidad le permite hacerlo.
Es difícil entrar más en detalles porque no sé exactamente qué tipo de datos está tratando de recopilar. ¿Puedes dar más detalles sobre la situación?
- ¿Hay algún ejemplo de código de agrupación de documentos utilizando PCA o Autoencoder o algún otro algoritmo de agrupación?
- ¿Cuál es la ventaja de combinar la red neuronal convolucional (CNN) y la red neuronal recurrente (RNN)?
- ¿Por qué la función de activación de softmax se llama "softmax"?
- ¿Dónde puedo encontrar modelos de TensorFlow previamente entrenados como el zoológico modelo Caffe?
- ¿Cuáles son los conceptos básicos de los campos aleatorios condicionales?