En el aprendizaje automático, ¿cuáles son las mejores cosas que puede hacer para limitar la cantidad de muestras de capacitación requeridas?

La mejor manera de aprovechar al máximo un número limitado de puntos de datos es incorporar tanta información previa como sea posible. Este conocimiento previo puede venir de muchas maneras, incluyendo experiencia en el dominio, conjuntos de datos relacionados y datos sin etiquetar.

La forma precisa que incorpora el conocimiento previo depende de la aplicación. Aquí están algunos ejemplos:

Reconocimiento de dígitos escritos a mano : los mejores resultados en el conjunto de datos MNIST incorporan distorsiones artificiales en el conjunto de datos, como distorsiones elásticas y afines de los dígitos. Esto incorpora conocimiento previo sobre la conectividad de píxeles y la naturaleza de los dígitos escritos que no están presentes en el conjunto finito original, y lo extiende a un número virtualmente infinito de muestras. (http://yann.lecun.com/exdb/mnist/)
Microsoft Kinect : Los datos de entrenamiento para convertir un mapa de profundidad en modelos esqueléticos de humanos presentes en la escena se crearon con un sistema de captura de movimiento con una variedad de sujetos humanos en diferentes poses. Sin embargo, esto no fue suficiente: el conjunto de datos se incrementó de manera similar a MNIST. Los datos se aumentaron con muestras distorsionadas de los datos originales que incorporaron conocimiento sobre el sistema Kinect junto con las capacidades de anatomía y movimiento del cuerpo humano para producir un millón de muestras de entrenamiento (http://techtalks.tv/talks/54443/)
Métodos bayesianos : como menciona Brian Cheung, los métodos bayesianos pueden usarse para crear modelos generativos de los datos, y el conocimiento del dominio puede incorporarse explícitamente a través de los antecedentes. Por ejemplo, si está tomando muestras de una distribución paramétrica conocida, como una Gaussiana, esto reduce en gran medida el número de puntos de datos necesarios para estimar la distribución dentro de límites específicos. Otra forma sería incorporar el conocimiento previo sobre las relaciones causales o de independencia entre características en un modelo gráfico bayesiano.
Aprendizaje de funciones no supervisadas y aprendizaje de transferencia: el aprendizaje no supervisado es útil cuando abundan los datos sin etiquetar, pero etiquetarlos es costoso. Los puntos de datos sin etiquetar se utilizan para conocer la rica estructura estadística presente en los datos y crear mejores representaciones de características para usar en la clasificación supervisada. Esto ha sido especialmente exitoso para la clasificación de objetos en visión artificial (http://ai.stanford.edu/~ang/pape…, http://www.cs.toronto.edu/~hinto…). En el aprendizaje por transferencia, los conjuntos de datos relacionados se utilizan para mejorar el rendimiento (http://clopinet.com/isabelle/Pro…).