En el aprendizaje automático, ¿cuáles son las mejores cosas que puede hacer para limitar la cantidad de muestras de capacitación requeridas?

La mejor manera de aprovechar al máximo un número limitado de puntos de datos es incorporar tanta información previa como sea posible. Este conocimiento previo puede venir de muchas maneras, incluyendo experiencia en el dominio, conjuntos de datos relacionados y datos sin etiquetar.

La forma precisa que incorpora el conocimiento previo depende de la aplicación. Aquí están algunos ejemplos:

  • Reconocimiento de dígitos escritos a mano : los mejores resultados en el conjunto de datos MNIST incorporan distorsiones artificiales en el conjunto de datos, como distorsiones elásticas y afines de los dígitos. Esto incorpora conocimiento previo sobre la conectividad de píxeles y la naturaleza de los dígitos escritos que no están presentes en el conjunto finito original, y lo extiende a un número virtualmente infinito de muestras. (http://yann.lecun.com/exdb/mnist/)
  • Microsoft Kinect : Los datos de entrenamiento para convertir un mapa de profundidad en modelos esqueléticos de humanos presentes en la escena se crearon con un sistema de captura de movimiento con una variedad de sujetos humanos en diferentes poses. Sin embargo, esto no fue suficiente: el conjunto de datos se incrementó de manera similar a MNIST. Los datos se aumentaron con muestras distorsionadas de los datos originales que incorporaron conocimiento sobre el sistema Kinect junto con las capacidades de anatomía y movimiento del cuerpo humano para producir un millón de muestras de entrenamiento (http://techtalks.tv/talks/54443/)
  • Métodos bayesianos : como menciona Brian Cheung, los métodos bayesianos pueden usarse para crear modelos generativos de los datos, y el conocimiento del dominio puede incorporarse explícitamente a través de los antecedentes. Por ejemplo, si está tomando muestras de una distribución paramétrica conocida, como una Gaussiana, esto reduce en gran medida el número de puntos de datos necesarios para estimar la distribución dentro de límites específicos. Otra forma sería incorporar el conocimiento previo sobre las relaciones causales o de independencia entre características en un modelo gráfico bayesiano.
  • Aprendizaje de funciones no supervisadas y aprendizaje de transferencia: el aprendizaje no supervisado es útil cuando abundan los datos sin etiquetar, pero etiquetarlos es costoso. Los puntos de datos sin etiquetar se utilizan para conocer la rica estructura estadística presente en los datos y crear mejores representaciones de características para usar en la clasificación supervisada. Esto ha sido especialmente exitoso para la clasificación de objetos en visión artificial (http://ai.stanford.edu/~ang/pape…, http://www.cs.toronto.edu/~hinto…). En el aprendizaje por transferencia, los conjuntos de datos relacionados se utilizan para mejorar el rendimiento (http://clopinet.com/isabelle/Pro…).

Si tiene un gran conjunto de datos sin etiqueta y tiene que pagar para obtener etiquetas para el conjunto de datos, también puede considerar el aprendizaje semi-supervisado o activo.

El aprendizaje semi supervisado utiliza ejemplos sin etiquetar para mejorar la precisión.

El aprendizaje activo determina qué puntos de entrenamiento no etiquetados mejorarían más la precisión si fueran etiquetados.

Reduzca la complejidad de los datos eliminando cualquier cosa que ya haya sido explicada por otros modelos. Cuanto más simple sea el problema, menos datos de capacitación necesitará.

Cuando se implementa en línea, esto a menudo se conoce como el método de recuadro gris y no es infrecuente en el modelado de procesos. Puede haber dicho, una serie temporal de un sistema complicado y un modelo analítico que explica algunos de los comportamientos. Restas la predicción de los datos sin procesar para obtener el ‘residual’ y solo entonces se introduce un algoritmo ML para trabajar en lo que queda.

Utilizamos el mismo principio en el preprocesamiento de datos, cuando estamos reduciendo la tendencia o eliminando las estacionalidades. Ya tenemos un ‘modelo’ de cómo debería ser la estacionalidad (información previa si lo desea) y la restamos para que el algoritmo ML no se adhiera a predicciones triviales.