¿Se aplica Occam’s Razor en el aprendizaje automático?

Los principios de la Navaja de Occam pueden expresarse como ” cuando se presentan respuestas hipotéticas competitivas a un problema, se debe seleccionar la que haga la menor cantidad de suposiciones

En Machine Learning, el objetivo suele ser aprender un estimador que pueda predecir las etiquetas de destino correctamente. La expectativa es obtener resultados correctos en los ejemplos de capacitación y, con suerte, aproximar el resultado correcto [PAC (Probablemente Aproximadamente Correcto)] en ejemplos de entrada no vistos optimizando la función de pérdida especificada ( función objetivo específica del modelo o un KPI específico del negocio ). Es difícil aproximar la salida correcta en ejemplos invisibles sin suponer el estimador (algoritmo). Formar tales supuestos se llama agregar un sesgo de aprendizaje (o sesgo inductivo). Para una comprensión detallada del sesgo, consulte (Evaluación y selección de sesgos en el aprendizaje automático, Marie DesJardins et al. (’95)). Una de estas formas de sesgo inductivo se llama Longitud mínima de descripción (MDL). La idea con MDL es optimizar en hipótesis más simples para equilibrar entre sobreajuste y subadaptación ( Equilibrio entre sesgo y varianza ). Esto se alinea bastante bien con el principio de Navaja de Occam. Uno podría aplicar este principio mientras entrena algoritmos de ML basados ​​en el árbol (por ejemplo, árboles de decisión). Consulte una explicación intuitiva del Prof. Carlos Guestrin “Principio de la navaja de afeitar de Occam”

Otra referencia sobre la comprensión de MDL: http: //www.cs.cmu.edu/~awm/15781…

En un ML bayesiano, se podría pensar en la aplicación del principio Razor de Occam mientras se realiza la selección del modelo bayesiano no solo optimizando para maximizar la probabilidad de probabilidad (P (D | m)). Los modelos con más parámetros pueden ajustarse bien a los datos; dando como resultado una mayor probabilidad marginal, por lo tanto, sobreajuste. Esto podría evitarse aplicando validación cruzada para validar el error de generalización de diferentes modelos. Para obtener más información, consulte https://www.cs.princeton.edu/cou…

Si. Durante el ajuste del modelo, construye un modelo que es lo más simple posible y al mismo tiempo proporciona resultados óptimos en los datos de prueba / validación. El objetivo principal del aprendizaje automático es diseñar un modelo que utilice datos de capacitación para generalizar los resultados y, por lo tanto, funcionar bien en datos no vistos. A medida que aumenta la complejidad del modelo, también aumenta el número de parámetros necesarios para aprender. Sin grandes cantidades de datos, el modelo se ajustará estrechamente a estos puntos de datos, memorizando efectivamente los datos de entrenamiento; sobreajuste Durante la validación cruzada, si el rendimiento teniendo en cuenta las características D es el mismo que teniendo en cuenta las características D + k , lo mejor es elegir el modelo anterior (más simple). No es necesario hacer un modelo más complejo de lo que debe ser.

Una suposición importante que hago acerca de la validez de la Navaja de Occam: la variación de los datos de entrenamiento debe ser similar a la de la población; Los datos reales de los que se muestrean los puntos de prueba. Si los puntos de datos de entrenamiento son demasiado similares y representativos de solo una parte de la población, entonces el modelo más simple que funciona bien en los datos de entrenamiento puede ser demasiado simple (o completamente incorrecto) que conduce a una falta de adaptación.

Sí, pero en realidad no es obligatorio: es posible que desee leer sobre el sesgo inductivo. En pocas palabras, debe tener una suposición básica sobre cómo generalizar a ejemplos invisibles, ya que de lo contrario un alumno nunca tendrá ningún conocimiento además del conjunto de capacitación, en cuyo caso el único procedimiento de aprendizaje correcto sería repetir los ejemplos o resultados vistos ” DESCONOCIDO “para todos los nuevos.

Asumir que, dada una familia de conceptos, que los conceptos más simples son mejores, resulta que funcionan bien en la práctica (SI ha elegido una familia modelo ‘adecuada’) ya que evita el sobreajuste, es decir, el ruido de aprendizaje de los ejemplos de capacitación, que ocurre en La mayoría de los problemas de aprendizaje que abordamos en Machine Learning.

Consideremos algunos materiales en los que se puede extraer este contenido:

Lo que vemos aquí es un montón de conceptos diferentes, todos contienen el token “aprendizaje” o algún aspecto de “inteligencia” pero no necesariamente pertenecen a la misma área semántica (estos son los 250 primeros tokens de una exploración temática). Si construimos un sesgo hacia la simplicidad (que debe ser la contribución clave de “la Navaja”), podríamos imaginar nuestra máquina apuntando a esta representación, obviamente más simple:

Sin embargo, también podríamos optar por una representación no tan simple, donde nuestro concepto parece más complejo, pero también más informativo:

Es posible imaginar el aprendizaje automático que interactúa principalmente con otras máquinas. Pero si estoy en lo cierto al suponer que la esencia de “la Navaja”, la deliberación inteligente de qué simplificar y qué no simplificar, creo que los humanos que reciben el apoyo de las máquinas insistirán en tener una gran voz sobre cómo se tomarán las decisiones de simplificación. . Además, y esto parece ser una tendencia, espero que los humanos sigan siendo siempre curiosos sobre todos los aspectos del material subyacente y los supuestos.

Absolutamente. Esa es la esencia del sobreajuste: se construye un modelo que se ajusta a la evidencia, pero es tan complicado y frágil que es probable que su rendimiento predictivo sea muy limitado.

Si.

La Navaja de Occam es una base sobre la cual puedes probar la generalización. Vea este tutorial ( http://hunch.net/~jl/projects/pr …) saliendo de mi tesis.

More Interesting

¿Cuáles son los libros de texto clásicos y de lectura obligatoria en las estadísticas?

Cómo aprender el aprendizaje automático para crear aplicaciones

¿Es posible que AI / ML aprenda el patrón subyacente en los siguientes problemas y prediga la respuesta?

Necesito analizar resúmenes de texto en lenguaje humano e identificar los temas mencionados en ellos. ¿Esto cae bajo el reconocimiento de la entidad nombrada?

Inferencia bayesiana: si tuviera que trazar un millar de correos electrónicos basados ​​en "spaminess" utilizando un algoritmo simple de Naive Bayes para establecer la probabilidad de "spaminess" para el eje x, ¿cuál debería ser mi eje y?

¿Cómo se recupera la información de las cajas negras?

¿Qué técnicas son buenas para suavizar los clics de las consultas de cola larga en los motores de búsqueda?

¿Por qué los investigadores de sistemas informáticos no creen en la IA o la aplican a problemas en los 'sistemas informáticos'?

En el análisis de sentimientos, ¿cómo son útiles los datos etiquetados por humanos para extraer características y capacitar a los clasificadores en el enfoque de aprendizaje automático?

¿Cuál es un algoritmo de detección de imagen apropiado para detectar corrosión / óxido?

¿Cómo se puede aplicar el aprendizaje profundo a los sistemas de recomendación en el mercado de valores?

¿Cuáles son los algoritmos para el resumen automático? ¿Alguien puede explicar los pasos en el resumen automático?

¿Importa el número de imágenes para cada categoría mientras se entrena para una red neuronal convolucional?

¿Cuáles son los modelos actuales de análisis de sentimiento de arte independientemente de la efectividad?

Aprendizaje profundo: ¿Qué es la búsqueda jerárquica de correspondencia?