Los principios de la Navaja de Occam pueden expresarse como ” cuando se presentan respuestas hipotéticas competitivas a un problema, se debe seleccionar la que haga la menor cantidad de suposiciones ”
En Machine Learning, el objetivo suele ser aprender un estimador que pueda predecir las etiquetas de destino correctamente. La expectativa es obtener resultados correctos en los ejemplos de capacitación y, con suerte, aproximar el resultado correcto [PAC (Probablemente Aproximadamente Correcto)] en ejemplos de entrada no vistos optimizando la función de pérdida especificada ( función objetivo específica del modelo o un KPI específico del negocio ). Es difícil aproximar la salida correcta en ejemplos invisibles sin suponer el estimador (algoritmo). Formar tales supuestos se llama agregar un sesgo de aprendizaje (o sesgo inductivo). Para una comprensión detallada del sesgo, consulte (Evaluación y selección de sesgos en el aprendizaje automático, Marie DesJardins et al. (’95)). Una de estas formas de sesgo inductivo se llama Longitud mínima de descripción (MDL). La idea con MDL es optimizar en hipótesis más simples para equilibrar entre sobreajuste y subadaptación ( Equilibrio entre sesgo y varianza ). Esto se alinea bastante bien con el principio de Navaja de Occam. Uno podría aplicar este principio mientras entrena algoritmos de ML basados en el árbol (por ejemplo, árboles de decisión). Consulte una explicación intuitiva del Prof. Carlos Guestrin “Principio de la navaja de afeitar de Occam”
Otra referencia sobre la comprensión de MDL: http: //www.cs.cmu.edu/~awm/15781…
- ¿Cuáles son algunas aplicaciones interesantes de salud personalizada?
- ¿Vale la pena aprender Machine Learning (y AI) si quiero seguir la carrera de Ingeniero Embebido?
- ¿Cómo funcionan los árboles de decisión para la regresión?
- Cómo resolver un problema de la máquina Atwood con fricción
- ¿Cuáles son algunas aplicaciones actuales de las redes neuronales convolucionales además del análisis de imagen, video y discurso?
En un ML bayesiano, se podría pensar en la aplicación del principio Razor de Occam mientras se realiza la selección del modelo bayesiano no solo optimizando para maximizar la probabilidad de probabilidad (P (D | m)). Los modelos con más parámetros pueden ajustarse bien a los datos; dando como resultado una mayor probabilidad marginal, por lo tanto, sobreajuste. Esto podría evitarse aplicando validación cruzada para validar el error de generalización de diferentes modelos. Para obtener más información, consulte https://www.cs.princeton.edu/cou…