¿Cómo elijo theta0, thetaL y thetaU en un modelo de proceso gaussiano de scikit-learn?

Actualización: me acabo de dar cuenta de que debo aclarar algo. Mi respuesta dice cómo seleccionar robustamente los parámetros del kernel exponencial cuadrado (theta0, cuando thetaL y thetaU son None). Los parámetros thetaL y thetaU son restricciones sobre los valores que se pueden aprender para los parámetros del núcleo mediante la estimación de máxima verosimilitud. No hay necesidad de barrer sobre ellos.

Si tiene una gran cantidad de características (theta0 tiene muchas dimensiones), entonces una búsqueda de cuadrícula sobre el espacio de parámetros será muy costosa, y será mejor que use la máxima probabilidad en lugar de la validación cruzada.

—-

A menos que sepa cuáles deben ser estos parámetros con anticipación (debido, por ejemplo, a alguna propiedad de sus datos), la mejor manera es probablemente evaluar muchas configuraciones de parámetros diferentes mediante validación cruzada y elegir la mejor según alguna métrica. En scikit-learn, esto se puede hacer usando sklearn.grid_search.GridSearchCV, como se describe aquí:

Estimación de parámetros mediante la búsqueda de cuadrícula con una validación cruzada anidada

Related Content

¿Cuáles son los principales avances en el procesamiento del lenguaje natural en 2015?

¿Qué es la regularización de Tikhonov en términos simples?

¿Existe alguna técnica de aprendizaje automático que pueda transferir automáticamente una historia escrita en texto a un libro de dibujos animados?

¿Cuántas imágenes de entrenamiento deberían usarse para una buena tarea de reconocimiento de género en OpenCV? ¿Hay algún conjunto de datos disponible para esta tarea?

Cómo analizar un algoritmo de repetición selectiva

¿Cómo puedo sobresalir en el aprendizaje automático con antecedentes estadísticos?

¿Cuáles son algunos buenos ejemplos de reducción de dimensionalidad no lineal en datos de texto?

More Interesting

¿Cuáles son algunos avances interesantes sobre las matemáticas del aprendizaje profundo?

¿Alguien siente que la programación de sistemas tradicionales es muy diferente del aprendizaje automático?

¿La IA y el aprendizaje automático implican mucha codificación?

¿Cuál es la diferencia entre las redes de Markov y las redes bayesianas?

¿Cómo trata Google Translate u otra traducción en línea con palabras que no existen en el otro idioma?

¿Cuál es la diferencia entre la clasificación de vectores de soporte y la regresión? ¿Un regresor de vectores de soporte se comporta como una red neuronal por casualidad?

¿Cuál es la fortaleza y la debilidad del departamento de CS de Caltech, especialmente en el área de Machine Learning?

¿Cuáles son las mejores marcas de CPU y GPU para el aprendizaje automático?

¿Cuáles serían los proyectos / servicios más interesantes en el cuidado de la salud que involucren alta tecnología como dispositivos móviles, big data y data science? Por ejemplo, Ginger.io.

¿Cómo se diseñan las redes neuronales artificiales y qué teoremas académicos las respaldan?

¿El teorema de no almuerzo gratis no es una contradicción al descubrimiento del algoritmo maestro?

¿Tenemos que aprender matemáticas detrás de cada algoritmo de aprendizaje automático?

¿Cuáles son las herramientas basadas en redes neuronales disponibles ahora para el consumidor?

¿A quién o qué investigación de laboratorio en aprendizaje automático le parece más interesante?

¿Cómo determinaría si el error de cuando ejecuta su algoritmo de aprendizaje automático es de alto sesgo o alta varianza (también conocido como corte o sobreajuste)?

Web Analytics