Una de las primeras cosas que probaría es la regresión kernelizada y elegir el kernel para que sea la función de base radial. Se supone que las funciones de base radial se derivan de un ERM y una restricción de suavidad en la regularización (http: // ftp: //publications.ai.mit.edu/ai-publications/pdf/AIM-1164.pdf, http: / /ftp://publications.ai.mit.edu/ai-publications/pdf/AIM-1164.pdf,), suponiendo que su función esté en ese intervalo, es sensato asumir que está haciendo algún tipo de aproximación de funciones (y no aprender una función arbitraria en ese intervalo).
De un documento que analiza los métodos de submuestreo (https://papers.nips.cc/paper/593…) puede regularizar aún más eligiendo menos centros para su RBF de lo habitual y también potencialmente acelerar la capacitación. Además, también puede elegir k-means para elegir los centros para su RBF (este documento discute algo de teoría para ello http://jmlr.org/proceedings/pape…). Por último, hay múltiples algoritmos para entrenar tus cosas:
Si elige todo el conjunto de datos en los centros RBF, solo entrene los pesos de combinación lineal a través de los mínimos cuadrados estándar (es fácil probar usando N_train ya que el número de centros es óptimo a través del teorema del representador, es decir, más centros no agrega ningún beneficio si el número de centros es igual al conjunto de entrenamiento).
- ¿Qué programas de muestra están disponibles para la inteligencia artificial?
- ¿Cuál es el estado del arte con respecto a la IA y la simulación para un juego de estrategia?
- ¿Pueden las tareas de inferencia de aprendizaje automático en los centros de datos generalmente hacerse paralelas?
- ¿Qué tan precisos son los convertidores de voz a texto que están en uso, a nivel mundial (diferentes pronunciaciones)?
- Si alguien está interesado tanto en el aprendizaje automático como en la neurociencia, ¿hay alguna forma de combinar estos dos tipos de asignaturas en un proyecto de doctorado?
Si elige menos centros que el tamaño de los datos del tren y elige entrenar cada parámetro, puede entrenar los centros y / o la desviación estándar a través del descenso de gradiente (busque la red de funciones de base Hyper), el descenso de gradiente estocástico, el descenso de coordenadas o la minimización alterna.
No olvides elegir la forma del pozo gaussiano, probablemente a través de la validación cruzada. En serio, esto es extremadamente importante.
Espero eso ayude.
——
Este puede ser un buen video de introducción (https://work.caltech.edu/library…):