¿Cuáles son algunas ideas importantes / brillantes en el aprendizaje automático?

Una idea brillante en Machine Learning es la red neuronal Hopfield Backprop, su relación con el modelo de Ising en física estadística y su implementación moderna en el aprendizaje profundo.

Con frecuencia en ciencia, los modelos simples funcionan por razones sutiles. Los ejemplos incluyen la aplicabilidad a gran escala de la Ley de Stokes, el grupo de renormalización y la invariancia de escala discreta, y el modelo de Ising. Es, en mi humilde opinión, sorprendente que un modelo tan simple tenga una aplicabilidad tan amplia, no solo en física estadística, sino en el desarrollo de algoritmos modernos de aprendizaje profundo.

Lo sorprendente del aprendizaje profundo es la capacidad de encontrar una receta de propósito general para resolver una amplia clase de problemas de optimización no lineal y, en el contexto del aprendizaje automático, resolver el problema de detectar automáticamente las características

De hecho, se ha observado que ha llevado 20 años reconocer que solo se usa una máquina de Boltzman restringida para iniciar al alumno. Este éxito parece estar relacionado con la teoría del grupo de renormalización de las transiciones de fase, que es aún más sorprendente.

Una de las ideas más significativas en el aprendizaje automático es el truco del núcleo [1] que permite ejecutar algoritmos de aprendizaje automático invariantes de rotación [2] con medidas de distancia no euclidianas.

Al emplear este truco, uno formula el problema de aprendizaje automático utilizando solo productos de punto entre vectores de características (es decir, no utilizando ningún vector de características en sí). El truco del kernel consiste en reemplazar el producto de punto con cualquier medida de similitud positiva y semidefinida llamada kernel . Puede encontrar una lista de los núcleos más comunes utilizados en el aprendizaje automático en [3].

El producto punto, es decir, el núcleo lineal corresponde a distancias euclidianas en el espacio de características. El uso del truco del núcleo y los núcleos no lineales induce medidas de distancia no euclidianas para resolver el problema del aprendizaje automático.

[1] http://en.wikipedia.org/wiki/Ker
[2] La condición de kernelizing un algoritmo y una equivalencia entre métodos de kernel, http://www.springerlink.com/cont
[3] http://crsouza.blogspot.in/2010/

Siento que la idea de máxima probabilidad es probablemente la idea más brillante del aprendizaje automático. Es intuitivo y simple.

Considera que tienes una moneda y la lanzas n veces, cada vez que registras si tienes cabeza o cola. Ahora que tiene los resultados (cabeza-> 1 y cola-> 0) con usted para n lanzamientos, le gustaría estimar realmente la probabilidad real de la cara y la cola de la moneda.

La probabilidad máxima te dice que asumes que la probabilidad de que la cabeza de la moneda sea H y la de su cola es (1-H) ya que solo tienes dos resultados posibles, y luego maximizas la probabilidad de los eventos que registraste. Significa que resuelve un conjunto de ecuaciones, dadas estas salidas registradas, de modo que al final la probabilidad de que la moneda HEAD y su TAIL (1 – HEAD) reflejen la salida real que obtuvo.

La razón por la que se llama máxima probabilidad es porque arrojó la moneda n veces y dado que estos n lanzamientos son independientes, simplemente multiplica la probabilidad de cada uno de los resultados y maximiza el resultado que depende de una variable ‘H’.

La belleza de este método de aprendizaje automático (más bien probabilístico) es que usted sabe que ha realizado el experimento y, por lo tanto, intenta maximizar la ocurrencia del experimento en sí. Eventualmente, llegarás a un resultado para la probabilidad de cabeza de la moneda ‘CABEZA’, que es igual a la fracción del número de veces que ocurrieron las cabezas en tu experimento. Esto es muy intuitivo porque de hecho tienes h cabezas entre n eventos y la estimación de probabilidad debería ser h / n si maximizaras la ocurrencia de este evento; sabes que el experimento realmente ha sucedido.

La naturaleza perspicaz de maximizar la probabilidad es que si quieres que la probabilidad de que la cabeza sea 1/2, entonces tendrás que lanzar la moneda infinitas veces, lo que no es posible. ¡Entonces la máxima probabilidad simplemente te indica que estés feliz con lo que tienes!

Si bien las ideas como impulsar, el truco del núcleo, el aprendizaje profundo, etc., son ideas fundamentales en el desarrollo del aprendizaje automático, me desviaré de las otras respuestas al decir que la definición de Valiant del modelo Probablemente Aproximadamente Correcto (PAC), tomada de su El documento innovador “A Theory of the Learnable” es una de las ideas más importantes en la teoría del aprendizaje. Si bien existen muchas técnicas elegantes para optimizar qué tan bien puede aprender de un conjunto de entrenamiento dado, en última instancia, lo que importa mucho más es cuán bueno es su conjunto de entrenamiento (y cuán relevante es contra el conjunto en el que finalmente será evaluado). Machine Learning es basura en la basura; No importa qué técnicas aproveche, debe comenzar con buenos datos. Después de los datos con los que comienza, debe comprender qué tipos de características se pueden extraer mejor de estos datos (y qué características son más relevantes para el problema de aprendizaje que está abordando). Solo después de haber abordado adecuadamente estas áreas importa el clasificador. Los ingenuos Bayes con buenos datos y buenas características superarán a los bosques aleatorios potenciados con datos / características deficientes.

1. Truco del kernel (para SVM)
2. Aprendizaje profundo (para redes neuronales)
3. Impulso (para árboles de decisión bosques)

El algoritmo de propagación hacia atrás es un método de aprendizaje supervisado para redes de alimentación de múltiples capas del campo de las redes neuronales artificiales y, en general, de la inteligencia computacional. El nombre se refiere a la propagación hacia atrás del error durante el entrenamiento de la red. La propagación hacia atrás es la base de muchas variaciones y extensiones para entrenar redes de alimentación de múltiples capas. El método de propagación hacia atrás del error se atribuye a Bryson y Ho en 1969. Se aplicó a la formación de redes de múltiples capas y Rumelhart, Hinton y Williams lo llamaron propagación hacia atrás en 1986. Este esfuerzo y la colección de estudios editados por Rumelhart y McClelland ayudó a definir el campo de las Redes Neuronales Artificiales a fines de la década de 1980.

Los métodos de conjunto, las estadísticas bayesianas, los núcleos / vecinos más cercanos y la regresión penalizada son algunos que han sido útiles en todos los algoritmos y funcionan bien en una variedad de tipos de problemas.

1] Aprendizaje intuitivo.
2] Optimización de un método usando heurística
3] Truco del kernel

métodos de aprendizaje conjunto ADA-Boost y bosques aleatorios