¿La teoría de la medida es relevante para el aprendizaje automático?

Conocer las ideas básicas detrás de la teoría de la medida es ciertamente útil para la teoría de la probabilidad, pero supongo que la mayoría de los estudiantes de máquinas tienen un enfoque más “intuitivo” de la teoría de la probabilidad, por lo que no es realmente esencial.

La teoría de la medida es, por supuesto, absolutamente esencial para tener una construcción matemáticamente sólida de las medidas de probabilidad, etc., por lo que en ese sentido es importante.

Por otro lado, siempre que trate con espacios vectoriales reales y funciones continuas (o funciones que de alguna manera son extrañas en muchos puntos), cada conjunto o variable aleatoria que encuentre es medible de todos modos, por lo que no es realmente necesario saber todo sobre la teoría de la medida.

La teoría de la medida en realidad da lugar a una formalización bastante elegante de las medidas e integrales de probabilidad (mucho mejor de lo que generalmente se obtiene de la física), porque puede tratar uniformemente las medidas que tienen una densidad y medidas discretas. De lo contrario, terminas con cosas extrañas donde tienes una integral con una densidad y una suma de “masas puntuales”.

Finalmente, un área en la que absolutamente necesita la teoría de la medida (pero a nadie parece importarle) es la teoría del aprendizaje. Para los límites de convergencia uniformes, considera la probabilidad de un supremum sobre un conjunto infinito de funciones, pero la teoría de medida “lista para usar” solo permite construcciones con conjuntos de índices infinitamente contables, por lo que necesita un poco más. Sin embargo, el libro Convergencia débil y procesos empíricos (http://books.google.com/books/ab…) es el único que conozco que trata esto de manera rigurosa. Al final, las cosas que puedes hacer son muy similares, por lo que probablemente no importe.

Muchas de las técnicas en el aprendizaje automático están relacionadas indirectamente con la teoría de la medida. Como dijo Quora User, las aplicaciones realmente no requieren tanta sofisticación, pero es bueno saberlo. En su mayor parte, estamos tomando prestadas técnicas de estadísticas que invocan la teoría de la medida cuando se refiere a la teoría de probabilidad.

Recuerde que el problema de clasificación en el aprendizaje automático implica la construcción de hiperplanos [matemática] P \ subconjunto \ mathbb {R} ^ N [/ matemática] para separar varios grupos. Muchos problemas de clasificación están mal planteados matemáticamente, pero los pocos que están bien planteados y tienen algunas características agradables (por ejemplo, puedo probar algo sobre ellos una vez que configuro un marco teórico de medidas) incluyen los siguientes:

  • Máquinas de vectores de soporte : esta es una forma de estimación de densidad del núcleo. La teoría detrás de las SVM involucra un objeto conocido como ‘Reproducción del espacio de Kerbert Hilbert’ en el mundo del aprendizaje automático y / o estadístico (se llama el espacio Cameron-Martin en matemáticas). Suponga que el espacio en el que estamos clasificando puntos es [math] \ mathbb {R} ^ N [/ math]. Para especificar un núcleo de reproducción Hilbert Space, generalmente se especifica un núcleo [math] K: \ mathbb {R} ^ N \ times \ mathbb {R} ^ N \ rightarrow \ mathbb {R} [/ math] y considera el map [math] \ phi: x \ mapsto K (x, \ cdot) [/ math]. Una coherencia matemática que uno debe imponer aquí es que existe una medida [matemática] \ sigma [/ matemática] [matemática] \ mu [/ matemática] tal que [matemática] K \ en L ^ 2 (\ mathbb { R} ^ N \ times \ mathbb {R} ^ N, \ mu) [/ math] [1] Una vez hecho esto, podemos agregar condiciones sobre simetría y definición no negativa para aplicar el Teorema de Mercer al núcleo (como si a menudo se hace en trabajos teóricos sobre la SVM). El teorema de Mercer nos da efectivamente un núcleo de clase de rastreo, de modo que los problemas de valor propio con respecto a este núcleo son manejables.
  • Descenso de gradiente estocástico: esto se usa comúnmente como una herramienta para estimar la tasa de aprendizaje de una máquina. Si bien la teoría no está completamente desarrollada para este método, cuando uno puede probar un teorema, casi seguro necesita invocar el Espacio Wiener clásico y su medida Wiener canónica (movimiento browniano). Si [math] X_i [/ ​​math] es el paso iterativo [math] i [/ math] del proceso, el objetivo es encontrar alguna función [math] f (x) [/ math] tal que [math] dX_t = f (X_ {t-1}) dX_ {t-1} + \ sigma dW_ {t} [/ math]

    tal que tenemos un proceso estocástico estacionario. Si siempre obtuviéramos los procesos de Ornstein-Ullenbeck de esta ecuación … 🙁

    Probablemente me he saltado otras ‘aplicaciones’ de la teoría de la medida al aprendizaje automático; sin embargo, mientras la probabilidad esté involucrada, siempre hay alguna teoría de la medida al acecho. El caso de la SVM fue la única vez que vi a alguien arrastrar algunos análisis funcionales al aprendizaje automático en lugar de la teoría de la probabilidad.

[1] Hay formas de evitar esta restricción (uno puede debilitarla), por ejemplo, al solo necesitar que el Kernel sea un Kernel de Calderón-Zygmund. Sin embargo, no estoy familiarizado con la literatura reciente sobre aprendizaje automático y no creo que consideren este caso.
[2] http://en.wikipedia.org/wiki/Mer

Un buen ejemplo de teoría de la medida es el Aprendizaje para clasificar el problema, donde debe definir medidas para clasificar sus elementos de manera coherente. Y depende de cuáles son las características relevantes que desea utilizar.

Puede consultar este documento del grupo de Hang Li en la investigación de Microsoft en Asia, si utilizan diferentes medidas para resolver el problema. http://research.microsoft.com/en

More Interesting

¿Cómo está diseñada la IA para un juego de computadora complicado como Civilization IV o Europa Universalis?

¿Cuáles son algunos buenos chistes de aprendizaje automático?

¿Es mejor codificar un chatbot usted mismo o usar un servicio como Hyphen AI?

¿Son las computadoras reales idénticas a las máquinas de Turing?

¿Es posible que la inteligencia artificial pueda construir una dimensión de bolsillo para enviar a todos los refugiados allí?

¿Qué tipos de algoritmos de aprendizaje automático son buenos para aprender representación? ¿Es solo aprendizaje profundo?

Inteligencia artificial de videojuegos: ¿Por qué es tan difícil usar la inteligencia artificial de agente de red Q profunda para jugar La venganza de Montezuma a un nivel similar al humano?

¿Puede la IA reemplazar a los pilotos de combate? Si lo hiciera, ¿no habría posibilidad de que fuera pirateado?

¿Cómo se usa el modelado bayesiano para la inteligencia artificial?

¿Cómo se crean los grandes juegos como FIFA 14?

¿Qué arquitectura de redes neuronales funcionará mejor para un problema de anotación de imagen y por qué?

¿Por qué las redes neuronales convolucionales (CNN) son ampliamente consideradas como el mejor tipo de diseño de red profunda para el procesamiento de imágenes?

Militar: ¿Por qué no reemplazan la línea del frente con robots?

¿Cómo diseñarías una red neuronal que aprende a jugar trackmania?

¿Qué hay de malo en establecer el comunismo después de que los robots toman todos los trabajos?