¿Qué significa el espacio de hipótesis en Machine Learning? La tecnología cambia la vida futura

TL; DR: El espacio de hipótesis es el conjunto de todas las funciones que puede devolver un modelo. Por ejemplo, un perceptrón solo puede devolver funciones que mapean cada punto en un lado de un hiperplano a 0, y el otro lado a 1

El aprendizaje automático se trata de tratar de aproximar alguna función “verdadera” generalizando a partir de algunos ejemplos. Solo para configurar alguna terminología para que usemos, digamos [math] f: \ mathbb R ^ d \ rightarrow \ mathbb R [/ math] es la función ‘verdadera’ que estamos tratando de adivinar al usar algún conjunto de datos [matemáticas] (X, f (X)) [/ matemáticas] (asumiremos que no hay ruido).

Entonces, ingenuamente, si estamos tratando de encontrar una función que se ajuste a los puntos de datos que tenemos. El problema es que hay una cantidad ridículamente grande de funciones. Si te impresionó saber que hay “más números reales que enteros”, bueno … el conjunto de funciones de números reales a números reales hace que el tamaño de [math] \ mathbb R [/ math] parezca minúsculo.

¿Por qué es esto importante para nosotros? Debido a que hay tantas funciones que no importa cuán grande sea su conjunto de datos, un número infinito de funciones lo igualará, y la mayoría de esas funciones no podrán generalizarse espectacularmente, porque no codifican la noción de que “puntos similares deberían asignar a etiquetas similares “, que es probablemente el principio más importante del aprendizaje automático.

Considere, por ejemplo, que tenemos los puntos y las etiquetas

(0, 0) → 1
(1, 0) → 1
(0, 2) → 1
(-2, 1) → 0
(-1, -5) → 1
(12, 2) → 1

Ahora supongamos que le pregunto cuál es la etiqueta para (1, 2). Probablemente adivine 1. Puede adivinar 0, o 0.7 o algo así. Probablemente no adivinaría 128.309.23498.

Desafortunadamente, hay funciones completamente válidas que pueden ajustar esos puntos y el mapa (1, 2) a cualquier valor que desee. Si todo lo que asume acerca de la función “verdadera” es que es “una función de [math] \ mathbb R ^ d [/ math] a [math] \ mathbb R [/ math]”, entonces no tiene ninguna razón para creer cualquier cosa sobre el valor f (1,2), a menos que ya lo haya observado (pero dado que el aprendizaje automático se refiere en última instancia a la predicción de valores para puntos que aún no hemos visto, esto es problemático).

Entonces, ¿qué hiciste implícitamente cuando te pregunté cuál era la etiqueta de (1, 2)? Usted (si lo pensó o no) encontró alguna forma de decidir qué funciones eran “razonables” y cuáles no. Por ejemplo, una función que coincide con los puntos anteriores, pero los mapas (1, 2) a 128.309.23498 parece poco probable que sea la función verdadera (algo para reflexionar: no tiene idea de dónde provienen esos puntos, entonces, ¿por qué parece razonable descartarlo? la idea de que (1,2) podría mapearse a 128,309.23498?).

Cualquier modelo de aprendizaje automático intenta capturar esta noción de lo que hace que una función sea un “buen” candidato para la función “verdadera”, y lo hace incluso antes de ver los datos. Las redes Knn suponen que los puntos que son similares (por alguna métrica de distancia) deberían tener etiquetas similares. Las redes neuronales suponen que la función ‘verdadera’ es representable por perceptrones apilados.

El espacio de hipótesis es el conjunto de todas las hipótesis posibles (es decir, funciones desde sus entradas a sus salidas) que puede devolver un modelo. Un ejemplo es el perceptrón, que solo examina las funciones que asignan todos los puntos en un lado de un hiperplano a 0, y todos los demás puntos a 1.

El espacio de hipótesis es importante porque especifica qué tipos de funciones puede modelar y qué tipos no puede. El mejor error absoluto que puede lograr en un conjunto de datos está limitado por el error de la función “mejor” en su espacio de hipótesis.

Esto puede ser bastante preocupante: si la verdadera función no está en su espacio de hipótesis, nunca alcanzará un error cero (… ignorando las diferencias de la medida cero). Si el espacio de su hipótesis es tan limitado que ni siquiera puede aproximarse bien a la función verdadera, entonces nunca encontrará una solución decente, sin importar cuán duro busque (por ejemplo, una red neuronal con 4 neuronas no es lo suficientemente expresiva como para clasificar imágenes) , así que no importa cuánto tiempo pase entrenando, su error siempre puede ser grande). Esto hace que desee tener un espacio de hipótesis lo más grande posible: cuanto mayor sea su espacio de hipótesis, más cercana estará su “mejor función de ajuste” a la verdadera función que está tratando de estimar.

Desafortunadamente, los espacios de hipótesis más grandes tienen sus propios problemas. Quizás lo más obvio es que es más difícil encontrar la “mejor” función, porque hay tantos candidatos (es decir, puede que tenga que pasar mucho tiempo entrenando), pero hay otra preocupación mucho más grave:

Hay una parábola famosa en la que un científico realiza 20 experimentos en M & M de diferentes colores para ver si alguno de ellos causa cáncer. Obtiene sus datos, realiza su análisis estadístico y ve que, de los 20 M & M, solo los marrones pasaron su prueba de valor p (p = 0.05). Emocionado, publica su periódico …

El problema aquí es que si prueba suficientes hipótesis, entonces el simple ruido hará que algunas de ellas se vean mejor de lo que realmente son, y otras se verán peor. Esto significa algo muy aleccionador: cuantas más hipótesis formule, mayor será la cantidad de evidencia que debe requerir de sus hipótesis.

Para las estadísticas, esto significa que si un investigador ejecuta 20 pruebas p, debe usar un valor p menor que 0.05 (tiene fórmulas para calcular el valor p “ajustado”).

Para el aprendizaje automático, esto significa que cuanto mayor sea el espacio de hipótesis, más datos necesitamos para estar seguros de que la mejor función en general se generalizará a los datos que no hemos visto.

Esta compensación entre querer un espacio de hipótesis lo suficientemente grande como para estar seguro de que contiene la función ‘verdadera’ que está modelando, al mismo tiempo que desea un espacio de hipótesis lo suficientemente pequeño como para tener la confianza razonable de que sus resultados se generalizarán, Es una de las tensiones más fundamentales en el aprendizaje automático. Está estrechamente relacionado con el equilibrio de sesgo-varianza y el ” Teorema de no almuerzo gratis “.

Aprendizaje automático