¿Qué es la regularización de Tikhonov en términos simples?

Simplemente pone una penalización en el tamaño de sus coeficientes de regresión, haciéndolos aparecer “más pequeños” (creo que algunos pueden terminar siendo más grandes, pero el vector beta general debería tener una norma más pequeña).

Digamos que está usando altas potencias de una variable en su modelo, al reducir la magnitud de los coeficientes que está restringiendo cuánto pueden influir esos términos de alta potencia en el valor predicho dentro de cualquier rango fijo.

Me gusta pensar en la serie Taylor cuando pienso en la regularización. Si usa un polinomio de orden muy alto, puede ajustar bien cualquier función en un intervalo dado, pero los términos de orden alto harán que se vuelva loco fuera del intervalo:
(para las personas nuevas en el análisis, T_16 claramente NO está ajustando log (1 + x) muy por fuera [-1,1] como puede ver)
Así que puedes imaginarte, si redujeras un poco los coeficientes, los términos de mayor potencia tendrían un efecto menor y tendrías menos de ese comportamiento no deseado.

More Interesting

Cómo hacer una carrera desde el nivel más básico hasta el nivel profesional en ciencia de datos, aprendizaje automático y aprendizaje profundo

¿Cuáles son los mejores métodos de detección de anomalías para imágenes?

El entrenamiento de redes neuronales profundas utilizando la propagación inversa tiene el problema de un gradiente de error que desaparece y que establece un límite sobre cuántas capas se pueden entrenar efectivamente, entonces, ¿por qué no usar un algoritmo genético para entrenar redes profundas, eliminando la propagación de errores?

¿Por qué y cuándo subestima 'varianza de Bayes variacional de campo'?

Teoría de la complejidad computacional: ¿Qué es un problema NP difícil?

¿Cuál es el poder computacional de las redes neuronales no recurrentes frente a las redes neuronales recurrentes?

¿Dónde puedo encontrar guías de aprendizaje automático desde la perspectiva de los hackers?

Cómo mostrar que una convolución transpuesta es equivalente a un paso de respaldo de la capa de convolución, con los mismos pesos que en una propagación hacia adelante

En general, ¿necesita tener un doctorado para obtener un trabajo de Machine Learning / Data Mining en una startup o en una gran empresa?

¿Podría el aprendizaje profundo vencer a los métodos tradicionales en 3D Vision?

¿Cómo podemos interpretar el coeficiente para cierta variable independiente en regresión lineal simple y para el mismo en regresión lineal múltiple?

Cómo comenzar con el aprendizaje de múltiples núcleos

¿Cuáles son algunos documentos académicos de aprendizaje automático notables / influyentes en los últimos 5 años?

¿La ingeniería de características es relevante para los bosques aleatorios? ¿Cómo son relevantes las transformaciones de centrado, escala y Box-Cox en este contexto?

¿Cómo se usa el aprendizaje automático en la generación de preguntas?