En general, no. En OLS, la convergencia a la estimación [math] \ hat {\ beta} [/ math] está en un solo paso. (Estoy ignorando los pasos en el cálculo, como la descomposición de LU o la eliminación de Gauss). ¡No hay nada mejor que eso!
La convergencia del proceso de error es una bestia muy diferente. Está limitado por el hecho de que el teorema del límite central que asegura la convergencia en la distribución es [math] O (1 / \ sqrt {n}) [/ math]. Esta es una noción muy diferente a la convergencia a un punto como el que se obtiene con el método de Newton. Se trata de la convergencia de una función de distribución completa (hasta algunas condiciones técnicas para excluir conjuntos de medida cero).
Hay algunos ejemplos de convergencia más rápida, pero son pocos y distantes entre sí y, por lo que sé, generalmente no tienen importancia práctica. Peor aún, hay muchos ejemplos prácticos de no convergencia más lenta o directa, como distribuciones de cola muy sesgadas o pesadas. Estos son los que crean accidentes financieros.
- ¿Qué debo hacer para construir una carrera en Machine Learning? ¿Por dónde empiezo y cuáles son mis opciones?
- ¿Por qué es que los RNN con conexiones desde la salida al estado oculto pueden expresar menos máquinas de turing?
- ¿Por qué confiamos en la aleatoriedad de la búsqueda aleatoria en la optimización de hiperparámetros?
- ¿Cuál es la diferencia entre regresión lineal y logística?
- ¿Cómo está bien si me resulta difícil recordar todo después de terminar el curso de aprendizaje automático?
Los métodos de estimación penalizados, como la estimación de cresta, mejoran el error cuadrático medio (a costa del sesgo), pero no de forma espectacular en general. Es uno de los misterios profundos de la realidad por qué la convergencia en la distribución es [matemática] O (1 / \ sqrt {n}) [/ matemática], pero lo es.