El mejor ajuste de línea se puede encontrar analíticamente por el método de mínimos cuadrados. ¿Podemos decir que la regresión lineal (mínimos cuadrados) tiene un optimizador?

¡Seguro!

En realidad, hay lugares en los que tiene sentido hacerlo de esta manera.

El siguiente ejemplo puede no ser realista para la regresión lineal (o realista en cualquier caso), pero le da la idea general.

Suponga que tiene registros [matemáticos] 10 ^ {16} [/ matemáticos] con 1000 variables.

Entonces, la matriz de diseño, [matemáticas] X [/ matemáticas], es [matemáticas] 10 ^ {16} \ veces 1000 [/ matemáticas].

Entonces [math] (X ^ TX) ^ {- 1} [/ math] toma [math] O ((10 ^ {16}) ^ 2) = O (10 ^ {32}) [/ math] flops, y suponiendo que tenemos float32’s, la matriz de datos original toma [math] 4B \ times 10 ^ {16} \ times 1000 \ simeq 10 PB [/ math] – diez petabytes de datos.

Intenta ajustar eso en la RAM.

Entonces, en un escenario como este, en realidad tiene sentido usar la regresión OLS con un optimizador.

Un ejemplo quizás más realista es cuando colocamos un mínimo de cuadrados dentro de una red neuronal profunda. En tal caso, debido a que ese no será nuestro único ajuste, tenemos que usar un optimizador, una solución analítica no nos ayudará (mucho, a menos que realmente nos guste ser masoquistas y codificar el resultado). . No, gracias.)

Pero, en casos normales (es decir, no estamos tratando con datos increíblemente grandes), generalmente no usaríamos un optimizador para la regresión de mínimos cuadrados. Demasiado trabajo sin ganancia.

El término “optimizador” generalmente está reservado para algoritmos iterativos. Entonces, aunque el proceso de mínimos cuadrados encuentra un óptimo, generalmente no se lo conoce como optimizador. Sin embargo, si no le importa el uso estándar, en inglés, mínimos cuadrados es un optimizador porque encuentra un óptimo.

Puede usar el mismo algoritmo iterativo, pero ¿por qué molestarse? ¡Ya tienes tus mínimos globales en forma cerrada!

More Interesting

¿Cuáles son los principales enfoques de la inteligencia artificial?

¿Cuál es su opinión sobre los rastros de elegibilidad para el aprendizaje de la diferencia temporal? ¿Es solo una asignación de crédito o un truco de aceleración?

¿Necesita aprender CSE (motor de ciencias de la computación) para aprender inteligencia artificial, o hay cursos de ingeniería separados para IA y aprendizaje automático?

¿Cuál es una explicación intuitiva de las redes residuales profundas?

¿Las estadísticas necesitan un cambio de marca en respuesta a la ciencia de datos y el aprendizaje automático, que están superando las estadísticas en términos de relevancia? ¿Por qué o por qué no?

En el aprendizaje profundo, ¿se pueden obtener buenos resultados cuando usas una función lineal entre las capas ocultas?

¿Cómo es posible optimizar un sistema donde el entorno se modela a través de métodos de aprendizaje automático?

¿Cómo se compara Caffe 2 con TensorFlow?

¿Cuántas imágenes necesita un buen sistema de aprendizaje automático para aprender un nuevo concepto?

¿Cuál es la relación entre la teoría de la Gestalt y el aprendizaje profundo?

¿Cómo ayuda el enfoque ontológico con la clasificación de texto?

Cómo determinar la distribución que sigue un conjunto de datos

¿Podría la IA volverse autónoma y aprender y adaptarse de manera no supervisada a través del aprendizaje profundo?

¿Qué es el aprendizaje profundo para un principiante?

¿Aprendizaje automático en una caja negra / prueba de conocimiento cero?