Cómo aprender los pesos de las características de un modelo mediante el aprendizaje automático

La pregunta es demasiado amplia, me temo. Hay demasiados modelos en el campo de Aprendizaje automático para poder generalizarlos todos con un enfoque único sobre cómo aprender los pesos. El método depende del modelo específico que esté utilizando.

Dicho esto, lo que suele suceder es esto (tenga en cuenta que estoy discutiendo sobre modelos supervisados. El aprendizaje no supervisado es un escenario completamente diferente):

Usted asigna ponderaciones a varias características del conjunto de datos, ya que todas son cero o con valores aleatorios o con su intuición de lo que podría funcionar (la intuición generalmente funciona cuando la tarea en cuestión es muy pequeña).
En función de los valores asignados a los pesos, el modelo utilizado calculará la salida. Llamemos a esta salida O.
La salida real se etiquetará con cada ejemplo en el conjunto de datos. Considéralo como T.
Obviamente, dado que los pesos asignados durante la inicialización no conducirán a la salida objetivo exacta, habrá algún error (E).
E = O – T. (Esto se hace en forma de vector usando Numpy o MATLAB / Octave).
Este error se traducirá en la alteración de los pesos.
Dependiendo del número de iteraciones y el umbral de error deseado, O comenzará a emular T (aunque no completamente. Si O es exactamente lo que T es, es probable que tenga un sobreajuste) o el modelo se agotará al tratar de aprender pesos.
Al final, obtienes el vector de peso que genera una O aceptable o te quedas sin el número de iteraciones preespecificadas.

Nuevamente, este es solo un enfoque de grano muy grueso para aprender los pesos de un modelo ML. La respuesta entrará en detalles cuando el modelo sea más específico.

Espero que haya ayudado.

¿Cómo funciona el algoritmo de Warnsdorff?

¿Cómo calculo el antilog de -0.7006?

¿Cuáles son las aplicaciones en tiempo real del algoritmo de Dijkstra?

¿Cuáles son algunos proyectos geniales de verano de informática personal en IoT y / o algoritmos?

¿Por qué la notación O grande no se parece más a O (c) y O (cn) en lugar de a O (1) y O (n), esto último no tiene sentido?

Cómo encontrar la submatriz cuadrada máxima con todas en una matriz booleana de tamaño mxn

More Interesting

¿Cuál es la razón por la cual las compañías gigantes (por ejemplo, Google o Microsoft) hacen preguntas típicas como el árbol de búsqueda binario o el algoritmo tradicional o preguntas como la complejidad del algoritmo? ¿Cuál es el propósito? La mayoría de ellos no se usan en la vida real.

En el 8 rompecabezas, ¿por qué solo es posible alcanzar la mitad de todas las combinaciones posibles desde cualquier estado dado?

¿Los mismos algoritmos dan resultados diferentes en diferentes paquetes / idiomas?

¿Es posible implementar dos pilas usando una matriz?