¿Por qué la notación de optimización de aprendizaje automático estándar considera cada peso individual en lugar de una matriz de peso completa por actualización?

Se utilizan vectores AFAIK, de hecho, el curso Andrew Ng coursera ML da una explicación detallada sobre la operación de vectorización. Específicamente desenrollado de parámetros.

Piense en la notación matemática como un lenguaje escrito, un medio con un solo propósito: ayudar a la comunicación de ideas complejas. En cualquier idioma hay muchas formas diferentes de hacer la misma declaración. Por una razón: la variedad introducida escapa al aburrimiento, muestra estilo y sobre todo: comprende al público objetivo. El trabajo de investigación de posgrado de hoy es el libro de texto de pregrado de mañana.

Para darle un ejemplo, si bien no es una diferenciación entre la notación vectorial cuando plantea la pregunta como humano, entiendo lo que quiere decir. Incluso, estrictamente hablando escalares y vectores se observan de alguna manera. Por otra parte, la notación vectorial es la misma en física (flecha en la parte superior) que en la investigación de operación (negrita, negrita, mayúsculas para matrices)

Además, al leer documentos de los años 80, la notación puede ser algo diferente, un poco más difícil de leer; Pero la idea está ahí. Y eso es importante: documentar la idea de manera clara para que otros la entiendan. Si es ‘demasiado denso’, entonces los conceptos desenrollados pueden tener un impacto negativo. ¿Vale la pena?

Para un laico, los distintos tipos de notación científica tienen el mismo aspecto. Cuando ha alcanzado un nivel en el que cuestiona las diferencias y la variedad de notación disponible para usted, llega el pensamiento, heno, ¿por qué es esta la notación estándar? ¿Por qué no usar “matriz de peso completa por actualización”? Dado que ambas anotaciones pueden dar los mismos resultados, ¿por qué no puedo elegir la que prefiero?

Ser entendido es la respuesta principal.

La ciencia ha tenido dificultades para comunicarse entre las diferentes disciplinas y eso no excluye una disciplina específica, como en su caso. Entonces, si desea invertir el sistema y usar el suyo y no el estándar, hágalo y vea qué sucede.

Cálculo de vectores? ¿Quién tiene tiempo para eso?

Si está haciendo una diferenciación simple (función de costo cuadrática o lineal), obviamente está bien. Pero si la diferenciación es más complicada, si eres como yo, tendrás que buscar una lista de reglas para llevar a cabo la diferenciación por un vector o matriz.

Digamos que eres mejor en esto / más experimentado que yo, que probablemente eres. El verdadero problema es que todo lo que obtienes es otra declaración del mismo resultado, pero más compleja y con una notación más impenetrable.

(Lo que quiero decir con “impenetrable”: en una regla de actualización compleja, probablemente necesitará tener una combinación de productos de vector de matriz, productos de vector elemento por elemento o vectores diagonalizados. Y eso no entra en el tensor necesitará escribir la aritmética si está tratando de aprender un modelo profundo como una CNN).

Además, elemento por elemento está más cerca de la forma en que probablemente también va a implementar el algoritmo.

Hay dos métodos, uno es ver toda la matriz de peso y actualizarla en cada epoc, y el otro es incremental, ambos son buenos en ciertos casos y se usan por igual.

More Interesting

Cómo asegurarme de que no seré reemplazado por un robot

¿En qué se diferencian profundamente las redes de creencias profundas de la agrupación?

¿Por qué el entrenamiento con la unidad softmax en redes neuronales es manejable si la función de partición es intratable?

¿Cuál es la diferencia práctica entre clasificación, aprendizaje estadístico y reconocimiento de patrones en ML según los criterios de codificación?

Como estudiante de segundo año de la universidad, ¿cómo puedo prepararme para la inteligencia artificial?

¿Una IA avanzada vería la religión como un virus?

¿A qué libros puedo referirme si quisiera estudiar el aprendizaje automático sistemáticamente?

¿Cuál es el futuro de la investigación de 'reconocimiento de voz'?

¿Cuántas personas perdieron su trabajo debido al aprendizaje automático?

¿Las redes neuronales recurrentes (RNN) se consideran un método supervisado en el aprendizaje automático?

¿Cómo afectará a la industria india de TI si abandonan su mentalidad basada en el servicio y comienzan a construir productos basados ​​en inteligencia artificial y aprendizaje automático?

¿Por qué Apple no está invirtiendo en aprendizaje automático? Han tardado en actualizar Siri. ¿Hay alguna razón estratégica para esta aparente falta de interés de Apple? o se están quedando atrás en esta área?

¿Cuál es el vocabulario completo para la red neuronal de convolución?

Al entrenar un modelo de Deep Learning, ¿importa la secuencia o el orden de las muestras en los datos de entrenamiento?

¿Es la IA un objetivo o una herramienta potencial para la automatización?