¿Cuál es la relevancia de la factorización matricial en el aprendizaje profundo?

La factorización matricial es un método en el que agrega ruido y dimensiones a un conjunto de datos con la esperanza de extrapolar los puntos de datos que faltan en el conjunto de datos. Además, este proceso puede ayudarlo a descubrir características latentes dentro de los datos; el conjunto de datos original podría ser bidimensional, por ejemplo, películas clasificadas por los usuarios, para las cuales se agregan 0 a N dimensiones a las que cada usuario y película están más o menos unidos.

Deep Learning, por otro lado, utiliza redes neuronales tradicionales, pero con 0 a N capas.

Para responder a su pregunta, hay dos cosas separadas en mi mente.

El aprendizaje computacionalmente profundo y la factorización matricial son un poco similares; le permiten agregar profundidad a los datos, lo cual es muy importante ya que nos ayuda a descubrir características y clústeres latentes.

La otra cosa que me viene a la mente (debido a que los sistemas de recomendación están un poco exagerados en este momento) es que uno podría usar algún tipo de combinación de Factorización matricial y Aprendizaje profundo para crear mejores recomendaciones.

La factorización matricial funciona bien para matrices dispersas, pero los datos y eventos de la vida real generados por personas no solo son dispersos, sino también libres de escala. Esta es probablemente la razón por la cual Google ha creado Tensor Flow y ha abandonado el paradigma MapReduce (ya que no se escala, cuando necesita un análisis de profundidad; dimensiones de 0 a N para descubrir características).

Si te gusta la física, debes leer sobre las leyes de conservación de energía, la entropía de Alfred Renyi y el entrelazamiento cuántico de información (teletransportación cuántica). Hacen un todo interesante.

Podría pensar que podría querer utilizar algoritmos de Factorización específicos para permitir que dos capas se comuniquen dentro de la Red de aprendizaje profundo; puede diseñar una red profunda de tal manera que las características populares encontradas por la factorización de matriz, se trasladen más a la memoria a largo plazo de las redes y las características menos populares permanezcan en la memoria a corto plazo.

Para ser honesto, no tengo suficiente conocimiento sobre las estructuras prácticas de las redes de aprendizaje profundo, pero creo que hay muchos tipos diferentes de redes profundas y su topología no siempre es similar; sin embargo, al combinar el aprendizaje profundo y la factorización matricial, preferiría algún tipo de máquina de Boltzman restringida profunda, que tiene una estructura de red sin escala.

Podría realizar algunas pruebas con esta pila para mi trabajo dentro de los próximos seis meses (comenzando la semana después de esta). Te mantendré informado si lo hago (siéntete libre de agregar comentarios más adelante si no he actualizado esta publicación).

Aquí está mi opinión sobre esta pregunta:

En redes profundas, a menudo tiene una estructura de cuello de botella, donde una capa intermedia es más delgada (tiene menos unidades) que su predecesora y sucesora.

Digamos que el número de unidades en estas capas son p, q, r, y que q

Asuma también una estructura totalmente conectada y sin no linealidades entre estas capas para simplificar.

Los pesos para transformar la salida de la capa p a la capa q son una matriz Mp, q de tamaño pxq. Los pesos de q a r son Mq, r de tamaño qx r. La multiplicación de estos dos es de dimensión pxr, que puede verse como una multiplicación matricial descompuesta en dos matrices clasificadas más pequeñas.

More Interesting

¿Cuánto tiempo le lleva a un programador experimentado aprender el aprendizaje automático?

¿Cuál es la intuición detrás de la fórmula de actualización de peso de Perceptron w = w + yx?

¿Hay una buena lista de ejemplos de cómo los problemas genéricos se convierten a MapReduce?

¿Qué factores además del conjunto de datos afectan cómo se elige el tamaño de lote para el descenso de gradiente estocástico (SGD) mini-lote?

¿Cómo se puede aplicar el aprendizaje automático para predecir el tiempo de entrega de un producto?

¿Cuál es el uso de una capa de disminución de resolución en una red neuronal convolucional (CNN)?

Tengo un conjunto de datos con 14 características. Quiero aplicar SVM en él usando R. ¿Cómo puedo?

¿Cuáles son las ventajas y desventajas de utilizar PMML como formato de intercambio para modelos de análisis predictivo?

¿Qué debo usar para el aprendizaje automático si necesito una solución rápida: Python, R o SAS?

¿Cuál es el estado del arte en reconocimiento de voz en 2016?

¿Es el hecho de que los algoritmos de aprendizaje profundo requieren grandes extensiones de datos como una limitación final de su potencial en IA?

¿Es posible o valioso obtener otro doctorado en Machine Learning (Deep Learning) de una de las 50 mejores universidades de los Estados Unidos?

¿Cuál es el mejor libro para aprender el pensamiento algorítmico?

¿Qué pasos de procesamiento previo recomendaría para un aprendizaje automático exitoso en un conjunto de datos MNIST?

¿Cómo verifican las personas los resultados de un análisis de causa raíz en la minería de datos? ¿Hay algún conjunto de datos público disponible que especifique cuáles son las causas reales del problema?