¿Se pueden mezclar variables categóricas y continuas en una red neuronal simple?

¡Si!

MuProp (https://arxiv.org/pdf/1511.05176) es el primer artículo (que yo sepa) que comparó varias técnicas para muestrear variables categóricas en redes neuronales y entrenarlas usando una versión modificada del algoritmo de retropropagación estándar. Un trabajo mucho anterior considera el entrenamiento de unidades binarias estocásticas (es decir, un caso especial de categóricos). Todos estos son un subconjunto de las llamadas “redes neuronales estocásticas”.

Algunos trabajos recientes ([1611.01144] ¡Reparametrización categórica con Gumbel-Softmax por colegas de Google Brain y los suyos verdaderamente!), Junto con el trabajo concurrente de colegas de DeepMind (Relajación continua de variables aleatorias discretas) desarrollaron métodos para entrenar específicamente capas de muestreo de categorías categóricas variables

Tengo una publicación de blog aquí al respecto: Tutorial: Autoencoders Variacionales Categóricos usando Gumbel-Softmax

Algunos trabajos de seguimiento: https://arxiv.org/pdf/1703.07370

Lo discreto es la parte difícil; es bastante sencillo mezclar muestras discretas y continuas, calcular muestras continuas condicionalmente en muestras discretas, o viceversa.

Aprendizaje automáticoAprendizaje profundoestadísticasInteligencia ArtificialRedes neuronales artificiales

Related Content

¿Las imágenes captcha perderían su importancia si las técnicas de procesamiento de imágenes pudieran reconocer a los personajes automáticamente?

Entre JavaScript y la ciencia de datos, ¿qué debo hacer? Tengo que aprender a los dos desde cero.

¿Qué significa que las funciones de activación (como ReLU) en NN inducen la escasez en las unidades ocultas?

¿Cuáles son las mejores prácticas para elegir el tamaño de estado oculto en RNN?

¿Qué es la agrupación promedio global?

¿Es la IA un objetivo o una herramienta potencial para la automatización?

Cómo implementar el reconocimiento de imágenes para crear una aplicación para organizar imágenes

No. Te encontrarás con todo tipo de problemas. Antes de procesar los valores categóricos, asegúrese de que las propiedades estadísticas (media, varianza) sean similares al resto de la entrada. Esto es para asegurarse de que la curvatura esté cerca de un tazón en lugar de un elipsoide estrecho, porque la curvatura larga y estrecha hará que su día de optimización sea mucho menos feliz.

Otros pueden sugerir codificarlos en binario, luego dejar que el NN descubra los valores correctos, que están codificados en la matriz de peso; sin embargo, esto solo funciona con espacio fijo y de baja cardinalidad.

Eric Jang

Estoy de acuerdo con todos los problemas mencionados por Istvan Además, puede cuantificar valores continuos:

Si tienen rango, puede hacer una cuantización no conformada: 0–0.1 es categoría a, 0.1–0.2 es categoría b, y así sucesivamente. O no uniforme: por ejemplo, para señales de audio, cuantificación de ley mu
Si no tiene un rango, puede definir un rango unilateral: por ejemplo, para mayores de 50 años podría ser una clase.

Eric Jang

More Interesting

Aprendizaje automático: al construir un modelo de regresión lineal, ¿cómo decido entre variar el grado del polinomio y variar el parámetro de regularización?

¿Cuál es el análisis de opinión en el caso de TripAdvisor? ¿Como funciona?

Las entidades biológicas inconscientes que simplemente reaccionan automáticamente a su entorno han evolucionado y se han vuelto autoconscientes. ¿Qué impide que AI lo haga?

¿Cuándo debo usar la asignación de Dirichlet latente en la minería de texto? ¿Es bueno usarlo para un sistema que requiere alta precisión, como un sistema de detección de fraude?

¿Cuál es el papel de un neurocientífico en el desarrollo de inteligencia artificial?

Mientras entrena una red profunda, una vez que la precisión del entrenamiento alcanza el 100%, ¿hay algún punto en entrenar la red durante más épocas?

¿De qué manera es una 'Máquina de Turing Neural Lie Access' superior a las NTM normales?

¿Cómo puedo demostrar que si no escalo las características antes de aplicar el descenso de gradiente, disminuirá la convergencia?

Estoy tratando de evaluar el rendimiento del modelo (regresión). En la literatura, algunos usan RMSE y otros usan correlación. ¿Hay alguna diferencia entre ambos enfoques?

¿Auto-sklearn es realmente mejor que un clasificador único optimizado por hiperparámetro? ¿Tienes experiencia con esto?

Cómo detectar y eliminar valores atípicos de ese conjunto de datos

Entre la agrupación y la clasificación, ¿cuál requiere más experiencia?

¿Cómo se puede utilizar el aprendizaje automático para la clasificación de exoplanetas?

¿Cuáles son algunos conjuntos de datos etiquetados disponibles públicamente que usan Kinect para su uso en la investigación de la visión por computadora?

¿El recocido simulado y la optimización de colonias de hormigas cuentan como aprendizaje automático?

Web Analytics