¿Cómo se pueden usar las redes neuronales recurrentes para predecir el género a partir de los nombres de pila?

Esto se ha hecho mucho: tómese el tiempo para buscar en Google algunas palabras clave y verá que hay varias soluciones existentes.

En mi opinión, en realidad no es un problema tan interesante de resolver como parece, por un par de razones:

No existe una regla con respecto al género y los nombres: y muchos nombres (particularmente formas abreviadas de nombres) son neutrales al género.
Hay bases de datos exhaustivas sobre si un nombre es típicamente masculino / femenino / ambos, lo cual es excelente para proporcionarle datos de entrenamiento, pero en realidad no hay tantos nombres: por lo que su modelo también puede memorizar los datos de entrenamiento y buscar la respuesta cuando quieras.

Podría tener una puñalada en este problema con un LSTM. Tendría que pensar un poco cuidadosamente sobre sus etiquetas, por la primera razón que mencioné anteriormente, un resultado simple 0 = masculino, 1 = femenino (logístico) puede ser demasiado simple: quizás sería mejor tratar el problema como un problema múltiple problema de clasificación de etiquetas (su red tendría dos salidas que no son excluyentes: probabilidad de ser un nombre masculino “aceptable” y probabilidad de ser un nombre femenino “aceptable”).

Related Content

Cómo usar SVM para clasificar imágenes normales y anormales si se conocen las características

¿Por qué todas las principales empresas de tecnología abren fuentes principales de su tecnología de inteligencia artificial?

Máquina de Boltzmann restringida (RBM): ¿Cómo se podría reformular (y / o explicar) las dos tareas en la siguiente diapositiva de una charla de Geoffrey Hinton?

¿Alguien puede proporcionar ejemplos sobre cómo usar la biblioteca Shogun para modelos de Markov ocultos?

¿Cómo puedo comenzar el trabajo de investigación sobre aprendizaje automático y cómo puedo elegir un tema o problema en el aprendizaje automático?

¿Cuál es la computadora portátil ideal en un rango inferior a 45000?

¿Cuál es la diferencia entre el aprendizaje de refuerzo basado en modelos y sin modelos?

¡Este es un pequeño experimento interesante para probar!
Aquí hay un posible enfoque:

Codifique caracteres como k vectores tridimensionales calientes. Por ejemplo, para inglés, k = 26, ignorando cualquier carácter especial.
La capa de entrada tendrá k unidades lineales con una unidad alimentada con 1 y el resto alimentada con 0 s. El 1 corresponderá al carácter actual que se ingresa como parte de la secuencia de caracteres.
La capa oculta, por supuesto, tiene unidades recurrentes (como lo exige la pregunta).
La capa de salida será una capa softmax con dos unidades (una para hombre y otra para mujer). En otras palabras, la salida objetivo es un vector caliente de 2 dimensiones.
Se puede usar la replicación de destino, de modo que, después de cada carácter de entrada, la salida de destino sea el único vector activo correspondiente al género real.
La función de pérdida puede ser entropía cruzada.

El enfoque anterior supone una configuración supervisada, por lo que se requieren muchos nombres y géneros correspondientes para capacitar a la red.

Erlend Davidson

More Interesting

¿Puedo usar el aprendizaje automático para pronosticar datos de series temporales para puntos de datos discretos dispersos?

¿Cuál es la diferencia entre Deconvolución, Upsampling, Unpooling y Convolutional Sparse Coding?

Cómo usar un árbol de decisión para clasificar un conjunto de datos no balanceado

¿Es un árbol de decisión solo un nombre elegante para una secuencia de declaraciones if-else-if-else -if-else?

Cómo hacer clustering para datos categóricos

¿Cómo funciona el modelo de atención con LSTM?

Si solo aumento el número de capas de Neural Net simple con alguna función de activación, ¿lo convierte en Deep Learning?

¿Cuál es una forma intuitiva de explicar los resultados de la PCA?

¿Para qué sirve el aprendizaje automático?

¿Cuáles son los conjuntos de datos de visión por computadora más populares en este momento?

Cómo demostrar que minimizar la suma residual de cuadrados es equivalente a maximizar la función de log-verosimilitud

¿Cuál es la distribución condicional completa?

¿Qué tan importante fue el Premio Netflix para el área de Sistemas de recomendación?

Cómo modelar la siguiente situación probabilística

¿TF-IDF está categorizado como una selección de características o una extracción de características?

Web Analytics