¿Existe un algoritmo para identificar el género basado en el nombre?

No. Al menos no con una certeza del 100%.

La mayoría de los países permiten a los padres llamar a sus hijos casi cualquier cosa en estos días. También existen muchos nombres unisex. Además, esta también es una cuestión cultural. El género más probable para un nombre puede depender del país / cultura de la persona en cuestión.

Ya hay algunas API y bibliotecas por ahí que puede usar, que toma algunos enfoques diferentes.

http://genderize.io es una API gratuita que utiliza conjuntos de datos de perfiles de redes sociales. Este es un buen enfoque ya que las personas en las redes sociales pueden llamarse a sí mismas exactamente lo que quieren, como en el mundo real. También ofrece la opción de filtrar sus resultados a un determinado país o idioma, lo que permite lograr una mayor certeza. Cuando llama a la API con un nombre, devolverá el género más probable junto con un factor de certeza, lo cual es bueno si desea establecer una barra de cuándo confiar en él.

Aquí hay algunos ejemplos:

OBTENGA http://api.genderize.io?name=kim

  {"nombre": "kim", "género": "femenino", "probabilidad": "0.90", "cuenta": 145} 

OBTENGA http://api.genderize.io?name=kim…

  {"nombre": "kim", "género": "hombre", "probabilidad": "1.00", "cuenta": 4, "id_país": "DK"} 

Aquí hay una gema de Ruby para genderize.io: https://rubygems.org/gems/gender…

PHP también tiene una clase de género para esto: http://php.net/manual/en/class.g…

Y hay un par de API más en Mashape que puede consultar: https://www.mashape.com/search?query=gender

En Burger, Henderson y Zarrella 2011 [artículo], usan n-gramos de nombres completos como características en un clasificador. Otro ejemplo de extracción de características de nombres completos se puede encontrar en Liu & Ruths 2013 [paper].

En ambos escenarios, se hace hincapié en extraer características útiles de los nombres y luego usarlas con otros algoritmos, como clasificadores de vectores de soporte o árboles de decisión. Además, en estos dos escenarios, los nombres no se usan de forma aislada, sino en comparación y en conjunto con otras características.

En el periódico Burger:

> El campo más informativo con respecto al género es el nombre completo del usuario, que proporciona una precisión del 89,1%.

Si solo está mirando una variable de entrada (nombre), este no es realmente un problema de Machine Learning. Simplemente puede verificar sus datos para ver si el nombre es más común entre hombres o mujeres.

Podría hacerlo a través del aprendizaje automático, pero predecirá con una cierta probabilidad.

Hay un algoritmo en GitHub que hace exactamente eso, aunque no lo he intentado personalmente:

LeGenderary

More Interesting

¿Cuáles son algunos algoritmos nuevos e interesantes en bioinformática / informática genómica?

¿Cómo funciona el algoritmo OKCupid?

¿Cómo combina ACM ICPC invertir en diversidad y mantener alta la barra de entrada?

Cómo realizar una operación de revolución usando un treap

¿Qué algoritmo se puede usar para encontrar la clave para el cifrado y la clave de entrada en el formulario?

¿Dónde puedo encontrar una comprensión realmente fácil y rápida de todas las estructuras de datos y algoritmos?

¿El cerebro procesa imágenes exactamente como los algoritmos de visión AI y las CNN?

¿Para qué aplicaciones son especialmente adecuados los lenguajes de programación lógica? ¿Cuándo usarías un lenguaje como Prolog? ¿Cuáles son las aplicaciones más exitosas de la programación lógica?

Yoshua Bengio: ¿Puede el aprendizaje profundo encontrar un nuevo algoritmo de clasificación?

¿Existe una versión del problema de la mochila en la que haya una restricción sobre qué objetos se pueden colocar en la bolsa?

Cómo crear mi propia función de hash para usar en una tabla de búsqueda

¿Cuántos números debajo de [matemática] 10 ^ n [/ matemática] hay cuyos dígitos suman [matemática] [/ matemática]?

¿Hay alguna manera de devolver una matriz de recursividad?

¿Algún consejo para estudiar la complejidad del espacio para programar entrevistas? ¿Cuáles son algunos buenos recursos para aprender sobre la complejidad del espacio?

Ayúdame con el problema TopCoder SRM - 599, div - I, level - 3?