¿Cuáles son algunas ideas interesantes para un proyecto de investigación en procesamiento de lenguaje natural y / o traducción automática?

Una idea en la que he estado pensando mucho últimamente, y espero incorporar en mi tesis, es traducir entre un lenguaje y una serie temporal de datos de eventos. En otras palabras, un traductor entre diferentes modalidades.

Un ejemplo sería la automatización de comentarios para eventos deportivos. Puede extraer características visuales de una transmisión de video de un evento deportivo y luego tratar de alinearlo con una transcripción del comentario. Con suficientes datos, imagino que podrías construir un “traductor” entre las características visuales y una descripción en lenguaje simple de lo que está ocurriendo en el video (restringiéndote a un dominio específico). En este caso, su traductor sería un comentarista de IA. Michael Fleischman hizo su tesis en el MIT sobre una idea similar, a la que llamó Eventos de puesta a tierra en lenguaje, y es una gran lectura. Creo que ahora fundó una compañía que está haciendo algo similar con Deb Roy. Creo que también hay un proyecto en UBC que hace la generación automática de comentarios de hockey, pero han pasado algunos años desde que vi ese proyecto.

De todos modos, tal vez esto no sea lo que estás buscando. Pero creo que es genial.

¿Por qué es tan fácil el aprendizaje profundo?

¿Existe alguna herramienta o API capacitada en datos de tweets para la extracción de entidades con nombre?

Cómo identificar entidades en una consulta de búsqueda en lenguaje natural

En la curva ROC, cualquier punto es resultado del modelo en un parámetro particular. No estoy claro por qué el adivinador aleatorio está en x = y y no siempre (0.5, 0.5). ¿También cómo interpretar el área bajo la curva?

¿Qué es la búsqueda de interpolación y para qué se utiliza?

¿Cuáles son algunos talleres sobre aprendizaje a gran escala?

Trabajo en un dominio similar, aquí hay algunos temas que me gustan:

Análisis de sentimientos para twitter, artículos web : identifique todos los sentimientos para artículos web, revisión de productos, revisión de películas, tweets. Se puede utilizar un enfoque basado en léxico o técnicas de aprendizaje automático
Clasificación / resumen de artículos web : utilice la técnica de agrupación / clasificación para clasificar el artículo web, realice análisis semánticos para resumir los artículos
Sistema de recomendaciones basado en los perfiles de redes sociales del usuario : utilice la API de redes sociales, recopile el interés del usuario de Facebook, Twitter, etc. implemente el sistema de recomendación para el interés del usuario
Clasificación de tweets y detección de tendencias: clasifique los tweets para deportes, negocios, política, entretenimiento, etc. y detecte tweets de tendencias en esos dominios
Predicción de revisión de películas: use críticas de películas en línea para predecir críticas de nuevas películas.
Resumir reseñas de restaurantes: tome una lista de reseñas sobre un restaurante y genere un único resumen en inglés para ese restaurante.
AutoBot: crea un sistema que pueda mantener una conversación contigo. El usuario escribe mensajes y su sistema responde en función del texto del usuario. Muchos enfoques aquí … podría usar un gran corpus de Twitter y hacer similitud de lenguaje
Sistema de noticias basado en Twitter : recopile tweets para varias categorías cada hora, base diaria, identifique debates de tendencias, realice análisis semánticos y cree un sistema de noticias (consulte el producto Frrole)

Aquí hay algunos conjuntos de datos que he compilado. ¿Dónde puedo obtener un conjunto de datos que contenga texto de artículos, libros, etc.?

Jordan Frank

¡Paul McCann y Adam Mathias Bittlingmayer tienen razón! La identificación de autoría y la detección de idiomas son temas interesantes para un proyecto de investigación en PNL.

En el mundo digital de hoy vale la pena seguir estas preguntas, especialmente después de una ola de gerrymandering entre la política y un par de casos de plagio sensacionales, y mucho menos el talento de los periodistas para desenterrar todo. Parece que la gente no teme ser demandada por etiqueta. A ellos simplemente no les importa. Afortunadamente, hay un “lado blanco” que todavía está interesado en mejorar el mundo con la ayuda de la tecnología. Por lo tanto, las noticias falsas, los hechos y los textos robados se pueden detectar fácilmente.

Y, dentro de la cuestión de la identificación de autor, los lingüistas computacionales están desarrollando tecnologías que pueden reconocer la paráfrasis e identificar el plagio en diferentes niveles. Un conjunto de técnicas estilométricas ayuda a AI a comprender la naturaleza del estilo de escritura y luego expone un fraude electrónico.

Si desea comprender cómo funciona realmente, visite mi página en http://emmaidentity.com/ y pruebe la tecnología tanto como desee. En junio de 2017, mi versión beta estará disponible.

Jordan Frank

More Interesting

Cómo implementar la detección y clasificación de frutas de manzana usando MATLAB en una aplicación antroidea

¿Cuál es el beneficio de utilizar la agrupación promedio en lugar de la agrupación máxima?

¿Qué métodos de conjunto / aprendizaje automático pueden incorporar covariables que varían con el tiempo?

¿Cuáles son los cursos necesarios para aprender la recuperación de información y el aprendizaje automático?

Cómo encontrar el contexto de una conversación usando técnicas de aprendizaje automático / aprendizaje profundo / PNL

¿Qué otras arquitecturas de redes neuronales se han utilizado para reducir las facturas de energía del centro de datos aparte del método de DeepMind?

¿Es posible utilizar el aprendizaje automático para hacer un programa que pueda programar?

¿Qué algoritmo funciona mejor para bandidos adversarios?

ANNs: ¿Cómo usan las redes convolucionales el 'compartir peso'?

¿Cuáles son algunos de los usos del aprendizaje automático en los motores de búsqueda?