¿Cuáles son las cosas divertidas que encontró en el procesamiento del lenguaje natural (PNL)?

Una vez, durante 2010, estaba haciendo una aplicación, un bot de IA especial, pero no un bot por diversión, tenía la intención de proporcionar asesoramiento turístico sobre los lugares de vacaciones en Uruguay.

Fue diseñado para responder preguntas en español. Durante todas las pruebas, la aplicación respondió con éxito a las cosas y solicitó que se ajustaran las respuestas o se desambiguaran, todo bien hasta entonces; ¡Así que todo parecía estar bien!

Nuestro diccionario fue construido con más de 60 mil palabras raíz, así como todas las inflexiones y posibles derivaciones, el número total de palabras reconocidas aumentó a una asombrosa cantidad de> 300 millones de palabras. Incluso corrigió automáticamente errores ortográficos básicos como acentos escritos (¡afortunadamente no sucede en inglés!)

De repente, las cosas se pusieron calientes, muy calientes, y nuestra fuente de alimentación del servidor se quemó debido a la gran carga sostenida, después de reemplazarla por una más adecuada, verificamos la razón de esta gran carga. ¡Allí estaba!

Las personas, en su mayoría niños y adolescentes, comenzaron a desatar un vocabulario que nunca podríamos imaginar, comenzaron a insultar al bot, usando palabras que nunca se encontraban en los diccionarios clásicos, por lo que el analizador hizo su máximo esfuerzo para comprender ese tipo de obscenidades y consiguió derretido por esas palabras calientes!

Esto nos hizo reír toda esa semana, mientras recolectamos todas las juramentos posibles en español y uruguayo y limitamos la potencia del procesador utilizada en la búsqueda de una palabra invisible, desarmando morfológicamente, lo cual es un problema NP difícil.

En realidad, nuestro diccionario reconoce más de 500 millones de palabras, reconstruye grandes errores ortográficos y contiene más de 112 mil raíces, incluyendo todo tipo de obscenidades, y lo que es mejor: ¡el analizador inteligente nunca se sonroja!

Tenemos un sistema de preguntas y respuestas. Se basa principalmente en el aprendizaje profundo y los modelos de n-gramas. Hay una serie de preguntas que requieren cálculo:

Este número es la media geométrica positiva entre 360 ​​y 1440, y es igual al producto escalar de los vectores <10,40> y <52,5>. También es igual a la suma de las medidas en grados de los ángulos interiores de un hexágono. También es igual a seis factorial. Identifique este número que es igual al número de grados equivalente a cuatro pi radianes.

Durante mucho tiempo, siempre respondería a estas preguntas (es decir, cualquier pregunta de cálculo) con seis. Fue lo suficientemente inteligente como para darse cuenta de que era una pregunta numérica, pero no qué más hacer con ella.

More Interesting

¿Qué valor cree que tiene la selección de funciones en el aprendizaje automático? ¿Cuál crees que mejora más la precisión, la selección de características o la ingeniería de características?

¿Pueden las redes neuronales resolver problemas de optimización?

¿Qué significa el término difusión en bibliotecas numéricas con matrices como MATLAB, Numpy o TensorFlow?

¿Cuál es la diferencia entre el aprendizaje probabilístico y el aprendizaje no probabilístico para diferentes situaciones? ¿Cuándo es uno más apropiado que el otro?

¿Qué piensa sobre el estudio de posgrado especializado en recuperación de información y sistemas de recomendación?

¿Qué métricas debo usar en mi investigación de preprocesamiento de datos (no estructurada)?

¿Por qué la distribución previa no tiene mucho impacto en la distribución posterior cuando tenemos muchos datos?

Cómo convertirse en un experto en aprendizaje automático y PNL desde principiantes

¿Qué es la regularización de Tikhonov en términos simples?

¿Qué es la curva de recuperación de precisión (PR)?

¿Es el análisis de sentimientos todo sobre lingüística?

¿Puede un ML / AI aprender a pasar captchas?

¿Puedo usar una CPU para generar datos (aumento) cuando el entrenamiento de flujo de tensor en GPU es de forma paralela?

¿Cuál es la mejor manera de administrar indicadores de función o alternar características para equipos de desarrollo más grandes?

Como todos están aprendiendo el aprendizaje automático y el aprendizaje profundo ahora, ¿debería adoptar un enfoque diferente para centrarme en un área específica, como la programación de gráficos o una más general, como el desarrollo de backend?