Hay demasiados aspectos en este debate para responder de manera coherente aquí. En cambio, abordaré una faceta discreta del debate, la posición de Norvig de que los modelos probabilísticos entrenados con métodos estadísticos “tienden a hacer de la lingüística una ciencia empírica” (Norvig, On Chomsky y las dos culturas del aprendizaje estadístico ). La oposición en este debate, Chomsky y sus seguidores, se acercan a la facultad de idiomas como una consecuencia de la biología humana, y su investigación relaciona las gramáticas mentales con los datos de lenguaje natural interlingüísticos. Norvig critica a Chomsky por su rechazo de los modelos de lenguaje estadístico orientado a tareas como una metodología científica exitosa. Además, afirma que Chomsky está obligado a “fabricar una instalación mística” (la dotación genética humana) para reforzar su postura mentalista. No estoy de acuerdo con Norvig en estos asuntos.
Aquí hay algunos antecedentes para los no iniciados. Un modelo de lenguaje estadístico es una distribución de probabilidad sobre una secuencia de palabras. Un corpus de datos de lenguaje natural proporciona la secuencia de palabras. Se compone de datos de idioma seleccionados por su relevancia para una tarea en particular. Una tarea de ejemplo podría ser el monitoreo diario del cereal de desayuno más popular de los usuarios de Twitter, como lo demuestran sus publicaciones públicas. Los corpus en bruto pueden ser anotados para mejorar el desempeño de un modelo de lenguaje estadístico. Sin embargo, las anotaciones no identifican conceptos ni cómo se comunican. Aun así, con las anotaciones apropiadas, la medición de la popularidad del cereal para el desayuno puede tener éxito sin identificar el contenido conceptual de los tweets. Todo lo que necesita es un millón de tweets, cada uno anotado con un atributo operativo apropiado que indica un cereal de desayuno favorito. Esto permite la inducción de una partición de datos basada en la clase que discrimina los textos de acuerdo con la popularidad del cereal para el desayuno.
Ahora aquí está la carne del asunto. Los corpus exhiben hapax legomena y otros efectos de la Ley Zipf. Esto significa que la mayoría de los datos del lenguaje natural en un corpus evidencian solo una porción modesta del conocimiento lingüístico humano (elementos de clase cerrada de alta frecuencia como preposiciones, pronombres, conjunciones y determinantes), mientras que la evidencia de la mayor parte del conocimiento lingüístico humano (clase abierta elementos como sustantivos y verbos) es esporádico. La mayoría se observan una vez o no se observan. Esta escasez de datos en lenguaje natural es una de sus características más relevantes. Sorprendentemente, los modeladores de lenguaje mentalista tienden a reconocer esta desviación de las normas empíricas de la ciencia; Los modeladores de lenguaje empirista generalmente se comportan como si no hubiera una conclusión vinculante en este asunto. Por lo tanto, los defensores de los modelos de lenguaje estadístico a menudo desvían las críticas percibidas al predecir mejoras de rendimiento con un mayor tamaño del corpus. Los escépticos se preguntan cómo más datos superarán la Ley de Zipf, ya que el valor operativo de cada adición al corpus disminuye rápidamente.
- ¿Existen aplicaciones comerciales que hayan utilizado algoritmos de visión artificial?
- Programación de computadoras: ¿Cómo se creó la IA de Tekken 3?
- ¿Neo4J es literalmente gratis?
- ¿Qué es la red neuronal de valor complejo?
- ¿Podemos usar el aprendizaje automático para encontrar las pasiones de las personas?
En el marco del modelo de lenguaje estadístico convencional, la precisión podría medirse mejor por el éxito con el que el modelo de ayer predice el cereal de desayuno más popular de hoy. Las pruebas se limitan al dominio de aplicación idéntico (por ejemplo, tweets de la comunidad que contribuyeron al corpus subyacente al modelo estadístico). Si el modelo de ayer funciona bien con los datos de hoy, entonces el modelo actual sigue siendo exitoso. De lo contrario, el corpus se actualiza y se entrena un nuevo modelo sobre nuevos datos hasta que se obtenga un umbral de rendimiento exitoso. Tenga en cuenta que el marco del modelo de lenguaje estadístico no tiene más interés en los contribuyentes al corpus, los conceptos que pretendían comunicar ni sus significados. En particular, excluye del análisis cualquier operación mental involucrada en la creación de datos de lenguaje empírico.
El éxito de un modelo de lenguaje estadístico depende completamente de su capacidad para simular (más precisamente, aproximar) el comportamiento del lenguaje previamente registrado. Cuando se expone a una entrada nueva, clasifica los nuevos datos del lenguaje de acuerdo con los patrones detectados en el corpus original específico de la tarea. Más allá de este dominio, el modelo tiene pocas posibilidades de una aplicación exitosa. En particular, no es informativo sobre otros usuarios de idiomas que se comunican en el mismo lenguaje natural sobre otros temas, los conceptos que comunican o sus significados. Por lo tanto, los defensores de los modelos estadísticos del lenguaje encuentran éxito en la aproximación precisa de los datos no analizados, mientras que Chomsky y sus seguidores encuentran el éxito en el descubrimiento de relaciones explicativas entre las funciones mentales que subyacen al comportamiento del lenguaje humano y los artefactos del lenguaje producidos en ese comportamiento.
Volvamos ahora a la afirmación de Norvig de que los modelos probabilísticos entrenados con métodos estadísticos tienden a hacer de la lingüística una ciencia empírica. Para soporte retórico, Norvig hace alarde de la popularidad de los modelos de lenguaje estadístico en las tareas de procesamiento de lenguaje natural y su éxito en el mercado. No estoy de acuerdo con Norvig en que el éxito comercial defiende una disminución de la lingüística a una ciencia empírica. Sin embargo, aprecio la capacidad de esta metodología para empaquetar rápidamente productos de procesamiento de lenguaje natural satisfactorios para tareas relativamente simples como la clasificación de documentos y el análisis de sentimientos, así como tareas más ambiciosas como la transcripción del habla. Aun así, dos décadas de intensa investigación y desarrollo en traducción automática (MT) de alta calidad totalmente automática de texto sin restricciones no se han cumplido con las promesas de Norvig: hoy Google Translate solo funciona modestamente mejor que los mejores sistemas ( Systran , METAL , LOGOS , etc. . ) lo hizo hace veinticinco años. Para la mayoría de los casos de uso, no hay una diferencia de cinco centavos.
El MT es un objetivo principal de la tecnología de IA, entonces, ¿por qué la generación actual de MT estadística no ha podido superar significativamente la capacidad central de su predecesor? Los modelos probabilísticos entrenados con métodos estadísticos podrían ser aumentados con información sobre conceptos y significados, pero tales métodos sin duda serán rechazados como sobre ingeniería hasta que la opinión pública considere que el paradigma actual es insatisfactorio. Las capacidades de traducción humana de ingeniería inversa de la generación anterior, pero su progreso se ralentizó al intentar integrar tratamientos de sentido de las palabras, contexto cultural, etc. La generación actual produjo modelos estadísticos a partir de colecciones paralelas de traducciones humanas (bitexts), pero también se atascó mejorando problemas similares de calidad de traducción. Lo mejor de la generación actual ahora incorpora elementos lingüísticos en sus algoritmos (por ejemplo, Language Weaver modela la sintaxis de idiomas particulares). Aun así, ambos paradigmas de MT parecen culminar en una “traducción rápida y sucia” (Church y Hovy, 1991).
Los defensores de modelos probabilísticos entrenados con métodos estadísticos disfrutan de ventajas comerciales en términos de tiempo de comercialización y monetización tecnológica, pero estas ventajas contribuyen poco a comprender la forma y función de la facultad del lenguaje humano, sin la cual no habría datos del lenguaje humano. Además, las distribuciones de probabilidad sobre secuencias de palabras no confieren una visión sobre el estado de la lingüística como ciencia. Claramente, el estudio científico del lenguaje no puede restringirse al texto grabado de una comunidad lingüística involucrada en un modo de comportamiento limitado. En cambio, debe abordar cómo los humanos aplican objetos lingüísticos para transmitir, procesar y asignar significado como una cuestión de comunicación general. La lingüística como ciencia debe explicar las operaciones mentales que subyacen a la fenomenología del comportamiento del lenguaje. Para la adecuación explicativa, esta disciplina debe aplicarse de forma sincrónica, diacrónica y translingüística a todos los aspectos de la facultad del lenguaje humano. Su enfoque central debe incluir una explicación parsimoniosa de la codificación lingüística y la decodificación de conceptos. Con esta metodología, se puede articular un sistema de explicaciones consistentes para fenómenos lingüísticos arbitrarios de escalas y granularidades variables sin restricción de dominio de aplicación o comunidad de usuarios. En el estudio del lenguaje, así es como avanza la ciencia.