¿Por qué hay tan pocas startups de aprendizaje automático y procesamiento de lenguaje natural? Con tantas aplicaciones en la literatura de investigación y tantos progresos realizados, ¿qué está impidiendo que las personas creen empresas basadas en estas tecnologías?

Hay tres razones fundamentales:

  1. Existe una brecha masiva entre un prototipo de investigación y un producto pulido para la mayoría de las tecnologías basadas en ML.
  2. Es increíblemente difícil monetizar un negocio que comienza con ML como su propuesta de valor central; esto se convierte en una tecnología genial que busca un caso de uso que busca un modelo de negocio. Muy pocas compañías han navegado con éxito el camino de “un algoritmo genial que funciona X% mejor en Y”, a “software que la gente usa o que cambia el comportamiento de un sistema”, a “un negocio muy valioso”. (El de Google)
  3. Para la mayoría de los problemas, ML realmente brilla una vez que alcanza cierto volumen y velocidad de datos. ML se vuelve cada vez más valioso a medida que una empresa crece, pero rara vez es algo en lo que tiene sentido que la mayoría de las empresas se concentren inicialmente. Por ejemplo, piense en cómo recomendaría un libro a un usuario y diez libros frente a un millón de libros y mil millones de usuarios.

Sin embargo, no creo que sea cierto que haya “tan pocas startups de aprendizaje automático y procesamiento de lenguaje natural”. Si dediqué un poco de tiempo a esto, estoy seguro de que puedo generar una lista de cientos de activos con financiación.

Diría que muchos de estos se han reenfocado en dominios específicos y casos de uso, siendo el componente ML uno de los componentes clave de una oferta de productos mucho más grande.

PNL constituye una gran parte de lo que hacemos en Swiftly.org. Secundaré lo que Jonathan Joseph ha dicho. A pesar de ser uno de los principales desafíos para los científicos informáticos desde los años 80, con un segundo viento en los Aughts debido a tanto alboroto en torno a Searching y la Web Semántica, la PNL en la práctica se ha mantenido notablemente estancada.

¿Por qué? Deberíamos considerar que un algoritmo de PNL es ‘excelente’ incluso si es solo un 30% de precisión y la mayoría se acerca al 14-17% y esto es incluso antes de que comencemos a abordar temas como la taxonomía automática, la longitud del texto que se procesa, Los coloquialismos de matices arrojan parte de etiquetadoras de voz, traducción, PNL para otros idiomas y contenido con caracteres especiales provenientes de Twitter (producto) o mensajes de texto.

Entonces, cuando uno habla sobre el riesgo tecnológico en el mundo de la PNL, están hablando de todo lo anterior. La mayoría de las personas no pagarían por la PNL como un servicio dada la incapacidad de superar esos factores. Hay algunas compañías que ofrecen NLP-As-A-Service como Open Calais de Thompson Reuters e incluso sus algoritmos no alcanzan ese percentil 30 de precisión.

Finalmente, aunque es posible un modelo NLP-AAS, también he notado que la mayoría de las compañías consideran que el éxito en la PNL es una ventaja tan competitiva que prefieren desarrollar nuevas tecnologías internamente. Todas las redacciones que he visitado o con las que he trabajado (Al Jazeera, The Guardian, BBC, New York Times y algunas más) tienen al menos un chico (más a menudo un equipo) dedicado a tales problemas de datos. Debido a que las cosas comerciales se consideran irregulares de todos modos, supongo que sienten que también pueden desarrollar lo que necesitan internamente para que pueda combinarse con otras tecnologías.

Además de la discusión sobre el mercado y el riesgo tecnológico, creo que ahora también hay un poco de guardia vieja frente a la nueva guardia en el espacio ML / NLP.

Si asiste a conferencias como SpeechTek, hay muchas personas que han estado en el mundo de la PNL y el “discurso” durante décadas y que, por lo tanto, creen firmemente que lo han visto todo. Para las personas que creen saber lo que es “voz” o “PNL” y saben exactamente a dónde va, la forma correcta de ver el mundo es con extrema paciencia. Lo que significa que sus ideas sobre las oportunidades de negocio que existen no están bien alineadas con las demandas de “crecimiento” unicornio de las empresas emergentes y el capital de riesgo.

Pero al ser un nuevo alumno en este espacio, creo que estamos presenciando algo completamente nuevo en los últimos 18-24 meses. El reconocimiento de voz es un problema resuelto para el inglés, es gratuito en todas las plataformas principales y estará disponible de forma gratuita con una precisión mejor que la humana para todos los idiomas para fines de la década. Eso es tremendamente inesperado.

Y la PNL necesita reinvención para obtener interés comercial, pero tal como lo vemos en MindMeld – Interfaces de voz inteligentes, las soluciones de PNL actuales no tienen nada que ver con la solución de PNL de su padre.

NLP hoy trata sobre cómo sus clientes interactúan con su negocio durante los próximos 3-5 años. La pregunta para las compañías de tecnología más grandes (Google, Apple, Facebook, Microsoft, Amazon, Sony) no es cómo construir una capacidad de búsqueda de PNL “yo también”, se trata de cuál de ellas será propietaria del asistente de inteligencia artificial que se convertirá primero en consumidor toca todo el descubrimiento de contenido, producto e información.

Entonces, la oportunidad para la PNL es mayor de lo que nunca ha sido. Quien construya las mejores interfaces de lenguaje natural hoy dominará su industria en 3-5 años.

El desafío para las startups en este espacio, más allá de los riesgos tecnológicos, es lograr que los clientes vean la nueva oportunidad y no se distraigan con las asociaciones con promesas excesivas de los últimos 15-20 años.