Las partes más difíciles de Jarvis no son las partes “AI”. Llegaré un poco más tarde y verás por qué.
Como Mark mismo describe, para construir ese sistema no necesita inventar nada realmente nuevo. Es el trabajo de un ingeniero, ensamblando diferentes partes y haciendo que se comporten exactamente como usted quiere.
Tome el problema que enfrentó al dar órdenes desde diferentes lugares por diferentes personas en diferentes tiempos. Es realmente importante que todos los factores entren en razonamiento sobre el comando, de lo contrario, dicho sistema es inútil. Cuando divida esta tarea en partes “nucleares” que pueden resolverse con algoritmos entrenados por separado (o, en algunos casos, scripts codificados), verá que hay muchos de ellos.
- ¿Cuál sería la forma más rápida y fácil de hacer una API de reconocimiento de oraciones utilizando una red neuronal?
- ¿Por qué la IA y la PNL son tan candentes en estos días?
- ¿Qué hace que una neurona aprenda? Si no lo sabemos, ¿alguna vez será posible averiguarlo?
- ¿Qué se 'propaga' durante la retropropagación?
- ¿Cuáles son las medidas más precisas de la inteligencia artificial?
¿Por qué es tan difícil? Capacitar incluso una sola red para dar buenos resultados en el entorno de producción (en inglés: para que no sea una mierda cuando alguien lo usa) es un proceso complicado. ¿Estás cambiando una pequeña configuración? Vuelva a entrenar todo, hasta luego. Ahora, ¿qué obtienes cuando hay decenas de ellos, y la mayoría de ellos dependen de qué tan bien se desempeñen los demás? Es un desafío incluso para un ingeniero de ML a tiempo completo.
Una vez que haya terminado de ajustar y probar las “partes AI”, comenzará a rascarse la cabeza para descubrir cómo hacer que funcione en el mundo real. De repente, malditas cosas no se ajustan a sus entornos de prueba estériles, la tostadora no tiene una API decente (y una buena API es algo tan raro como un unicornio), etc. Y, por cierto, no puedes hacer todo en tu idioma favorito, por lo que habrá mucho pirateo en C, soldando, maldiciendo, buscando en Google, depurando cada pieza pequeña y maldiciendo nuevamente.
Y luego está desarrollando la aplicación, sudando sobre cada pequeña característica que desea agregar mucho después de que la red neuronal que hace el trabajo pesado esté lista, haciendo la interfaz de usuario perfecta … Es por eso que la parte “ordinaria” y “aburrida” es el verdadero negocio. Aquí, me sorprende que haya tenido tiempo de hacer todo eso.
¿Es factible para una persona promedio? Seguro. Es mucho trabajo, pero hay tantas bibliotecas de código abierto que realmente no es un problema. La parte clave es unirlo y no permitir que la máquina omnisciente explote PowerWolf en la habitación de sus hijos cuando llegue el momento de una canción de cuna.