Bueno, ¿cuál es el punto para que los sastres hagan ropa ellos mismos en lugar de usar maquinaria industrial por valor de millones? El punto es tener una solución adaptada a sus necesidades ( badum-tss ), y evitar pagar por la solución estándar.
En primer lugar, la mayoría de los algoritmos en PNL son gratuitos . Las revistas y conferencias más importantes en el campo de la lingüística computacional son de acceso abierto (gracias, ACL). Lo que vale millones son los datos , los datos anotados (y los expertos que los crean) y el poder computacional para generar los modelos a partir de los datos.
Entonces, aunque algunos modelos, para algunas tareas básicas, se pueden descargar gratis (como word2vec o SpaCy), los modelos principales utilizados por los grandes jugadores no están disponibles de forma gratuita.
- ¿Cuál es la complejidad temporal de eliminar el borde de la estructura de la lista de adyacencia en un gráfico?
- ¿Debo comenzar a aprender algoritmos y estructura de datos si solo tengo algunos conocimientos básicos de programación Java?
- ¿La programación a nivel del sistema se ha vuelto obsoleta?
- ¿Cómo se debe aprender la codificación, haciendo algoritmos, desde el nivel básico, dado que no tiene experiencia en codificación? (especialmente desde el punto de vista de la colocación y también dado el hecho de que me queda un año para que comience mi temporada de colocación).
- ¿Cómo se siente Bram Cohen al haber creado accidentalmente un algoritmo para el cifrado totalmente homomórfico?
Cuál es mi segundo punto: los potentes servicios de PNL no son gratuitos. Tomemos, por ejemplo, la API de Google Natural Language, con un precio de $ 0.25 por 1000 llamadas cuando se usa mucho, para tareas básicas como el reconocimiento de entidades. Básico, no porque sean fáciles, sino porque si incluso está considerando lanzar su propia PNL, sugiere que está buscando algo más complejo.
Tome ahora TextRazor, que ofrece tareas más complejas y es bastante más caro. Probablemente ni siquiera necesite todas las cosas en su paquete de PNL, pero está pagando por una solución comercial confiable.
Si su negocio implica recopilar datos exóticos, realizar alguna tarea de vanguardia pero no lo suficientemente popular como para tener su propia API, será mejor que recree y modifique un algoritmo de un documento. Es parte de los riesgos que las startups pueden tomar para tener un buen producto.