Una versión más avanzada de este desafío está sucediendo en este momento, después de lo cual lanzaremos un editorial para esto.
Hay una cosa que me gustaría destacar aquí. Uno de los inconvenientes de una glamourización hollywoodiense del espacio de datos ha sido la suposición de que todos los desafíos en este campo necesariamente tienen enfoques elegantes, inteligentes, algorítmicos y seguros y se trata de encontrar el “algoritmo correcto” en el aha momento.
Hay un amortiguador o anti-climax del que me gustaría advertir de antemano.
He trabajado bastante con muchos datos, y sí, el espacio tiene una gran cantidad de simulación y alcance creativo para algoritmos, estadísticas, técnicas de aprendizaje automático, pero son solo una parte de él. Limpiar datos, nominar datos, regexing hasta que los ojos se enrojecen, canonizar ciertos tipos de palabras y textos, preparar diccionarios completos y listas de los recursos disponibles; todo esto, aunque poco atractivo, son componentes vitales para trabajar con datos. Trabajé en una conocida startup de datos durante un par de años, y una de las claves de su producto (conjuntos de datos) fueron cientos de expresiones regulares escritas meticulosamente.
- ¿Es seguro decir que un algoritmo iterativo es mejor que el recursivo para el mismo problema dado que ambos son de la misma complejidad temporal?
- ¿Qué algoritmo deberíamos usar para maximizar el CTR y predecir el CTR al mostrar un anuncio?
- Dado un número N y un flujo continuo de enteros de entrada, ¿podría encontrar dos números en el flujo cuya suma fuera el primer número N?
- ¿Cuáles son algunos algoritmos geniales que se pueden usar para el reconocimiento de objetos y cómo los usamos?
- ¿Cuál es una buena estructura de datos para un editor de texto como Word / Google Docs?
Volviendo al desafío: en gran medida, los diccionarios y los observadores ayudarán en este desafío. Aparte de eso, expresiones regulares que tienen en cuenta las palabras y frases comunes que ocurren antes y después de una de las entidades nombradas. Aparte de eso, existen técnicas basadas en datos para concluir lo que representa la Entidad Nombrada (persona o lugar) dependiendo de las palabras circundantes, pero eso se dejará para el editorial.
El Concurso de datos reales de enero (termina pronto) tiene una versión más avanzada de este desafío con nombres mucho más oscuros con los que los espectadores no podrán ayudar mucho. ¡No estoy seguro si tuviste la oportunidad de probarlo!