Buena pregunta. Algunas ideas:
- El proyecto Apache Tika [1] tiene como objetivo construir una biblioteca de analizadores de formato de documentos. Si los currículums llegan a usted en PDF, .doc u otros formatos comunes, Tika puede extraer texto sin formato de estos documentos.
- A continuación, algunos de los currículums probablemente tendrán una estructura común. El proceso de descubrir esta estructura común se conoce con el nombre de inducción de envoltura [2] en círculos de rastreo web.
- Finalmente, es probable que desee un vocabulario estándar de universidades y otras entidades para cada campo. El proceso de mapeo de la universidad ingresada por el usuario a una entidad canónica se conoce como reconocimiento de entidad nombrada [3].
- Una vez que tenga la tubería anterior trabajando manualmente, probablemente querrá automatizar el proceso. Encontrará herramientas útiles para la cola de mensajes , el flujo de trabajo y la programación útiles en esta etapa.
Por supuesto, todo eso es difícil. Si tiene un presupuesto, puede usar CrowdFlower [4] para que los seres humanos extraigan la información estructurada por usted.
[1] http://tika.apache.org
[2] http://www.cs.washington.edu/hom…
[3] http://en.wikipedia.org/wiki/Nam…
[4] http://crowdflower.com
- ¿Por qué mi código solo pasa números pequeños y no los grandes (con respecto a subconjuntos no divisibles)?
- ¿Se puede programar un algoritmo complejo de una manera simple? Suponga que no se necesitan optimizaciones.
- ¿Por qué me cuesta entender la recursividad?
- ¿Cuál es el máximo común divisor de 55 y 75 usando el algoritmo euclidiano?
- ¿Cuál es el significado de usar una cola prioritaria en el algoritmo de Dijkstra? ¿Qué diferencia hay si usamos una cola normal?