Primero debe convertir todos sus datos a secuencia de texto.
- Conversión de PDF a texto:
———————————————————-
Muchos de nosotros podemos encontrar el mismo problema cuando necesitamos extraer datos de cualquier formato de archivo de propósito general como (* .pdf, *. Doc, *. Docx, *. Docm, etc.) en python
Guía paso por paso
Paquete de Python enriquecido disponible que admite extracción de texto: textractHay dos formas principales de usar textract. Desde la línea de comando, simplemente llama a textract en cualquier archivo en particular como este:
: ~ $ textract input_doc.doc> output_file.text
- Dado lo éticamente y empáticamente incompetentes que son los humanos, ¿cuándo comenzaremos a entrenar el aprendizaje automático en grandes conjuntos de datos de decisiones éticas?
- ¿Cómo funciona la red de propuestas regionales (RPN) en Faster R-CNN?
- ¿Cuál es el potencial empresarial del aprendizaje automático / inteligencia artificial?
- ¿Cómo se usa el aprendizaje automático en la generación de preguntas?
- Cómo encontrar grupos en estos datos
Como el paquete está escrito en python, también puede obtener el texto dentro de sus scripts de python de esta manera:
# Código Python
importar texto
text = textract.process (document.local_file_path)
my_string = (text.decode (‘unicode_escape’). encode (‘ascii’, ‘ignore’))
return unicode (” .join (my_string.split ()))
# Eliminar todos los espacios en blanco intermedios no deseados
# [GitHub] https://github.com/deanmalmgren/textract - Alimentación a funciones gensim para word2vec
Siga este tutorial de gensim paso a paso para generar el modelo word2vec
En caso de cualquier dificultad en la implementación, no dude en comunicarse conmigo.