Cómo entrenar Word2Vec en un conjunto de datos personalizado

Primero debe convertir todos sus datos a secuencia de texto.

Conversión de PDF a texto:
———————————————————-
Muchos de nosotros podemos encontrar el mismo problema cuando necesitamos extraer datos de cualquier formato de archivo de propósito general como (* .pdf, *. Doc, *. Docx, *. Docm, etc.) en python

Guía paso por paso
Paquete de Python enriquecido disponible que admite extracción de texto: textract
Hay dos formas principales de usar textract. Desde la línea de comando, simplemente llama a textract en cualquier archivo en particular como este:

: ~ $ textract input_doc.doc> output_file.text
Como el paquete está escrito en python, también puede obtener el texto dentro de sus scripts de python de esta manera:

# Código Python

importar texto
text = textract.process (document.local_file_path)
my_string = (text.decode (‘unicode_escape’). encode (‘ascii’, ‘ignore’))
return unicode (” .join (my_string.split ()))
# Eliminar todos los espacios en blanco intermedios no deseados
# [GitHub] https://github.com/deanmalmgren/textract
Alimentación a funciones gensim para word2vec
Siga este tutorial de gensim paso a paso para generar el modelo word2vec

En caso de cualquier dificultad en la implementación, no dude en comunicarse conmigo.

Aprendizaje automáticoConjuntos de datosProcesamiento de lenguaje naturalWord2vec

¿Qué pensaría BF Skinner del aprendizaje automático?

¿Debo aprender Blockchain (Ethereum) o aprendizaje automático este verano?

¿Cuáles son algunas aplicaciones de aprendizaje automático para el comportamiento del usuario?

¿La IA y el aprendizaje automático implican mucha codificación?

¿Qué es una explicación intuitiva de la iteración de valores en el aprendizaje por refuerzo (RL)?

Cómo hacer que un modelo 3D de una computadora portátil muestre algo

Hola.

En primer lugar, debe determinar cuál es su objetivo final? ¿Quieres encontrar similitud entre las palabras? O, ¿quieres encontrar oraciones / documentos? Si es esto último, vaya a Doc2Vec, que es una generalización de Word2Vec. De lo contrario, Word2Vec será lo suficientemente bueno para ti.

Cargue su conjunto de datos, conviértalo en un corpus y pase el corpus en su modelo gensim. Entonces estás listo para irte.

Pocos enlaces que pueden ayudarte:

Doc2Vec tutorial utilizando Gensim – Andreas Klintberg – Medio

Tutorial Doc2vec

RaRe-Technologies / gensim

tutorial de gensim doc2vec

Todo lo mejor.

Subramanya Paddillaya

uno puede usar el paquete gensim para entrenar word2vec personalizado en un conjunto dado de documentos. Pero requiere que lo procese previamente.

He escrito una función que (ver subramanyata / myprojects) crea un modelo word2vec a partir de una colección de textos dada.

Actualmente, solo lee archivos de texto, por lo que debe convertir los archivos PDF en archivos de texto antes de usar la función. puedes usar pdfminer para esto.

Subramanya Paddillaya

More Interesting

¿Qué otros algoritmos / métodos se pueden usar como alternativa al algoritmo vecino más cercano para la medición de distancia y cuál funciona mejor que NN?

¿Vale la pena el curso sobre aprendizaje automático en Coursera por la Universidad de Stanford?

¿Por qué el algoritmo de agrupación k-means se considera un algoritmo de aprendizaje no supervisado? ¿Qué es "aprender"? ¿No es solo otro algoritmo codicioso?

¿Cuál es el estado del arte en reconocimiento de voz en 2016?

¿Por qué la minería de datos con aprendizaje automático no implica pruebas de hipótesis estadísticas?

¿Cuáles son algunos de los problemas abiertos más importantes en el aprendizaje automático en este momento?

Cómo extraer contenido del sitio web con procesamiento de lenguaje natural

¿Qué algoritmo funciona mejor para bandidos adversarios?

¿Estamos presenciando las primeras etapas del uso de ML en la industria o cree que la aplicación de ML hacia la industria ya está muy extendida?

¿Cómo se puede aplicar el aprendizaje profundo a la clasificación de palabras?