Cómo entrenar Word2Vec en un conjunto de datos personalizado

Primero debe convertir todos sus datos a secuencia de texto.

  1. Conversión de PDF a texto:
    ———————————————————-
    Muchos de nosotros podemos encontrar el mismo problema cuando necesitamos extraer datos de cualquier formato de archivo de propósito general como (* .pdf, *. Doc, *. Docx, *. Docm, etc.) en python

    Guía paso por paso
    Paquete de Python enriquecido disponible que admite extracción de texto: textract

    Hay dos formas principales de usar textract. Desde la línea de comando, simplemente llama a textract en cualquier archivo en particular como este:

    : ~ $ textract input_doc.doc> output_file.text

    Como el paquete está escrito en python, también puede obtener el texto dentro de sus scripts de python de esta manera:

    # Código Python

    importar texto
    text = textract.process (document.local_file_path)
    my_string = (text.decode (‘unicode_escape’). encode (‘ascii’, ‘ignore’))
    return unicode (” .join (my_string.split ()))
    # Eliminar todos los espacios en blanco intermedios no deseados
    # [GitHub] https://github.com/deanmalmgren/textract

  2. Alimentación a funciones gensim para word2vec
    Siga este tutorial de gensim paso a paso para generar el modelo word2vec

En caso de cualquier dificultad en la implementación, no dude en comunicarse conmigo.

Hola.

En primer lugar, debe determinar cuál es su objetivo final? ¿Quieres encontrar similitud entre las palabras? O, ¿quieres encontrar oraciones / documentos? Si es esto último, vaya a Doc2Vec, que es una generalización de Word2Vec. De lo contrario, Word2Vec será lo suficientemente bueno para ti.

Cargue su conjunto de datos, conviértalo en un corpus y pase el corpus en su modelo gensim. Entonces estás listo para irte.

Pocos enlaces que pueden ayudarte:

Doc2Vec tutorial utilizando Gensim – Andreas Klintberg – Medio

Tutorial Doc2vec

RaRe-Technologies / gensim

RaRe-Technologies / gensim

tutorial de gensim doc2vec

Todo lo mejor.

uno puede usar el paquete gensim para entrenar word2vec personalizado en un conjunto dado de documentos. Pero requiere que lo procese previamente.

He escrito una función que (ver subramanyata / myprojects) crea un modelo word2vec a partir de una colección de textos dada.

Actualmente, solo lee archivos de texto, por lo que debe convertir los archivos PDF en archivos de texto antes de usar la función. puedes usar pdfminer para esto.