¿Cuáles son las unidades utilizadas para representar una palabra como vector?

Si quiere decir una palabra como en una cadena de texto, normalmente usaría el tipo de datos de caracteres (char o wchar en c ++, char en Java y c #, etc.). Puede contener una sola letra. En realidad, no necesita usar el tipo de vector en la mayoría de los idiomas, ya que admiten un tipo de cadena nativa. Vienen en dos tipos:

  • mutable , como en std::string en c ++ (puede alterar una instancia de cadena sin cambiar ninguna referencia).
  • inmutable : java.lang.String , System.string en c #, str en python, etc. No puede cambiar una instancia de cadena, pero puede crear una nueva instancia basada en la anterior y cualquier alteración. Debe reemplazar las referencias antiguas a la cadena original si desea actualizarla. Si realmente necesita una secuencia mutable de caracteres, use una matriz de caracteres ( char[] ) en Java y c # o una list en python.

Otra opción es mantener las partes completas (por ejemplo, sílabas) de la palabra en una sola unidad. En este caso, necesitaría usar un vector de cadenas. En c ++ sería std::vector . En Java, creo que sería Vector y algo similar en c #. En python, solo usa una list .

Una forma implica la similitud de coseno – Wikipedia. Esta medida se usa a menudo en la recuperación de información: sistemas de Wikipedia, donde hay interés en comprender cuánto una información (es: una oración) es “similar” a otra.

En sí mismo, la similitud del coseno es una medida “geométrica” ​​con respecto a los vectores, por lo que un punto clave en dicho sistema es cómo se puede asignar una información a un vector (el aspecto sobre el que está preguntando).

Cuando uso una oración, una forma en que la he visto involucra una técnica llamada Modelo de bolsa de palabras – Wikipedia: se analiza un corpus (por ejemplo: muchos textos en inglés), y cada [1] palabra se convierte en una dimensión en Un espacio N-dimensional. Por lo tanto, una oración como “Tuve que ir a la tienda” se convirtió en un vector como […, 0, 1, 2, 1, …] donde cada número es cuántas veces aparece una palabra (la posición dentro del vector es importante , cada vector debe tener la información sobre la misma palabra en la misma posición).

El ejemplo dado se centró en las oraciones, si desea aplicar este método a palabras individuales, puede usar como dimensiones las letras en inglés o Trigram – Wikipedia.

Obviamente, esta no es la forma más óptima para hacer lo que está pidiendo, especialmente si la información es tan “estricta” como las palabras, pero puede ser un punto de partida.

Espero que esto ayude.

[1]: hay muchas técnicas para reducir la cantidad de información, un ejemplo: tf – idf – Wikipedia, normalizar palabras, …