¿Cuáles son las unidades utilizadas para representar una palabra como vector?

Si quiere decir una palabra como en una cadena de texto, normalmente usaría el tipo de datos de caracteres (char o wchar en c ++, char en Java y c #, etc.). Puede contener una sola letra. En realidad, no necesita usar el tipo de vector en la mayoría de los idiomas, ya que admiten un tipo de cadena nativa. Vienen en dos tipos:

mutable , como en std::string en c ++ (puede alterar una instancia de cadena sin cambiar ninguna referencia).
inmutable : java.lang.String , System.string en c #, str en python, etc. No puede cambiar una instancia de cadena, pero puede crear una nueva instancia basada en la anterior y cualquier alteración. Debe reemplazar las referencias antiguas a la cadena original si desea actualizarla. Si realmente necesita una secuencia mutable de caracteres, use una matriz de caracteres ( char[] ) en Java y c # o una list en python.

Otra opción es mantener las partes completas (por ejemplo, sílabas) de la palabra en una sola unidad. En este caso, necesitaría usar un vector de cadenas. En c ++ sería std::vector . En Java, creo que sería Vector y algo similar en c #. En python, solo usa una list .

Algoritmosinformática

Clasificación (aprendizaje automático): ¿Cuándo debo usar un clasificador K-NN sobre un clasificador Naive Bayes?

¿Cuáles son las diferencias entre las computadoras de servidor, las computadoras domésticas y los teléfonos inteligentes?

En la teoría de la simulación, si notamos una falla, ¿no sugeriría que existimos también fuera de la simulación?

¿Cómo le explicarías la cadena de bloques a tu abuela?

¿Cómo puedo mantener mi computadora lejos de los ataques de virus de ciberextorsión?

¿Podríamos todos obtener una WLAN gratuita a través de enchufes eléctricos?

Una forma implica la similitud de coseno – Wikipedia. Esta medida se usa a menudo en la recuperación de información: sistemas de Wikipedia, donde hay interés en comprender cuánto una información (es: una oración) es “similar” a otra.

En sí mismo, la similitud del coseno es una medida “geométrica” con respecto a los vectores, por lo que un punto clave en dicho sistema es cómo se puede asignar una información a un vector (el aspecto sobre el que está preguntando).

Cuando uso una oración, una forma en que la he visto involucra una técnica llamada Modelo de bolsa de palabras – Wikipedia: se analiza un corpus (por ejemplo: muchos textos en inglés), y cada [1] palabra se convierte en una dimensión en Un espacio N-dimensional. Por lo tanto, una oración como “Tuve que ir a la tienda” se convirtió en un vector como […, 0, 1, 2, 1, …] donde cada número es cuántas veces aparece una palabra (la posición dentro del vector es importante , cada vector debe tener la información sobre la misma palabra en la misma posición).

El ejemplo dado se centró en las oraciones, si desea aplicar este método a palabras individuales, puede usar como dimensiones las letras en inglés o Trigram – Wikipedia.

Obviamente, esta no es la forma más óptima para hacer lo que está pidiendo, especialmente si la información es tan “estricta” como las palabras, pero puede ser un punto de partida.

Espero que esto ayude.

[1]: hay muchas técnicas para reducir la cantidad de información, un ejemplo: tf – idf – Wikipedia, normalizar palabras, …

Jonathan Rosca

More Interesting

¿Qué hace Stratoscale?

¿Es posible sincronizar datos en un clúster informático con la nube?

Desde la perspectiva de la interacción hombre-computadora, ¿qué sentimientos / emociones debe evocar un sitio web para atraer a un usuario?

¿Cuáles son algunos ejemplos de redes neuronales en Python?

¿Cómo funciona una aplicación de traducción de idiomas?

¿El problema NP es fácil de resolver?

¿Cómo se puede hacer un chip secuencial solo con chips combinacionales?

Fuera de las buenas calificaciones, ¿cuál es el aspecto más importante cuando se aplica a USC Viterbi para un curso de CS, como una transferencia de universidad comunitaria?