¿Cuál es la mejor manera de analizar y predecir en base a un conjunto de datos que tiene texto y números?

Primero, debe preguntar exactamente qué desea analizar y predecir. Esto hará una gran diferencia en las técnicas que debe utilizar.

Una vez que eso está fuera del camino, llegamos a la pregunta real. Cuando se trata de texto, a menudo representamos el texto por una serie de características:

  • ¿con qué frecuencia aparecen palabras clave específicas?
  • ¿Cuál es la proporción de palabras vacías a palabras sin parar?
  • excluyendo las palabras de detención, ¿cuál es el vector semántico promedio (por ejemplo, word2vec u otro modelo) del mensaje?
  • ¿En qué medida atribuimos la emoción “feliz” a este mensaje?

Al usar estas otras características relevantes, ahora solo nos quedan características numéricas. Cómo desea utilizarlos y qué modelo debe usar depende totalmente de la tarea y de los supuestos que cree que puede hacer de manera segura.

Cuando se trata de tipos de variables mixtas, hay otras opciones. Podría construir un sistema que combine diferentes componentes para tratar diferentes aspectos de los datos. Nuevamente, esto depende completamente de la tarea real.

¡Buena suerte!

Depende del tipo de análisis, pero esto es lo que examinaría y las líneas en las que trataría de pensar:

Convierte el texto en números. Cree un clasificador para él, o conviértalo en un diccionario numerado (por ejemplo, conejo = 1, gato = 2) o vectorícelo o lo que sea.

Todo tiene que convertirse en números eventualmente. Examine la bolsa de palabras (y técnicas similares de PNL) o la detección de sentimientos o lo que sea … también analice uno de los puntos calientes y piense cómo se podría aplicar a un conjunto de palabras.

Simplemente lea acerca de word2vec para tener un poco de intuición para este tipo de cosas.

Realmente intente profundizar en las técnicas comunes para tener una idea de cómo se podría hacer, luego piense en su problema específico e intente sintetizar una buena manera de hacerlo.

Creo que Udacity tiene un curso de introducción a la PNL de Stanford gratuito o algo que tiene buena información / descripción general sobre este tipo de cosas.

Le recomendaría que construya un árbol de decisión (diagrama de árbol) donde pueda elegir el valor objetivo y los predictores. Como está escrito antes, el primer paso es “convertir el texto en números”. En esta herramienta: AnswerMiner, el árbol de decisión lo hará por usted automáticamente, por lo que no tiene que hacerlo a mano. Además de que puede hacer gráficos y visualizaciones como histogramas de una manera muy fácil.

Espero que ayude.