¿Qué métricas debo usar en mi investigación de preprocesamiento de datos (no estructurada)?

Puede hacer sus evaluaciones de dos maneras: intrínseca o extrínsecamente

Evaluación intrínseca: en este tipo de evaluación, debe comparar los datos preprocesados ​​con los datos sin procesar. ¿Como hacer eso? Depende de tus datos. Si los datos son lenguajes naturales, ¡puedes calcular la cantidad de ruido de alguna manera! La perplejidad puede ser una medida de evaluación que está buscando.

Evaluación extrínseca: en este tipo de evaluación, debe usar sus datos en posibles aplicaciones (generalmente conocidas e importantes) y ver si usar sus datos preprocesados ​​puede mejorar el rendimiento de esas aplicaciones en comparación con los resultados obtenidos por la misma aplicación pero con datos en bruto. La métrica de evaluación aquí depende completamente de la aplicación con la que está evaluando sus datos. Por ejemplo, si está utilizando sus datos para entrenar a un SMT, es posible que necesite usar BLEU / WER / TER y si está utilizando sus datos para la recuperación de documentos, es posible que deba evaluar los resultados a través de MAP / [correo electrónico protegido] / NDCG .

Para concluir, no proporcionó ningún detalle en su pregunta y, por lo tanto, yo (y otros) no puedo proporcionar ninguna respuesta directa. Buscar sobre los puntos mencionados anteriormente podría ayudar.

¿Con qué tipo de datos estás trabajando? ¿Qué tipo de análisis estás haciendo? ¿Qué tipo de preprocesamiento estás haciendo?

Las métricas que necesita dependerán de estas respuestas, es decir, si está haciendo un análisis de opinión sobre discursos políticos, las métricas serán bastante diferentes de las que necesita para el reconocimiento facial.

More Interesting

¿El uso de memoria aumenta a medida que aumentan los datos de entrenamiento en redes neuronales profundas?

¿Cómo es posible optimizar un sistema donde el entorno se modela a través de métodos de aprendizaje automático?

¿Cuáles son los poderes de clasificación sobre la agrupación? ¿Por qué elegiría una clasificación?

¿Por qué utilizamos el agrupamiento en el análisis estadístico? ¿Puedes dar una explicación intuitiva o ejemplos intuitivos?

¿Cuál es la definición de 'conjunto de desarrollo' en el aprendizaje automático?

¿Hay alguna manera de extraer la función subyacente de una red neuronal entrenada?

¿Cómo puede alguien usar el verano para hacer un gran progreso en su conocimiento en los campos de redes neuronales artificiales y aprendizaje profundo?

¿Por qué necesitamos RandomForestClassifier cuando DecisionTreeClassifier selecciona la mejor característica en cada división?

¿Cuáles son algunos buenos documentos sobre la extracción de sinónimos de los registros de consultas?

¿Cómo se calculan las curvas de recuperación de precisión?

¿Cómo funciona el muestreo negativo en los modelos de Word2vec?

¿Puedes recomendar un gran conjunto de videos de YouTube sobre aprendizaje automático y redes neuronales dirigidas a principiantes?

¿Cuál es una buena manera de convertir métrica discreta en métrica circular?

Un perceptrón multicapa tiene parámetros como el tamaño de un lote, épocas, neuronas, velocidad de aprendizaje, etc. ¿Cuáles son algunas experiencias prácticas de sintonización?

Cómo usar el procesamiento del lenguaje natural (PNL) para resumir un documento en una serie de ideas principales