En cualquier proceso de minería, tratamos de determinar aquellos nodos (palabras en el corpus, vértices en el gráfico) que simplemente están presentes debido a alguna coincidencia (referencia a alguna actividad en el pasado) pero que no influyen en el texto actual, tienen muy poca frecuencia en el corpus o gráfico. Si procesamos el análisis con respecto a los sentimientos promedio, la polaridad promedio o la entropía del texto, esas palabras menos frecuentes afectan los resultados, ya que son valores atípicos para el texto en foco. Podemos pensar en esto como la presencia de valores atípicos en la muestra que afectan el valor medio de la muestra, como
1,1,1,1,1,2,2,3,3,3,3,3,3,3,4,4,4,4,4,4,5,5,5,5,6, 6,6,6,6,7,7,7,7,7,8,8,9,9,15,19
si toma la media, su media incluirá 15, 19 que son valores atípicos, mientras que la mediana no incluye valores atípicos. Dado que la entropía, el promedio, TF-IDF son todas medidas similares a la media, debemos eliminar el término disperso de la matriz de términos del documento.
- ¿Cómo puede alguien usar los datos de la secuencia de genes para encontrar genes responsables de una enfermedad genética en particular?
- ¿Cómo se recupera la información de las cajas negras?
- ¿Cuánto costaría desarrollar la capacidad de reconocimiento de escritura a mano?
- ¿Cuál es la diferencia entre D3M y el aprendizaje profundo?
- ¿Qué te emociona del futuro del aprendizaje automático?