Si bien encontrar tendencias sorprendentes se siente emocionante, el análisis de datos no se trata principalmente de eso. Confirmar las declaraciones correctas “intuitivamente” con cierto grado de confianza también es tan importante.
- Encuesta de historia -> {moral, ver cambio}.
Dado que solo las historias tienen etiquetas, mientras que la moral y los cambios de vista no, primero presentaría la última.
Si la cantidad de datos es grande (ejemplos de 5K ++), haría una agrupación conjunta para ver si aparecen algunos cambios morales y de vista.
- ¿Cuál es una mejor herramienta para aprender para análisis visual-Tableau o SAS? Teniendo en cuenta la facilidad, la complejidad y las perspectivas laborales.
- ¿Cuáles son las tecnologías actuales utilizadas en el análisis de datos?
- ¿Qué libro de ciencia de datos / blog-artículo / texto debería leer cada profesional de ciencia de datos para tener una mejor comprensión del tema?
- ¿De dónde obtiene sus datos el pitchbook?
- ¿Tendré oportunidades de trabajo después de hacer un curso de ciencia de datos de Simplilearn?
Además, ¿hay alguna intersección entre los encuestados y las historias? Si el número promedio de historias por encuestado es significativamente mayor que uno, podría hacer algunas correlaciones y perfiles de usuarios. Si ese promedio es cercano a uno, esta área está fuera.
Pruebe un poco de PNL para extraer reacciones emocionales del texto.
Si el número total de respuestas no es grande, mirarlas manualmente y asignar algunas etiquetas no estaría de más. Por ejemplo, puede notar que hay una variedad de moralejas que las personas ven y una variedad de formas en que las personas podrían cambiar. Luego, asignar etiquetas manualmente y encontrar correlaciones es una buena manera de hacerlo.
La información de entropía / mutua es una función de costo decente cuando se busca este tipo de dependencias internas.
- Documentos educativos codificados por entrada, formato y táctica.
Parece que hay suficientes datos para jugar. Correlaciones cruzadas, entropía: el mismo tipo de cosas.
La actualidad también podría extraerse de preguntas, palabras clave (TF * IDF y otros enfoques similares). Y esta es una cosa que puede llevar a cabo entre sus tres tareas.
Las señales basadas en PNL también podrían funcionar, pero probablemente no iría tan lejos, a menos que ya tenga una herramienta que extraiga algo esencial (es decir, táctica “pasiva” frente a “agresiva”).
Igual que el anterior, si la cantidad de datos no es grande, etiquetar manualmente los formatos y las tácticas en unos paréntesis más grandes podría ayudarlo a ver una imagen de mayor orden.
- Periódicos codificados por temas.
Este es probablemente el problema más estándar de lo anterior.
Si jugara con esos datos, entrenaría modelos para predecir uno vertical (ej. Nacional vs. internacional) dados los otros. La validación cruzada de estos modelos y encontrar qué etiquetas / temas son mejor predecibles y cuáles no son tan fáciles podría ser una buena idea.
Básicamente, el enfoque que usaría es:
- Pruebe varias formas de reducir la entropía de los datos.
Al construir modelos que predicen ciertas cosas sobre los datos.
Y al usar mi propia visión humana de vez en cuando insertando etiquetas. - Vea cuál funcionó mejor en entropía y cuáles no funcionó en absoluto.
Esto le daría una idea de qué datos son realmente más “valiosos” / “importantes”.
- Examina los valores atípicos.
Algunas etiquetas estarían fuera de las listas. En cierto sentido, sus modelos realmente creerían que algún parámetro es A, mientras que el verdadero valor es “no A”.
Examinar esos casos de cerca podría dar una pista sobre lo que debería recibir atención adicional en el futuro. O, probablemente también, encuentre errores de etiquetado en sus datos, que también es un resultado útil de su investigación.
¡Todo lo mejor!