¿Cómo se analizan los datos codificados?

Si bien encontrar tendencias sorprendentes se siente emocionante, el análisis de datos no se trata principalmente de eso. Confirmar las declaraciones correctas “intuitivamente” con cierto grado de confianza también es tan importante.

  1. Encuesta de historia -> {moral, ver cambio}.

    Dado que solo las historias tienen etiquetas, mientras que la moral y los cambios de vista no, primero presentaría la última.

    Si la cantidad de datos es grande (ejemplos de 5K ++), haría una agrupación conjunta para ver si aparecen algunos cambios morales y de vista.

    Además, ¿hay alguna intersección entre los encuestados y las historias? Si el número promedio de historias por encuestado es significativamente mayor que uno, podría hacer algunas correlaciones y perfiles de usuarios. Si ese promedio es cercano a uno, esta área está fuera.

    Pruebe un poco de PNL para extraer reacciones emocionales del texto.

    Si el número total de respuestas no es grande, mirarlas manualmente y asignar algunas etiquetas no estaría de más. Por ejemplo, puede notar que hay una variedad de moralejas que las personas ven y una variedad de formas en que las personas podrían cambiar. Luego, asignar etiquetas manualmente y encontrar correlaciones es una buena manera de hacerlo.

    La información de entropía / mutua es una función de costo decente cuando se busca este tipo de dependencias internas.

  2. Documentos educativos codificados por entrada, formato y táctica.

    Parece que hay suficientes datos para jugar. Correlaciones cruzadas, entropía: el mismo tipo de cosas.

    La actualidad también podría extraerse de preguntas, palabras clave (TF * IDF y otros enfoques similares). Y esta es una cosa que puede llevar a cabo entre sus tres tareas.

    Las señales basadas en PNL también podrían funcionar, pero probablemente no iría tan lejos, a menos que ya tenga una herramienta que extraiga algo esencial (es decir, táctica “pasiva” frente a “agresiva”).

    Igual que el anterior, si la cantidad de datos no es grande, etiquetar manualmente los formatos y las tácticas en unos paréntesis más grandes podría ayudarlo a ver una imagen de mayor orden.

  3. Periódicos codificados por temas.

    Este es probablemente el problema más estándar de lo anterior.

    Si jugara con esos datos, entrenaría modelos para predecir uno vertical (ej. Nacional vs. internacional) dados los otros. La validación cruzada de estos modelos y encontrar qué etiquetas / temas son mejor predecibles y cuáles no son tan fáciles podría ser una buena idea.

Básicamente, el enfoque que usaría es:

  • Pruebe varias formas de reducir la entropía de los datos.

    Al construir modelos que predicen ciertas cosas sobre los datos.
    Y al usar mi propia visión humana de vez en cuando insertando etiquetas.

  • Vea cuál funcionó mejor en entropía y cuáles no funcionó en absoluto.

    Esto le daría una idea de qué datos son realmente más “valiosos” / “importantes”.

  • Examina los valores atípicos.

    Algunas etiquetas estarían fuera de las listas. En cierto sentido, sus modelos realmente creerían que algún parámetro es A, mientras que el verdadero valor es “no A”.

    Examinar esos casos de cerca podría dar una pista sobre lo que debería recibir atención adicional en el futuro. O, probablemente también, encuentre errores de etiquetado en sus datos, que también es un resultado útil de su investigación.

¡Todo lo mejor!

En términos de minería de texto, puede calcular cosas como el recuento de palabras y la frecuencia de términos. El paquete “tm” en R, por ejemplo, le permite crear fácilmente algo llamado “matriz de frecuencia de documento invertido de frecuencia de término” que básicamente significa cada ” documento “es una observación (fila) y todas las palabras posibles en todos los documentos son columnas. Cada celda de la matriz es un recuento de cada término tal como aparece en cada documento, dividido por cuántos documentos aparece en general (esto reduce la importancia de las palabras ubicuas como “a” y “es”, que aparecen en cada documento) .

Además, puede revisar y etiquetar manualmente una muestra de los documentos para cosas como la moral, los cambios de comportamiento y cualquier otro tipo de datos que le puedan interesar. Cuantos más datos etiquete manualmente, mejor será capaz de predecir un modelo predictivo. el resto de los documentos que no etiquetó.

Una vez que tenga una muestra de capacitación de cualquier corpus de documentos con muchas variables, puede ejecutar cualquier número de modelos predictivos.

Punto por punto desde una perspectiva de aprendizaje automático:

1- Una encuesta donde se pidió a los encuestados que relataran una historia que habían escuchado, la moraleja de esa historia y cómo cambiaron su comportamiento después de escucharla. Las historias fueron codificadas por tema, la moral y los cambios de comportamiento no fueron codificados

Para cualquier tipo de aprendizaje supervisado, deberá definir una variable de resultado (generalmente una variable binaria como “buena / mala” o “vida mejorada / no mejoró la vida”). Por ejemplo, podría ejecutar un análisis CART para comprender cuáles son las variables más destacadas asociadas con una historia que impactaron positivamente en la vida de una persona, o viceversa.

También podría considerar un aprendizaje no supervisado, como cualquier técnica de agrupación. El objetivo aquí es un poco más difícil de delinear; básicamente estaría buscando agrupaciones / patrones inherentes dentro de los datos. También podría usar esta técnica para predecir el resultado de una nueva historia que aún no se había categorizado (por ejemplo, dado este nuevo documento, ¿cuál es la probabilidad de que la historia impacte positivamente la vida de alguien?)

2- Un corpus de documentos educativos de varias compañías, universidades y agencias gubernamentales. Los documentos fueron codificados por tema, formato y táctica educativa

Similar al 1 anterior, sugeriría crear una matriz de frecuencia de documento invertido de frecuencia de término (o tf idf) y recopilar / sintetizar tantas variables como sea posible para al menos una muestra de los documentos.

Una cosa que me gustaría investigar aquí sería la relación entre los tres grupos: ¿son los tres grupos completamente distintos? ¿Las empresas / agencias gubernamentales copian lo que hacen las universidades o viceversa? ¿Dónde está la superposición? Específicamente, ¿cuánto tiempo tardan las agencias gubernamentales en comprender qué hacen las universidades, qué tipos de lecciones / estrategias copian y qué tipos de lecciones / estrategias no se traducen bien?

Tal vez podría identificar los tipos más comunes de estrategias que son copiadas por las agencias gubernamentales (u otra dirección) y luego aplicar esa lógica a hoy para ver qué estrategias educativas deberían considerar adoptar los organismos gubernamentales en este momento en lugar de 3,5,10 años desde ahora.

Una colección de artículos periodísticos de periódicos regionales, nacionales e internacionales, codificados por tema.

Si tiene marcas de tiempo, sería realmente interesante ver qué temas tienen la propensión a extenderse más rápido, a dónde y debido a qué términos clave.

¡Buena suerte!

No sé exactamente qué es lo que busca tu jefe, pero hay varias formas de examinar este corpus de datos.

Parece que se han codificado según algunas categorías muy básicas. Podrías regresar y usar un ojo humano para buscar patrones que vayan más allá de las categorías básicas. Si sabe que hay algún tipo de esquema relevante para su trabajo (servicio al cliente, ventas), puede buscar patrones que puedan relacionarse específicamente con ese tema. La codificación y el análisis cualitativo es un campo enorme y una breve búsqueda en Internet (o una lectura exhaustiva) le dará algunas ideas sobre dónde comenzar.

Otra forma interesante de abordar estos conjuntos de datos sería utilizar el procesamiento del lenguaje natural para ayudarlo a encontrar patrones. El Kit de herramientas de lenguaje natural es una herramienta de software gratuita que podría ser útil al intentar dibujar patrones fuera del texto. Hay una pequeña curva de aprendizaje, pero el NLTK está basado en Python, por lo que si está familiarizado con Python, puede aprenderlo rápidamente. NLTK también se vincula al paquete de estadísticas R si desea herramientas gratuitas que sean muy robustas.

Veo aquí algunas excelentes respuestas sobre el “cómo”, que es lo que preguntaste.
Quiero dar un paso atrás y preguntar “por qué”.
¿Por qué se recopilaron estos datos?
Probablemente sus jefes tenían un propósito en la recopilación de estos datos.
Le sugiero que comience con una pregunta de investigación:
¿Qué ideas, sorprendentes o no, puede obtener su organización de estos datos?
Una pregunta de investigación es una buena guía para su análisis. Por favor mira
Principios de Greg Reda del buen análisis de datos para obtener muchos más detalles.

No es particularmente un experto en big data, pero he trabajado en investigación.

Si no encuentra un patrón, no piense que es un fracaso.

Informe la verdad, si no hay conexión, esa es una mejor respuesta en términos científicos que seguir una interpretación contenciosa y engañosa.

Si no ha encontrado enlaces, entonces muestra que estaba manejando los datos correctamente y no los estaba usando para confirmar sus propios sesgos.

Puede estar por delante de la curva. La mayoría de las personas entran en un proyecto de análisis suponiendo que necesitan encontrar algo. Después de buscar durante dos meses, no encontraste nada. Puede ser hora de seguir adelante. Adivinarse a sí mismo puede ser un error en sí mismo.

Tienes algunas respuestas geniales aquí hasta ahora.

No conozco el campo de la minería de datos. Pero me topé con este sitio que se centra en las estadísticas. Lleno de grandes nerds de datos. Cross Validated Es un sitio de preguntas y respuestas, más como una página en Stack Overflow para programadores que Quora.