Desduplicar datos lingüísticos.
Incluiré los conjuntos de datos Antes y Después en los comentarios para aquellos que estén interesados en obtener más detalles.
Estoy en medio de un ambicioso proyecto para obtener todas las transcripciones de Lineal B de la lengua griega micénica en un formato digital útil para el análisis de datos. Frecuentemente empiezo a reflexionar sobre la mecánica del lenguaje mientras ingreso datos.
- ¿Cómo trato con los datos faltantes cuando ejecuto una regresión logística?
- ¿Cuál es el objetivo principal de la minería de datos con big data?
- ¿Dónde puedo encontrar conjuntos de datos abiertos gratuitos para ganar experiencia como Business Intelligence y Data analyst?
- ¿Cuáles son algunos cursos de análisis de datos?
- ¿Cuál es la forma más efectiva de estructurar un equipo de ciencia de datos?
-JA es un símbolo de finalización frecuente en los grupos de signos Lineal B. La pregunta que quería responder era: ¿con qué frecuencia un -JA- incrustado en el medio de un grupo de signos señala una palabra compuesta?
Por ejemplo, KE-I-JA-KA-RA-NA es una palabra compuesta conocida; KA-RA-NA se refiere al griego clásico κρηνη primavera.
Cuando utilicé regexp_matches de PostgreSQL para capturar todos los grupos de signos con un -JA- incrustado en las transcripciones que ingresé, obtuve 96 entradas, muchas de las cuales eran duplicados exactos. Aquí es donde Google Refine puede ser útil.
Desduplicar entradas idénticas
- Importar los datos
- Columna de datos> Ordenar …> texto
- Ordenar> Reordenar filas permanentemente
- Columna de datos> Editar celdas …> En blanco
- Columna de datos> Faceta> Faceta de texto
- Faceta> (en blanco)
- Todo> Editar filas> Eliminar todas las filas coincidentes
- Faceta> (en blanco)> excluir
¡Sí! Ahora solo tengo 44 grupos de signos para examinar y obtener mi respuesta.
Opcional: Desduplicar las posibles alternancias ortográficas
Mientras hacía lo anterior, encontré otra característica interesante de Google Refine para lingüistas.
- Columna de datos> Faceta> Faceta de texto
- Faceta> Clúster
Las opciones incluyen:
Método: “vecino más cercano” utilizando el algoritmo de distancia de Levenshtein
Método: “colisión de teclas” con doble metafonía (ver comentarios)