¿Cuáles son algunas cosas interesantes que la gente ha hecho con Google Refine?

Desduplicar datos lingüísticos.

Incluiré los conjuntos de datos Antes y Después en los comentarios para aquellos que estén interesados ​​en obtener más detalles.

Estoy en medio de un ambicioso proyecto para obtener todas las transcripciones de Lineal B de la lengua griega micénica en un formato digital útil para el análisis de datos. Frecuentemente empiezo a reflexionar sobre la mecánica del lenguaje mientras ingreso datos.

-JA es un símbolo de finalización frecuente en los grupos de signos Lineal B. La pregunta que quería responder era: ¿con qué frecuencia un -JA- incrustado en el medio de un grupo de signos señala una palabra compuesta?

Por ejemplo, KE-I-JA-KA-RA-NA es una palabra compuesta conocida; KA-RA-NA se refiere al griego clásico κρηνη primavera.

Cuando utilicé regexp_matches de PostgreSQL para capturar todos los grupos de signos con un -JA- incrustado en las transcripciones que ingresé, obtuve 96 entradas, muchas de las cuales eran duplicados exactos. Aquí es donde Google Refine puede ser útil.

Desduplicar entradas idénticas

  1. Importar los datos
  2. Columna de datos> Ordenar …> texto
  3. Ordenar> Reordenar filas permanentemente
  4. Columna de datos> Editar celdas …> En blanco
  5. Columna de datos> Faceta> Faceta de texto
  6. Faceta> (en blanco)
  7. Todo> Editar filas> Eliminar todas las filas coincidentes
  8. Faceta> (en blanco)> excluir

¡Sí! Ahora solo tengo 44 grupos de signos para examinar y obtener mi respuesta.

Opcional: Desduplicar las posibles alternancias ortográficas

Mientras hacía lo anterior, encontré otra característica interesante de Google Refine para lingüistas.

  1. Columna de datos> Faceta> Faceta de texto
  2. Faceta> Clúster

Las opciones incluyen:
Método: “vecino más cercano” utilizando el algoritmo de distancia de Levenshtein
Método: “colisión de teclas” con doble metafonía (ver comentarios)

Aquí hay una pareja:

Crear datos abiertos vinculados
http://www.jenitennison.com/blog

Arreglando datos abiertos del gobierno rotos
http: //opencorporates.wordpress… .

Limpieza de un conjunto de datos muy desordenado sobre ataques de tiburones: http://www.sharkattackfile.net/i… .