¿Cuáles son algunas cosas interesantes que la gente ha hecho con Google Refine?

Desduplicar datos lingüísticos.

Incluiré los conjuntos de datos Antes y Después en los comentarios para aquellos que estén interesados en obtener más detalles.

Estoy en medio de un ambicioso proyecto para obtener todas las transcripciones de Lineal B de la lengua griega micénica en un formato digital útil para el análisis de datos. Frecuentemente empiezo a reflexionar sobre la mecánica del lenguaje mientras ingreso datos.

-JA es un símbolo de finalización frecuente en los grupos de signos Lineal B. La pregunta que quería responder era: ¿con qué frecuencia un -JA- incrustado en el medio de un grupo de signos señala una palabra compuesta?

Por ejemplo, KE-I-JA-KA-RA-NA es una palabra compuesta conocida; KA-RA-NA se refiere al griego clásico κρηνη primavera.

Cuando utilicé regexp_matches de PostgreSQL para capturar todos los grupos de signos con un -JA- incrustado en las transcripciones que ingresé, obtuve 96 entradas, muchas de las cuales eran duplicados exactos. Aquí es donde Google Refine puede ser útil.

Desduplicar entradas idénticas

Importar los datos
Columna de datos> Ordenar …> texto
Ordenar> Reordenar filas permanentemente
Columna de datos> Editar celdas …> En blanco
Columna de datos> Faceta> Faceta de texto
Faceta> (en blanco)
Todo> Editar filas> Eliminar todas las filas coincidentes
Faceta> (en blanco)> excluir

¡Sí! Ahora solo tengo 44 grupos de signos para examinar y obtener mi respuesta.

Opcional: Desduplicar las posibles alternancias ortográficas

Mientras hacía lo anterior, encontré otra característica interesante de Google Refine para lingüistas.

Columna de datos> Faceta> Faceta de texto
Faceta> Clúster

Las opciones incluyen:
Método: “vecino más cercano” utilizando el algoritmo de distancia de Levenshtein
Método: “colisión de teclas” con doble metafonía (ver comentarios)

¿Cuál es el rol del controlador de datos en GDPR?

Me gustaría escribir / usar un algoritmo de aprendizaje automático para predecir valores de contaminación del aire basados en datos meteorológicos. Tengo algunas habilidades de programación y sé qué datos me gustaría usar, pero no tengo experiencia con el aprendizaje automático. ¿Dónde empiezo?

¿Cuáles son algunas de las nuevas empresas de Big Data en Mumbai?

¿Cómo realizan las empresas el análisis predictivo utilizando herramientas Hadoop / Big Data a gran escala?

¿Se puede confiar en los datos autoinformados?

¿Necesito un nuevo enrutador para IPv6?

Aquí hay una pareja:

Crear datos abiertos vinculados
http://www.jenitennison.com/blog …

Arreglando datos abiertos del gobierno rotos
http: //opencorporates.wordpress… .

Shawn Simister

Limpieza de un conjunto de datos muy desordenado sobre ataques de tiburones: http://www.sharkattackfile.net/i… .

Emile Silvis