¿Dónde puedo encontrar conjuntos de datos para aprender autocorrección o corrección ortográfica?

Para los datos de corrección ortográfica en inglés, puede beneficiarse de investigar el corpus de errores ortográficos Birkbeck de Roger Mitton, disponible en el Oxford Text Archive. Mitton recopiló y produjo este trabajo mientras estaba en el Birkbeck College de la Universidad de Londres, por lo que no es sorprendente que las convenciones de ortografía británicas sean patentes en los datos.

Este corpus digital organiza las faltas de ortografía de las palabras de acuerdo a si fueron producidas por usuarios nativos o no nativos. Los datos se presentan en pares donde el primer elemento es la forma correcta de escribir la palabra en inglés y el segundo elemento es un error ortográfico observado. Para obtener más información, consulte el artículo de Mitton de 1987 “Correctores ortográficos, correctores ortográficos y errores ortográficos de los correctores ortográficos pobres”, Procesamiento y gestión de la información ( 23: 5) págs. 495-505.

Consulta estos recursos:

Yahoo! Conjunto de datos N-Grams

WikiEdit Corpus

Conjunto de datos de error ortográfico de Birkbeck

Corpora de faltas de ortografía para descargar

Conjuntos de datos RWSE: UKP

Webscope | Yahoo Labs

http://norvig.com/spell-correct… .

http://www.site.uottawa.ca/~dian

https://arxiv.org/pdf/1204.0184.pdf

pip install autocorrect hace un trabajo razonable para python.

No es un trabajo perfecto.

Gracias.

More Interesting

¿Qué tan difícil es aprender TensorFlow?

¿Qué es la ganancia de información en el aprendizaje automático?

Supongamos que reuní a todos los usuarios de Twitter que escribieron tweets con las palabras "aprendizaje automático" en ellos (durante el último mes, por ejemplo), y luego construí un gráfico de red basado en sus seguidores. Además de las diversas medidas de centralidad, ¿qué otras técnicas podría utilizar para identificar a las mejores personas a seguir? ¿Cómo lo hace Klout?

¿Qué otras arquitecturas de redes neuronales se han utilizado para reducir las facturas de energía del centro de datos aparte del método de DeepMind?

¿Cuáles son algunas áreas de investigación en la intersección del aprendizaje automático y las criptomonedas?

¿Por qué el embolsado es más preciso que solo mirar todo el conjunto de datos y tomar el promedio?

¿Cómo se introdujo por primera vez en Machine Learning / Data Science?

¿Por qué Microsoft decidió usar bosques aleatorios en el Kinect?

¿Cuáles son algunos ejemplos reales de modelos estadísticos que son pobres en la predicción pero útiles para la inferencia?

¿Puede un ML / AI aprender a pasar captchas?

¿Por qué los investigadores de sistemas informáticos no creen en la IA o la aplican a problemas en los 'sistemas informáticos'?

¿Qué es una explicación intuitiva de los coeficientes de regresión logística?

Cómo implementar un algoritmo de fijación de precios dinámico en Hadoop

¿Cuáles son las restricciones de ordenamiento de la base herbrand en el aprendizaje metainterpretativo?

¿Podemos combinar HOG y PCA en la clasificación de imágenes?