¿Dónde puedo encontrar conjuntos de datos para aprender autocorrección o corrección ortográfica?

Para los datos de corrección ortográfica en inglés, puede beneficiarse de investigar el corpus de errores ortográficos Birkbeck de Roger Mitton, disponible en el Oxford Text Archive. Mitton recopiló y produjo este trabajo mientras estaba en el Birkbeck College de la Universidad de Londres, por lo que no es sorprendente que las convenciones de ortografía británicas sean patentes en los datos.

Este corpus digital organiza las faltas de ortografía de las palabras de acuerdo a si fueron producidas por usuarios nativos o no nativos. Los datos se presentan en pares donde el primer elemento es la forma correcta de escribir la palabra en inglés y el segundo elemento es un error ortográfico observado. Para obtener más información, consulte el artículo de Mitton de 1987 “Correctores ortográficos, correctores ortográficos y errores ortográficos de los correctores ortográficos pobres”, Procesamiento y gestión de la información ( 23: 5) págs. 495-505.

Aprendizaje automáticoConjuntos de datosLingüística ComputacionalProcesamiento del lenguaje natural

Related Content

¿Cómo puedo interpretar las predicciones en un modelo de aprendizaje automático de salud (bosque aleatorio) para infarto agudo de miocardio?

¿Qué intentos hay para crear redes neuronales más similares al cerebro biológico?

¿Debo ir al análisis de datos o al aprendizaje automático?

¿Cuál es el punto de usar el problema dual cuando se ajusta SVM?

Análisis de conglomerados: ¿Cuáles son algunas posibles medidas de distancias / diferencias para variables binarias?

Cómo dominar el aprendizaje automático en Python

¿Cuáles son algunos de los mejores algoritmos de IA para juegos de 2 jugadores como Ultimate Tic Tac Toe?

Consulta estos recursos:

Yahoo! Conjunto de datos N-Grams

WikiEdit Corpus

Conjunto de datos de error ortográfico de Birkbeck

Corpora de faltas de ortografía para descargar

Conjuntos de datos RWSE: UKP

Webscope | Yahoo Labs

http://norvig.com/spell-correct… .

http://www.site.uottawa.ca/~dian …

https://arxiv.org/pdf/1204.0184.pdf

Mona Jalal

pip install autocorrect hace un trabajo razonable para python.

No es un trabajo perfecto.

Gracias.

Mona Jalal

More Interesting

¿Qué tan difícil es aprender TensorFlow?

¿Qué es la ganancia de información en el aprendizaje automático?

Supongamos que reuní a todos los usuarios de Twitter que escribieron tweets con las palabras "aprendizaje automático" en ellos (durante el último mes, por ejemplo), y luego construí un gráfico de red basado en sus seguidores. Además de las diversas medidas de centralidad, ¿qué otras técnicas podría utilizar para identificar a las mejores personas a seguir? ¿Cómo lo hace Klout?

¿Qué otras arquitecturas de redes neuronales se han utilizado para reducir las facturas de energía del centro de datos aparte del método de DeepMind?

¿Cuáles son algunas áreas de investigación en la intersección del aprendizaje automático y las criptomonedas?

¿Por qué el embolsado es más preciso que solo mirar todo el conjunto de datos y tomar el promedio?

¿Cómo se introdujo por primera vez en Machine Learning / Data Science?

¿Por qué Microsoft decidió usar bosques aleatorios en el Kinect?

¿Cuáles son algunos ejemplos reales de modelos estadísticos que son pobres en la predicción pero útiles para la inferencia?

¿Puede un ML / AI aprender a pasar captchas?

¿Por qué los investigadores de sistemas informáticos no creen en la IA o la aplican a problemas en los 'sistemas informáticos'?

¿Qué es una explicación intuitiva de los coeficientes de regresión logística?

Cómo implementar un algoritmo de fijación de precios dinámico en Hadoop

¿Cuáles son las restricciones de ordenamiento de la base herbrand en el aprendizaje metainterpretativo?

¿Podemos combinar HOG y PCA en la clasificación de imágenes?

Web Analytics