Los kits de herramientas de modelado de idiomas son útiles para rectificar texto mal formateado. el modelado de lenguaje utiliza el enfoque de n-gramas. Algunas de las herramientas de modelado de idiomas populares son
- http://www.speech.cs.cmu.edu/SLM…
- http://www-speech.sri.com/projec…
- http://alias-i.com/lingpipe/demo…
El segundo enfoque es la distancia de edición, Secondstring (http: //secondstring.sourceforge….) es uno de los juegos de herramientas más populares para editar la distancia.
Lucene / solr también admite el corrector ortográfico utilizando la distancia de edición y el índice de caracteres n-gram para el corrector ortográfico. En la indexación de caracteres de N-gram, cada palabra se divide en caracteres de n-gram, por ejemplo, en tri-gramos ‘lucene’ se divide como ‘luc’, ‘uce’. ‘Cen’, ‘ene’ y estos trigramas se usan para auto sugiriendo las palabras similares. Para obtener más información relacionada con la sugerencia automática basada en el índice n-gram, consulte los enlaces http://wiki.apache.org/jakarta-l… y http://www.lucidimagination.com/…
- Debido a que este será el tema de un panel en el Instituto de Verano NBER, ¿qué puede aprender la economía de Data Science y / o Machine Learning, y qué puntos sobre este tema le gustaría ver incluidos?
- ¿Sería posible entrenar una computadora para reconocer con precisión a escritores individuales en Quora analizando muestras escritas?
- ¿Cómo toman decisiones las neuronas del cerebro? ¿Funcionan de la misma manera que las neuronas artificiales en ANN?
- ¿Qué motor de recomendación / personalización estándar ofrece recomendaciones utilizando tanto el aprendizaje automático como la entrada manual?
- ¿Dónde puedo aprender a hacer predicciones básicas con RapidMiner?