¿Hay algún conjunto de datos o API que proporcione una lista de palabras poco frecuentes?

1. Los ejemplos que planteó: ‘astrólogo’ y ‘ortodoncista’ no son realmente tan raros. ‘Astrologer’ en la lista de 9K de Paul Nation.

2. El problema con la construcción de su propio FreqDist es la lematización (o, a veces, desearía que las palabras se redujeran y agruparan aún más agresivamente). El mismo problema con Wiktionary: listas de frecuencias o conjuntos similares.

Encuentro las listas de la nación realmente buenas. Tom Cobb también los cura. La frecuencia y la clasificación detallada se han omitido de estas listas. Pero creo que la granularidad rara vez es útil o lógica.

Por ejemplo, esto se basa en las listas de Nation:

3. Recuerdo vagamente que incluso Davies tiene algunos obsequios gratuitos para regalar, es decir, listas más pequeñas o parciales, especialmente si las usa para la investigación.

4. Me sorprendería si NLTK no tuviera esa función. O incluso algunos mejores conjuntos de datos, como datos históricos (como Google N-grams o Wolfram Alpha).

¿Cuáles son algunos proyectos de investigación interesantes relacionados con el aprendizaje automático?

¿Podemos usar un algoritmo no supervisado para realizar análisis de sentimientos?

Como proyecto de graduación, elegimos hacerlo en el análisis de sentimientos de Twitter, tenemos algunos conceptos básicos de ML obtenidos de los MOOC, ¿a dónde deberíamos ir después?

¿Podría el aprendizaje automático haber evitado la crisis financiera?

¿Cómo es tomar CS 229 (Machine Learning) en Stanford?

¿Cuáles son los buenos algoritmos para la extracción de características para grandes conjuntos de datos?

http://guidetodatamining.com/ngr …

Vadim Berman

Además de las fuentes mencionadas aquí, los archivos cntlist de WordNet tienen frecuencias semánticamente etiquetadas. Solo ve al final de la lista.

Vadim Berman

Puede comprar una lista de frecuencias de 100K palabras de Mark Davies en el corpus de COCA en BYU: corpus.byu.edu.

Dhwaj Raj

More Interesting

¿Qué puedo hacer con una base de datos de 800 GB de un sitio de reserva de boletos en línea? (Películas, obras de teatro, algunos eventos deportivos)?

¿Cuáles son los criterios principales para la inicialización de los pesos en el aprendizaje profundo? Si quiero diseñar un algoritmo para la inicialización del peso, ¿qué factores debo tener en cuenta?

Según Wikipedia, las redes neuronales artificiales actuales tienen la complejidad del cerebro de un gusano. ¿Es eso cierto?

Construcción del modelo de correlación / regresión: ¿Cuándo debo usar variables dependientes / independientes reales, y cuándo debo usar sus tasas de crecimiento?

En cuanto al aprendizaje automático o el aprendizaje profundo, ¿existe el fenómeno de que el modelo funciona bien pero el diseñador no puede explicar la razón?

¿Qué herramientas, algoritmos o estructuras de datos usaría para construir un algoritmo de "Temas de tendencias" para una transmisión de alta velocidad?

¿Cómo podemos hacer un análisis de opinión para una revisión de película cuando no tenemos un conjunto de datos de capacitación?

¿Qué significa 'clasificación' en la discusión del reconocimiento de patrones?