¿Hay algún conjunto de datos o API que proporcione una lista de palabras poco frecuentes?

1. Los ejemplos que planteó: ‘astrólogo’ y ‘ortodoncista’ no son realmente tan raros. ‘Astrologer’ en la lista de 9K de Paul Nation.

2. El problema con la construcción de su propio FreqDist es la lematización (o, a veces, desearía que las palabras se redujeran y agruparan aún más agresivamente). El mismo problema con Wiktionary: listas de frecuencias o conjuntos similares.

Encuentro las listas de la nación realmente buenas. Tom Cobb también los cura. La frecuencia y la clasificación detallada se han omitido de estas listas. Pero creo que la granularidad rara vez es útil o lógica.

Por ejemplo, esto se basa en las listas de Nation:

3. Recuerdo vagamente que incluso Davies tiene algunos obsequios gratuitos para regalar, es decir, listas más pequeñas o parciales, especialmente si las usa para la investigación.

4. Me sorprendería si NLTK no tuviera esa función. O incluso algunos mejores conjuntos de datos, como datos históricos (como Google N-grams o Wolfram Alpha).

Además de las fuentes mencionadas aquí, los archivos cntlist de WordNet tienen frecuencias semánticamente etiquetadas. Solo ve al final de la lista.

Puede comprar una lista de frecuencias de 100K palabras de Mark Davies en el corpus de COCA en BYU: corpus.byu.edu.

More Interesting

¿Qué puedo hacer con una base de datos de 800 GB de un sitio de reserva de boletos en línea? (Películas, obras de teatro, algunos eventos deportivos)?

¿Cuáles son los criterios principales para la inicialización de los pesos en el aprendizaje profundo? Si quiero diseñar un algoritmo para la inicialización del peso, ¿qué factores debo tener en cuenta?

Según Wikipedia, las redes neuronales artificiales actuales tienen la complejidad del cerebro de un gusano. ¿Es eso cierto?

Construcción del modelo de correlación / regresión: ¿Cuándo debo usar variables dependientes / independientes reales, y cuándo debo usar sus tasas de crecimiento?

En cuanto al aprendizaje automático o el aprendizaje profundo, ¿existe el fenómeno de que el modelo funciona bien pero el diseñador no puede explicar la razón?

¿Qué herramientas, algoritmos o estructuras de datos usaría para construir un algoritmo de "Temas de tendencias" para una transmisión de alta velocidad?

¿Cómo podemos hacer un análisis de opinión para una revisión de película cuando no tenemos un conjunto de datos de capacitación?

¿Qué significa 'clasificación' en la discusión del reconocimiento de patrones?

¿Cuál es la diferencia entre análisis de datos, ciencia de datos, big data y aprendizaje automático?

Cómo hacer clustering de tipos de datos mixtos en Python

¿Una máquina de máquina virtual de big data ayuda a analizar archivos grandes?

¿Cuáles son algunas razones por las que algunas personas prefieren R y Matlab a Python para el aprendizaje automático?

¿En qué se diferencia exactamente la generación del lenguaje natural de la comprensión del lenguaje natural?

¿Qué debe saber todo programador competitivo (Topcoder) sobre los concursos de Kaggle y ML?

¿Cuáles son los mejores métodos de detección de anomalías para imágenes?