Si lo que quiere decir con ‘contenido’ es solo texto, entonces debería leer más sobre el procesamiento de texto y nlp.
En primer lugar, debe establecer el límite de su programa para usted mismo, para saber por dónde comenzar, si es así, estará trabajando en la ‘clasificación’, entonces creo que debe definir un número limitado de clases (o etiquetas), sin embargo, Si su alcance es mayor que eso, puede optar por el algoritmo de agrupamiento, si no está seguro de qué etiquetas estarán allí.
Por simplicidad, en ambos sentidos, necesitaría
- ¿El SEO del sitio web se realiza por geografía?
- ¿Qué es un sitio web fácil de usar?
- ¿Cuánto dinero (máximo) se necesitaría para construir un sitio web genial en India?
- ¿Cuáles son algunos sitios web genuinos para versiones gratuitas completas de apks (aplicaciones móviles de Android)?
- ¿Hay alguna manera de insertar historias de Instagram en un sitio web?
- encuentre un algoritmo de clasificación / agrupación que se adapte a la forma en que desea que sea su salida: Esto puede decidir leyendo primero sobre la agrupación y clasificación, seleccionando cuál es el mejor para usted, luego leyendo más sobre sus algoritmos y elija el que tenga más atributos deseables para ti.
- Sepa que su programa necesita preprocesamiento, capacitación y pruebas: comprenda los conceptos de cada uno, cada preprocesamiento es diferente para cada programa, para algunos, puede poner más énfasis en la fase de eliminación de palabras de detención, para otros, su énfasis está en seleccionar sus características ,
- Sepa si ha guardado sus datos en una forma que su algoritmo puede tomar como entrada, o ponga sus datos en la forma más fácil de leer.
Para su pregunta de entrada y salida, su entrada debe llamarse ‘corpus’ o ‘conjunto de datos’ y, curiosamente, la palabra ‘datos seleccionados’ estará lista después de la fase de preprocesamiento.
Para su producción, podrá alcanzar dicho resultado (después de entrenar su algoritmo en el corpus que ha encontrado 1. en línea, o 2. recogido usted mismo), cuando haya terminado con el entrenamiento, probará su programa, lo que significa que ingresará un contenido, preguntando a su programa de qué tipo es este sitio web.
Creo que hay mucho más que saber si solo leerías y leerías antes de comenzar.