Quiero enseñar un programa para reconocer sitios web en función de su contenido, ¿por dónde debo comenzar?

Si lo que quiere decir con ‘contenido’ es solo texto, entonces debería leer más sobre el procesamiento de texto y nlp.

En primer lugar, debe establecer el límite de su programa para usted mismo, para saber por dónde comenzar, si es así, estará trabajando en la ‘clasificación’, entonces creo que debe definir un número limitado de clases (o etiquetas), sin embargo, Si su alcance es mayor que eso, puede optar por el algoritmo de agrupamiento, si no está seguro de qué etiquetas estarán allí.

Por simplicidad, en ambos sentidos, necesitaría

  1. encuentre un algoritmo de clasificación / agrupación que se adapte a la forma en que desea que sea su salida: Esto puede decidir leyendo primero sobre la agrupación y clasificación, seleccionando cuál es el mejor para usted, luego leyendo más sobre sus algoritmos y elija el que tenga más atributos deseables para ti.
  2. Sepa que su programa necesita preprocesamiento, capacitación y pruebas: comprenda los conceptos de cada uno, cada preprocesamiento es diferente para cada programa, para algunos, puede poner más énfasis en la fase de eliminación de palabras de detención, para otros, su énfasis está en seleccionar sus características ,
  3. Sepa si ha guardado sus datos en una forma que su algoritmo puede tomar como entrada, o ponga sus datos en la forma más fácil de leer.

Para su pregunta de entrada y salida, su entrada debe llamarse ‘corpus’ o ‘conjunto de datos’ y, curiosamente, la palabra ‘datos seleccionados’ estará lista después de la fase de preprocesamiento.

Para su producción, podrá alcanzar dicho resultado (después de entrenar su algoritmo en el corpus que ha encontrado 1. en línea, o 2. recogido usted mismo), cuando haya terminado con el entrenamiento, probará su programa, lo que significa que ingresará un contenido, preguntando a su programa de qué tipo es este sitio web.

Creo que hay mucho más que saber si solo leerías y leerías antes de comenzar.

Para empezar, puede comenzar obteniendo todas las imágenes de un sitio web y construir un modelo de red neuronal. Más tarde, puede realizar el procesamiento de texto a palabras clave extraxt de un sitio web y crear un clasificador. Deberá investigar sobre varios clasificadores y aproximaciones seguidas.