La clasificación general de documentos largos es un desafío aún no resuelto. No encontrará ningún tutorial titulado “crear un rastreador inteligente con Deep Learning”.
Los métodos establecidos por otros tienen la oportunidad de trabajar en oraciones o tweets, pero no en páginas enteras vistas.
[despotricar]
Por ejemplo, doc2vec es famoso pero nunca lo encontré útil en la vida real. Los impresionantes resultados del artículo original nunca han sido reproducidos ni siquiera por Mikolov, que es coautor (hubo un reddit al respecto). Captura algunas propiedades del texto, pero es demasiado ruidoso para ser útil.
[/despotricar]
- ¿Qué te hace inteligente?
- ¿Cuáles son las perspectivas laborales después de la Maestría en Ciencias en Computación con especialización en Inteligencia Artificial?
- ¿Cómo usa Quora el aprendizaje automático en 2017?
- ¿Nos hemos equivocado completamente al representar naves espaciales / naves espaciales del futuro con puentes y cabinas de mando frente a una conducción de IA y al gobierno de personas (tal vez)?
- ¿Qué tan probable es que AI tome el trabajo de los programadores? ¿Hay perspectivas de ese tipo en el horizonte?
Pero doc2vec sigue siendo mejor que promediar word2vec en una oración. Si lo hace, al menos considere usar TF-IDF para ponderar los vectores.
Los métodos de aprendizaje profundo que parecen más prometedores es la CNN (redes neuronales convolucionales). Es mucho más eficiente que LSTM y aún extrae características interesantes. Además, son más resistentes a la variación de longitud de entrada.
Pero dependiendo de la cantidad de paginación que desea rastrear, puede estar limitado por la potencia de cálculo requerida para usar una CNN.
Si desea clasificar las páginas web, supongo que extraerá características de alto nivel en su página web, como una lista de palabras clave y las verá en su artículo y capacitará a un clasificador en la bolsa resultante de vectores de palabras.
Realmente habría podido recomendarle un algoritmo de aprendizaje profundo realmente genial para estas tareas, pero no creo que estemos allí todavía.
Dicho esto, depende de la precisión que necesites. Si desea distinguir los artículos de deportes y finanzas, puede probar doc2vec. Si quieres distinguir los artículos de baloncesto y fútbol, no funcionará tan bien.
Si todavía está leyendo, le recomendaré otra forma de extraer características de alto orden de una página web: la compañía para la que estoy trabajando, Proxem, creó un algoritmo que extrae las categorías de Wikipedia relacionadas con un texto dado. Esas categorías son buenas candidatas para entrenar a un clasificador. El algoritmo no es Deep Learning por ahora, tal vez lo sea en el futuro. Ponemos una API en Mashape donde puedes probarla gratis y probar si es lo suficientemente precisa en el dominio al que estás apuntando. Puede probar la API aquí: https://market.mashape.com/proxe…
Nota: necesitará una cuenta completa de Mashape para probarlo, incluso si es freemium.