¿Cómo asociaría un producto con una categoría y subcategoría basada en la descripción de texto del producto?

Para mí, esto parece más un problema de aprendizaje automático que la clasificación. La primera pregunta es si tiene o está dispuesto a preparar algunos datos etiquetados, es decir, ejemplos específicos de descripciones de productos junto con las categorías y subcategorías de productos correctas correspondientes.

Es posible que ya tenga estos datos disponibles o que pueda prepararlos usted mismo a mano o con turk mecánico.

Una vez que haya etiquetado los datos, puede desarrollar un clasificador para clasificar las descripciones de los productos en categorías / subcategorías de productos. Los pasos aquí involucrarían la extracción de características (TF-IDF es probablemente una buena opción aquí), elegir un algoritmo de aprendizaje (probablemente Bayes ingenuo, regresión logística o SVM dependiendo de la cantidad de datos que tenga), capacitación, evaluación de desempeño, seguido de más sintonización y así sucesivamente. Los árboles de decisión también pueden ser una buena opción aquí dada la naturaleza jerárquica de sus datos.

Si los datos etiquetados son imposibles de preparar, considere algoritmos de agrupamiento. Algunos enfoques de agrupación pueden proporcionarle las etiquetas. En este caso, desearía una agrupación jerárquica para capturar la estructura de categoría / subcategoría de sus datos.

Un buen lugar para comenzar con esto sería el paquete scikit-learn en Python. A medida que sus datos se escalan, también puede considerar Mahout, que está en Java y tiene muchos algoritmos escalables, que a menudo se ejecutan sobre Hadoop.

AlgoritmosAnálisis de conglomeradosAprendizaje automáticoClasificación

Related Content

Cómo predecir las ventas del próximo año, nivel de día, dada la información de ventas de años anteriores, también a nivel de día, y mediante el uso de Kalman Filtering

¿Cómo afecta su área de investigación de maestría (CS) a su carrera? ¿Y cuáles son las áreas más lucrativas?

¿Es un análisis de regresión múltiple más útil / perspicaz para la relación entre IV y DV que un ANOVA?

Cómo utilizar una GPU en mis algoritmos de aprendizaje automático de R

¿Cuál es el editor preferido para un tipo de aprendizaje automático que trabaja principalmente en Python?

¿Son las preguntas el verdadero punto de partida del análisis de Big Data?

¿Por qué hay tantos científicos de datos que usan Python sobre Ruby? ¿Python es realmente mejor que Ruby a este respecto?

More Interesting

Además de tratar de reconstruir la entrada (como en Autoencoder), ¿qué otras tareas podrían resultar útiles para el aprendizaje no supervisado de redes profundas?

Diseño de vectores de características para algoritmos de aprendizaje automático. ¿Debo poner características de diferentes dominios en el mismo vector?

¿Cómo explicaría el concepto de una capa convolucional en una red profunda a una persona no técnica?

¿Cómo se hace la inferencia en una red neuronal con capas de normalización por lotes?

¿Cómo se realiza el aprendizaje automático supervisado cuando sus datos no caben en una sola máquina? ¿Los clasificadores de libros de texto como los clasificadores SVM o Naive Bayes siguen siendo tan importantes o incluso factibles a medida que aumenta el tamaño de sus datos o los algoritmos diferentes se vuelven más populares?

¿Cómo funcionan los motores de recomendación?

Análisis de conglomerados: ¿Cuáles son algunas posibles medidas de distancias / diferencias para variables binarias?

¿Cómo podemos suprimir el ruido de fondo en un teléfono durante una llamada telefónica?

¿Qué empresas del área legal usan Machine Learning?

¿Cuáles son las diferencias entre el enfoque basado en reglas y el enfoque de aprendizaje automático en el análisis de sentimientos?

¿Qué tan perspicaz es el artículo de arXiV: [1504.00641] Una teoría probabilística del aprendizaje profundo? ¿Extiende nuestra comprensión del aprendizaje profundo y presenta un marco unificador?

¿Cómo podría usar el aprendizaje automático para clasificar los datos 1D?

¿Por qué no es una buena idea tener el mismo tren y equipo de prueba?

¿Cómo escribirías un programa de aprendizaje automático desde cero?

¿Qué son los asombrosos papeles gráficos de conocimiento?

Web Analytics