Cómo comenzar a construir un proyecto sobre minería de datos desde cero

Bien, tienes que llevar a cabo un mini proyecto en Data Mining. Supongo que es parte de tu trabajo de curso. Tiene un conjunto de datos en la mano, así que comience preguntando, ¿qué puede hacer con estos datos?
Quizás el primer paso podría ser la limpieza de datos. Una vez que se limpian los datos, ¿qué sigue? Tal vez tratando de encontrar un patrón o confirmando un patrón conocido. ¿Cómo haces eso? Aplica varias técnicas para verificar o desentrañar el misterio. Si no está seguro, qué técnicas aplicar, haga un estudio de factibilidad. Esto también podría conducir a algún tipo de análisis comparativo.
El hecho de que desee saber cómo alguien más ha ejecutado su proyecto en Data Mining, para que pueda emular parte de él, muestra que es un novato. Si el conjunto de datos es diferente, naturalmente, el objetivo del proyecto cambiará y, por lo tanto, las técnicas y todo lo relacionado con él.

Te sugiero que sigas estos pasos:

1. Aprenda el algoritmo Apriori.
2. Implemente (codifique) con éxito y pruebe en un conjunto de datos más pequeño.
3. Vea si también funciona bien para grandes conjuntos de datos. Si no, modifique su código.
4. Ahora que ha aprendido el algoritmo más básico para la minería de datos, busque algunos algoritmos mejores como eclat o FP-Growth. Y repita los pasos 2 y 3.

Para ayudar con la codificación, puede consultar una Biblioteca de minería de datos de código abierto de Java

More Interesting

¿Qué estudios serían los más útiles para nuevas empresas durante las próximas décadas, informática o ciencia de datos?

¿Cómo recopilar datos de agricultura en tiempo real para un área específica en India? Quiero hacer un informe del proyecto para mi estudio de ciencia de datos. ¿Cuáles son las fuentes de información que puedo usar?

Matemáticamente hablando, ¿cuándo los números de lotería ganadores del pasado afectan los sorteos futuros?

¿Cuál es la diferencia entre un trabajo de ciencia de datos que requiere el uso de software SAS y uno basado en un lenguaje científico (Python, R, Matlab, etc.)?

¿Qué nivel de preguntas de codificación del algoritmo Python le pedirían para una entrevista de ciencia de datos (nivel interno)?

¿Hasta qué punto son aplicables las leyes de privacidad de la UE, por ejemplo, el derecho al olvido, a las empresas que dependen de modelos personalizados de aprendizaje automático?

¿Realmente hace una diferencia entre los programas de EM de uno y dos años en los Estados Unidos, con respecto al campo de la ciencia de datos en términos de conseguir un trabajo también?

¿Existe una buena biblioteca para los algoritmos de detección de deriva conceptual?

¿Qué es la gobernanza de datos?

¿Cuál es la diferencia entre data scientist y big data?

¿Cuáles son los logros de Yahoo en el campo de Big Data?

Cómo usar Simplescalar para crear un proyecto de ciencia de datos

¿DataCamp me ayudará a competir en las competencias de Kaggle? Soy un principiante.

¿Qué tan útil es el big data, dado que la gente cambia?

¿Cuáles son algunos de los mejores recursos / estudios de caso sobre análisis de datos / prácticas de segmentación de clientes / métricas en las startups?