El tipo de distribución puede desempeñar un papel importante al decidir cuál puede ser el modelo que puede usar, pero no todo el tiempo. Para su ejemplo, si ve una distribución exponencial con solo ver el gráfico, puede usar Regresión para predecir cuál será el próximo bosque aleatorio. Pero hay muchas maneras de ver qué tipo de modelo usará, como su conjunto de datos (características, clasificaciones). Un buen ejemplo es el conjunto de datos de Titanic, por supuesto, obtendrá diferentes tipos de distribución cuando visualice los datos, tal vez pueda visualizar las características mediante gráficos e histogramas. Las características como la relación del género y la supervivencia y muchas otras características si intenta combinarlas en diferentes aspectos, le darán la idea de qué modelo puede usar, y al principio puede haber muchos modelos que pueden encajar con su conjunto de datos En el conjunto de datos del Titanic, por ejemplo, utilicé el árbol forestal aleatorio al obtener (Entropía y recuperación de información) para predecir algo dado entradas.
Pero lo que la distribución de tipos sí le da idea de qué modelo puede usar, pero recuerde no todo el tiempo a primera vista. Investigar los datos es mejor y le dará información más concreta para que pueda llegar con una solución más factible.
- ¿Cuáles son las fortalezas y debilidades de la plataforma HAVEn de HP para el análisis de big data?
- ¿Cuál es el conjunto de datos útil para el análisis de flujo de datos en tiempo real?
- ¿Cuáles son los documentos recientes de ieee sobre minería de datos?
- ¿Por qué hay tanta locura por la ciencia de datos en estos días?
- ¿Qué temas aprendiste como parte de un curso de ciencias de datos durante tu maestría en los Estados Unidos? ¿Cuáles son algunas sugerencias que me ayudarían a convertirme en un científico de datos exitoso?