Cómo decidir qué datos recopilar al construir un modelo predictivo

Usted no

Machine Learning (ML) es una metodología de fuerza bruta (con técnicas inteligentes de optimización y aproximación) para encontrar la señal en el ruido.

Es difícil saber de antemano qué va a ser importante. Además, diferentes algoritmos de ML pueden encontrar / encontrarán algunas características más o menos importantes. Por ejemplo, a los árboles no les gustan las características dispersas aunque puedan ser muy puras, mientras que SVM puede manejar muchas características dispersas. (Por ejemplo, los árboles tienden a ignorar las características que tienen alta precisión pero poca memoria). Los árboles también son inestables, por lo que ajustar las características o el Conjunto de entrenamiento puede hacer que obtengas un árbol muy diferente. Por otro lado, SVM necesita que sus datos estén normalizados y, a veces, no funcionan bien con características que son multimodales.

Además, en mi experiencia, crear inteligentemente nuevas funciones a partir de combinaciones de otras funciones puede ser bastante poderoso. Es difícil saber cuáles de antemano.

Además, cuanto más grande y más representativo (es decir, estratificado) el conjunto de entrenamiento (TS), mejor. Algunas de las características más débiles pueden tener poder predictivo cuando el TS es más grande.

Los algoritmos de ML obtienen toda la gloria, pero el arte de las características y los conjuntos de entrenamiento es lo que proporciona el combustible.

análisisAnálisis de datosAprendizaje automáticoCiencia de datosDatos demodelado predictivopredictivoPreguntas prácticas

Related Content

¿Qué tiene el futuro más brillante, big data / data science o desarrollo web?

¿Cuál es la forma más eficiente de analizar los datos de transacciones bancarias de Yodlee?

¿Qué es Big Data y por qué la gente lo aprende?

¿Cómo aportamos el tipo de credibilidad a nuestra implementación y análisis de big data que disfrutan las prácticas tradicionales de gestión de la información basadas en modelos canónicos?

¿Cuánto debería cobrar un estadístico por el análisis de big data?

¿Cuáles son algunos buenos proyectos sobre aprendizaje automático y minería de datos?

¿Debo hacer un master en ciencia de datos o ir a un campo de entrenamiento?

Cada característica que tiene disponible y cada nueva característica que puede crear a partir de las características que tiene. Luego haga la selección de características. Aquí hay algunas cosas para comenzar:

1.13. Selección de características

http://www.jmlr.org/papers/volum …

¿Cómo realizo la selección de funciones?

Jiting Xu

¿Qué problema estás tratando de resolver?

Haga que el problema sea lo más específico posible, muchas veces un problema se dividirá en partes.

Ahora, tome un problema uno a la vez: pregúntele a su experto de dominio qué cosas le están afectando, profundice lo más posible y luego obtenga datos para esas cosas. Entonces, como dicen los demás, haga ingeniería de características. mi

Cuando cualquier científico de datos salta directamente a obtener datos, conducirá al fracaso la mayor parte del tiempo, ya que no trataron de entender el problema real.

Riyaj Shaikh

Mi enfoque es reunir la mayor cantidad posible y dejar que el modelo decida: ¿qué necesita?

Pero también me gusta el inicio rápido, así que recopile datos ‘fáciles de recopilar’ y solo comience, para ver qué está sucediendo 🙂

Si necesitas ayuda, pásame 🙂 estoy feliz de ayudarte 🙂

Jiting Xu

si no sabe qué funciones son útiles o no útiles.

recolecta todo lo que puedas.

luego haga la selección de características.

Riyaj Shaikh

More Interesting

¿Qué tipo de método de análisis estadístico usaría para analizar la significación estadística de los datos de 2 variables discretas?

¿Será un buen paso cambiar de carrera de pruebas de software a científico de datos con R, Tableau y sobresalir después de 9 años de experiencia?

¿Cuál es la diferencia entre roaming de datos y datos móviles?

¿Whatsapp es una aplicación de minería de datos?

¿Cuáles son las mejores herramientas de minería de datos web gratuitas automatizadas?

¿Qué tipo de cosas debería aprender a ser un analista de datos más reciente?

¿Cuál es la diferencia entre un científico de datos y un ingeniero de aprendizaje automático en LinkedIn?

¿Cuáles son algunas bases de datos meteorológicas históricas?

Cómo usar una PC virtual para el análisis de datos

¿Debo ser un experto en el lenguaje Python para aprender ciencia de datos?

¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?

¿Cómo se automatiza la minería de datos?

¿Puede un desarrollador de Java entrar en big data y análisis sin ninguna experiencia previa?

¿Los teléfonos Apple consumen más datos?

¿Cuáles son los mejores institutos de capacitación y certificación de Big Data y Hadoop en Bangalore?

Web Analytics