Cómo decidir qué datos recopilar al construir un modelo predictivo

Usted no

Machine Learning (ML) es una metodología de fuerza bruta (con técnicas inteligentes de optimización y aproximación) para encontrar la señal en el ruido.

Es difícil saber de antemano qué va a ser importante. Además, diferentes algoritmos de ML pueden encontrar / encontrarán algunas características más o menos importantes. Por ejemplo, a los árboles no les gustan las características dispersas aunque puedan ser muy puras, mientras que SVM puede manejar muchas características dispersas. (Por ejemplo, los árboles tienden a ignorar las características que tienen alta precisión pero poca memoria). Los árboles también son inestables, por lo que ajustar las características o el Conjunto de entrenamiento puede hacer que obtengas un árbol muy diferente. Por otro lado, SVM necesita que sus datos estén normalizados y, a veces, no funcionan bien con características que son multimodales.

Además, en mi experiencia, crear inteligentemente nuevas funciones a partir de combinaciones de otras funciones puede ser bastante poderoso. Es difícil saber cuáles de antemano.

Además, cuanto más grande y más representativo (es decir, estratificado) el conjunto de entrenamiento (TS), mejor. Algunas de las características más débiles pueden tener poder predictivo cuando el TS es más grande.

Los algoritmos de ML obtienen toda la gloria, pero el arte de las características y los conjuntos de entrenamiento es lo que proporciona el combustible.

Cada característica que tiene disponible y cada nueva característica que puede crear a partir de las características que tiene. Luego haga la selección de características. Aquí hay algunas cosas para comenzar:

1.13. Selección de características

http://www.jmlr.org/papers/volum

¿Cómo realizo la selección de funciones?

¿Qué problema estás tratando de resolver?

Haga que el problema sea lo más específico posible, muchas veces un problema se dividirá en partes.

Ahora, tome un problema uno a la vez: pregúntele a su experto de dominio qué cosas le están afectando, profundice lo más posible y luego obtenga datos para esas cosas. Entonces, como dicen los demás, haga ingeniería de características. mi

Cuando cualquier científico de datos salta directamente a obtener datos, conducirá al fracaso la mayor parte del tiempo, ya que no trataron de entender el problema real.

Mi enfoque es reunir la mayor cantidad posible y dejar que el modelo decida: ¿qué necesita?

Pero también me gusta el inicio rápido, así que recopile datos ‘fáciles de recopilar’ y solo comience, para ver qué está sucediendo 🙂

Si necesitas ayuda, pásame 🙂 estoy feliz de ayudarte 🙂

si no sabe qué funciones son útiles o no útiles.

recolecta todo lo que puedas.

luego haga la selección de características.