¿Cuáles son algunos consejos generales sobre selección de características e ingeniería que todo científico de datos debe saber?

Puede observar cada característica individual y ver qué tan bien se correlacionan con las clases de forma independiente utilizando alguna métrica de clasificación.

Por ejemplo, una métrica particular podría ser la correlación de Pearson:

[matemáticas] r_ {xy} ^ 2 = (\ frac {cov (x, y)} {\ sqrt {var (x) var (y)}}) ^ 2 [/ matemáticas]
Donde x son los valores que una característica adquiere para múltiples observaciones e y son las clases correspondientes.

1 es alta correlación, 0 es ninguno. Si aplica esta métrica a todas sus funciones, las clasifica y luego puede seleccionar un subconjunto de funciones (es decir, las funciones clasificadas con el 10% más alto) y observar el rendimiento. Puede trazar la precisión de diferentes subconjuntos para encontrar la cantidad ideal de características para mantener. Esto se hace cuando tiene varias características (series de tiempo, ADN)

También podría hacer esta clasificación con el clasificador mismo, ya que encuentra pesos y esos pesos podrían considerarse una clasificación.

Puede crear nuevas características utilizando el análisis de componentes principales (PCA) en su matriz de diseño.

Cómo aplicar en la práctica PCA a la agrupación de trayectorias

¿Cuál es el beneficio de utilizar la agrupación promedio en lugar de la agrupación máxima?

Máquina de Boltzmann restringida (RBM): ¿Cómo se podría reformular (y / o explicar) las dos tareas en la siguiente diapositiva de una charla de Geoffrey Hinton?

¿Es necesario aprender Python para seguir la especialización en cursos de Machine Learning, de Coursera?

¿Cuáles son las diferencias entre los algoritmos CHAID y CART para el crecimiento de los árboles de decisión?

Soy estudiante y quiero ganar dinero en línea. Entonces, ¿alguien podría decirme los mejores y genuinos sitios?

Tienen razón y es por eso que uno debe escuchar y leer blogs de los Maestros de Kaggle.

La selección de características es importante y desafortunadamente aún más un arte que una ciencia, aunque algunos métodos científicos pueden aplicarse para la selección de características.

Covarianza entre características. Si 2 características están cambiando de la misma manera, no sirve el propósito general de tener ambas en el sistema.
Hiper-características: estas características se crean utilizando una combinación de 2 características.
Tenga cuidado con las características que exhiben efecto mariposa. Pequeños cambios en estas características muestran un gran cambio en la salida. Especialmente si son de naturaleza escasa. Pueden crear un error masivo.
Ejecute el sistema como si solo tuviera esa característica y vea el impacto en el resultado.
Por último, pero no menos importante, encuentre la forma correcta de reducir el error según el volumen de datos. Para conjuntos de datos más pequeños, demasiadas personas fallan porque no realizan la validación K-Fold.

¿Toma mucho tiempo? Sí. Necesita paciencia y / o experiencia. Desafortunadamente.

Prasad Tendolkar

Depende del problema.

El caso ideal es cuando sabes algo sobre el dominio. Luego, puede preguntarse qué cree que puede hacer con sus características que serían informativas para la tarea en cuestión.

Si tiene un conjunto de datos de recuadro negro, debe explorar. Hacer observaciones sobre las características. Los conocerá y probablemente notará patrones. Vea a dónde lo llevan estos patrones. Así es como te topas con rasgos dorados.

Tienes que ser creativo, observador y usar el sentido común.

por cierto, PCA es terrible para crear funciones y terrible para visualizar datos. Cualquiera que le diga que use PCA para cualquier cosa que no sea compresión probablemente solo tenga experiencia a través de libros de texto.

Abhinav Maurya

En realidad, el éxito de todos los algoritmos de Machine Learning depende de cómo presente los datos. Por ejemplo, una imagen puede ser presentada por ambos píxeles u otras características de alto nivel, como los bordes.
Estas características doradas se pueden extraer de dos maneras: 1. Por un experto humano (conocido como hecho a mano) o 2. Mediante el uso de métodos de extracción de características automatizados como PCA o herramientas de aprendizaje profundo como DBN. Tanto 1 como 2 se pueden usar uno encima del otro también.
Pero para evaluar la bondad de cada característica, hay algunos criterios como el índice de Gini, la ganancia de información, la relación de probabilidad, etc.

Abhinav Maurya

Todos los científicos de datos deben conocer la relación entre las características utilizadas en un modelo y el ajuste de un modelo a un conjunto de datos. Cuanto mejor se ajuste el modelo, mejor será para resolver un problema dado.

Un modelo puede ser un buen ajuste para un conjunto de datos, puede ser insuficiente o puede sobreajustarlo.

Cuando su modelo no está equipando un conjunto de datos, debería considerar la introducción de nuevas características. Las nuevas características permiten que el modelo expanda el espacio de hipótesis y le permite descubrir señales que mejoran el ajuste.

Estas nuevas características pueden provenir del proceso costoso pero a veces necesario de agregar nuevas métricas a sus observaciones (por ejemplo, nuevas preguntas en una encuesta, nuevos instrumentos que toman nuevas medidas físicas) o a través del método más barato, pero no siempre útil, de crear nuevas características a partir de los existentes: aquí la intuición puede ayudarlo a guiar su modelo seleccionando características que usted considera relevantes pero que el modelo no ha descubierto.

Prasad Tendolkar

More Interesting

¿Cómo se aplica el análisis tensorial al aprendizaje automático, en términos de contexto específico de aplicación?

¿Cuál es la diferencia entre SVD y factorización matricial en el contexto del motor de recomendación?

Si enseñamos a un programa de aprendizaje automático cómo hacer operaciones aritméticas, ¿sería más rápido o más lento que los humanos?

¿Por qué no se debe hacer AI?

¿Cómo se usa el aprendizaje automático en la ciencia de los materiales?

¿Cómo se hacen los algoritmos EM?

¿Cuáles son las mejores empresas de minería de datos?

¿Qué significa 'modelado de conjunto'?

Debido a que este será el tema de un panel en el Instituto de Verano NBER, ¿qué puede aprender la economía de Data Science y / o Machine Learning, y qué puntos sobre este tema le gustaría ver incluidos?

¿Qué es la agrupación en una arquitectura profunda?