Para los impacientes, la diapositiva particular que describe el método está aquí: Concursos de ciencia de datos ganadores, presentados por Owen Zhang
La codificación funciona así. Para una ID de característica dispersa dada, digamos que ha ocurrido 10 veces en los datos de entrenamiento, 7 de los cuales fueron positivos y 3 negativos.
Para un ejemplo de entrenamiento dado con esa ID escasa, digamos que fue positivo. Así que restamos el ejemplo positivo, dándonos 6 ejemplos positivos y 3 negativos en el entrenamiento de lo contrario, dándonos una relación de 2/3. Ahora multiplicamos ese 2/3 por un número aleatorio cerca de 1 (digamos, 1 + uniforme / 20) y sacamos 1.02. Nuestro valor de característica para esa fila es 2/3 * 1.02.
- ¿Qué tipo de trabajo, como ingeniero de software, me apoyaría más para convertirme en Ingeniero / Investigador de Aprendizaje Automático más adelante en mi carrera?
- ¿Cuál es el código de aprendizaje automático más pequeño que se podría escribir en Java?
- ¿Cuál es más importante de los tres, es decir, informática ubicua, informática distribuida y procesamiento de lenguaje natural, en el mundo de hoy?
- ¿Cuáles son las funciones básicas del olfato? Al igual que los datos visuales se pueden aproximar en una base 3D (RGB, HSI, etc.), ¿se puede aproximar el olor como una suma lineal de unos pocos olores básicos?
- En general, ¿necesita tener un doctorado para obtener un trabajo de Machine Learning / Data Mining en una startup o en una gran empresa?
En el momento de la prueba, solo usa la media empírica de las etiquetas para esa ID dispersa. En nuestro caso, esto sería 7/10.