El sesgo es favorecer una aproximación particular de una solución compleja.
Por ejemplo, supongamos que está tratando de encontrar una tendencia sobre cómo aumenta el riesgo de cáncer con el tabaquismo. Recopila algunos datos para analizar una posible tendencia.
En este simple ejemplo, fumar y el cáncer son las dos únicas variables. Por lo tanto, podría trazar sus datos como puntos en un gráfico con bastante facilidad.
- ¿Debo obtener un doctorado en CV / robótica / IA de CMU, Stanford o U Wash?
- ¿Hay alguna aplicación de aprendizaje automático en un RTOS y viceversa?
- ¿Cuál es la diferencia entre el aprendizaje profundo y el aprendizaje automático habitual?
- ¿La información de los comerciantes podría ayudarme a predecir el mercado de valores?
- ¿Qué sensores tiene el robot Nao?
Ahora, si estos puntos de datos se esparcen de manera desordenada y está utilizando una regresión lineal para modelar la tendencia, lo que haría la regresión lineal sería básicamente intentar dibujar una línea a través de todos los puntos. Puedes ver cómo quedarían fuera algunos puntos. Eso es parcial.
Ahora, comprenda que estos puntos excluidos son diferentes de los valores atípicos. Es natural que haya valores atípicos en cualquier caso, sin importar cuán fuertemente convencional sea la tendencia.
Por ejemplo, si cargó un tigre con las manos vacías, casi siempre aumenta el riesgo de morir. Un caso atípico es un caso de comportamiento anormal. En este caso, un ejemplo sería un tigre que no está dispuesto a participar. Casi nunca sucede, atípico.
Los puntos de datos omitidos debido al sesgo son diferentes de los valores atípicos porque de hecho son ejemplos del comportamiento normal del sujeto que está analizando, no un comportamiento anormal. Dejar tales datos apunta a sesgos a favor de una tendencia es un problema.
Cuando utiliza la regresión lineal, prefiere una tendencia lineal y, por muy compleja que sea la información, espera poder dibujar una línea a través de todos los puntos de datos. Desea que haya una tendencia lineal. Eso es parcial.
Una red neuronal, por propósito y diseño, presenta aproximaciones complejas de una tendencia. Entonces, en la gran mayoría de los casos, una red neuronal se sobre ajusta (que es lo opuesto al sesgo).
Para los puntos dispersos, la red neuronal literalmente trataría de salir con una tendencia en forma de estrella que conecte tantos puntos de datos como sea posible.
Su pregunta solicitó un ejemplo de sesgo al usar una red neuronal. La única forma en que puedo pensar para que esto suceda es si la red neuronal solo tiene una capa. Para que una red neuronal de este tipo funcione de manera efectiva, el sujeto del análisis tendría que ser considerablemente menos complejo de lo que suele estar acostumbrado una red neuronal.
Tome el riesgo de cáncer, por ejemplo. Fumar no es el único factor involucrado. Ahora, no hay ninguna razón por la que usaría una red neuronal para analizar el efecto del tabaquismo sobre el riesgo de cáncer.
Sin embargo, en algunos procesos de lenguaje natural, se hacen conjeturas simples sobre cuál podría ser la siguiente palabra, en una oración, utilizando redes neuronales de capa única. Nuevamente, no deberías usar uno para experimentos simples, pero sucede.
Por ejemplo, la computadora podría estar tratando de aprender sobre la oración “¿cómo estás?”. Una red neuronal de una sola capa funcionaría en este ejemplo para construir un espacio vectorial bastante sencillo para determinar cosas como “hay una alta probabilidad de que haya un” son “después de” cómo “en oraciones de tres palabras”. Se podría llamar a ese sesgo, principalmente porque casi siempre sucede.
Ese es el único ejemplo que puedo pensar, fuera de mi cabeza. Gracias por el A2A!