Como cuerpo técnico, ¿cómo se concilia el hecho de estar basado en datos, abrazar la diversidad de la fuerza laboral y contratar a los mejores?

Usted preguntó (A2A’ed):

Como cuerpo técnico, ¿cómo se concilia el hecho de estar basado en datos, abrazar la diversidad de la fuerza laboral y contratar a los mejores?

¿Cómo mantenerse impulsado por los datos si los resultados que obtiene no son políticamente correctos?

¿Cuáles deberían ser los objetivos de diversidad? Proporcional a la población nacional? ¿Solo aquellos dispuestos a trabajar? ¿Poblacion mundial? ¿Industria?

¿En qué punto no vale la pena sacrificar una mayor diversidad de otros valores?

Tendemos a ignorarlo.

Supongo que será mejor que explique, para que valgas tus preguntas.


En algún momento, activa el “Campo de problemas de alguien más”.

Este es un dispositivo ficticio utilizado en la novela de Douglas Adams, The Hitchhiker’s Guide to the Galaxy . Hace que las personas ignoren un problema obvio, porque les convence de que alguien más se responsabilizará de ello, por lo que no tienen que hacerlo.

También podría haber hecho referencia a la novela de John Brunner Stand on Zanzibar ; en él, tenían una computadora artificialmente inteligente llamada Shalmaneser (no es coincidencia, el nombre de varios reyes asirios).

La computadora se encontró con un punto muerto y no pudo avanzar en otros problemas porque se quedó atascada tratando de responder a un problema anterior. Como punto de la trama, el hecho observado de que la computadora se atasca no tiene evidencia, pero es posible convencer a una IA de que algo es cierto al tener acceso administrativo y decirle algo tres veces.

Nuestro protagonista “despega” la computadora diciéndole “Este hecho es cierto. Te lo digo tres veces. ”, Después de lo cual alegremente se adelanta con los otros problemas en su cola (uno de los cuales es salvar la Tierra).

El equivalente a esto en la industria tecnológica es ” El grupo de candidatos disponibles no es diverso “.


Esto generalmente se atribuye a la tubería, y es bastante obvio que, estadísticamente hablando, la tubería exhibe este sesgo.

Está justo allí en los números (y no somos nada, si no se manejan los datos).

Entonces, ¿de quién es la culpa, si debemos culpar a alguien más que a las personas que solicitan los trabajos , es así?

Bueno, podemos culpar a las universidades .

Y luego las universidades pueden admitir que, sí, los números parecen malos , y luego pueden culpar a las escuelas secundarias , ya que los estudiantes tienden a elegir su especialidad antes de llegar a la universidad.

Y las escuelas secundarias culpan a las escuelas primarias , porque, en realidad, la multitud que se inscribe en, por ejemplo, las clases AP Math, AP Physics o AP CS no es muy diversa, por lo que, obviamente, las escuelas primarias están haciendo un mal trabajo al proporcionar Estudiantes STEM a escuelas secundarias.

Si hay escuelas secundarias o secundarias involucradas, también pueden tener parte de la culpa, pero son realmente blandas, porque no pueden ponerse de acuerdo sobre si están manejando los grados 7, 8 y 9, o si ‘ solo maneja los grados 7 y 8.


Para cuando eso suceda, sin embargo …

En lo que respecta a la industria de la tecnología, “Te he dicho tres veces que hay problemas de canalización: ahora es el problema de alguien más”.

Después de lo cual, ignoramos a las personas que traen el tema, a menos que seamos sociólogos aficionados o profesionales, y tendemos a encontrar la pregunta intrínsecamente interesante, o somos un empleado de RR.HH. a quien se nos ha dicho que recopilemos las estadísticas, y tiene un CEO respirando por el cuello.


Pero para responder a la pregunta de cómo una empresa de tecnología reacciona a esa información …

Si es una opción entre contratar a los mejores y hacer el trabajo, o contratar de manera diversa y no hacer el trabajo, sacrifica la diversidad.

Aquí está mi versión favorita personal de Occam’s Razor: cualquier cosa que funcione es mejor que cualquier cosa que no funcione .

Aquí está el corolario del ingeniero para esa versión: ¿Puedo hacerlo más rápido? Sí, puedo hacerlo tan rápido como quieras, siempre que no tenga que funcionar .

La forma en que la industria de la tecnología generalmente ha funcionado es que, debido a que el grupo disponible ha restringido la diversidad, y las empresas con más dinero pueden pagar lo que sea necesario para obtener “personas diversas” (y estoy de acuerdo: la diversidad está bastante mal definida nuestra cultura de todos modos): cuanto más rica sea una empresa, más “diversa” puede permitirse ser.

Y sí, eso se produce a expensas de que todas las otras compañías también sean criticadas por las brasas por ser “insuficientemente diversas”.

Para ponerlo en términos de Wikipedia: Noogies difíciles .


PD: Hablando hipotéticamente sobre la pregunta que evitaste hacer …

Hay algunos números duros de los CDC y el NIMH que hablan sobre la prevalencia de Asperger por género (los hombres tienen 4.3 veces más probabilidades de tenerlo que las mujeres). Existen discrepancias similares por raza, pero debe volver al archivo de Internet para encontrarlas, ya que son lo suficientemente inconvenientes para la narrativa social prevaleciente que se mueven con frecuencia.

Pero ese es solo el sociólogo aficionado que hace una observación porque tiendo a encontrar la pregunta intrínsecamente interesante.

Imaginemos que está ejecutando uno de los grandes equipos tecnológicos de la etiqueta: se imagina impulsado por los datos, emplea el aprendizaje automático en todos sus productos, etc. según sus números, usted descubre entre los ingenieros, <5% son negros / hispanos y <20% son mujeres. Le gustaría mejorar las cosas, mientras se apega al enfoque basado en datos, sin emplear la corrección política en sus decisiones.

Entonces, primero identificas que el sesgo inconsciente de los reclutadores y la percepción del ambiente tech-ninja-frat-house como mujeres hostiles pueden contribuir al problema, por lo que remodelas tu espacio de trabajo para ser neutral en cuanto al género y entrenas a tus reclutadores para aliviar el sesgo, o mejor, en lugar de comités humanos, usted entrena un modelo de aprendizaje automático para predecir si un candidato tendrá un buen desempeño en su empresa dados los datos históricos.

Comienzas con todas las señales y todas las muestras pasadas a las que puedes tener acceso, y rápidamente aprendes que la raza y el género parecen tener un gran impacto en tus decisiones de contratación de AI, lo que refuerza efectivamente el sesgo contra las mujeres y las minorías, lo que parece ser un plan mal para ti. ¡Decir ah! – usted dice – ¡Debería haberlo sabido mejor y abstenerme de usar estas señales, ya que no quiero que mis decisiones de contratación se basen en ellas! En la comunidad ML, esto se denomina señal de entrada que pierde parte de la salida. Hasta ahora todo bien, nos mantenemos científicos.

Por lo tanto, si vuelve a entrenar su modelo sin señales de raza / género, incluso podría decidir submuestrear grupos sobre representados (es decir, menos muestras de hombres blancos) y tomar una cantidad igual de muestras de cada grupo. Su modelo se ve un poco peor en los datos históricos, pero usted culpa al sesgo en su contratación histórica: a partir de ahora no habrá sesgo, por lo que estas señales son innecesarias. Sin embargo, luego de una inspección más cercana, notas que la aguja se movió solo un poco y que tu IA todavía está eligiendo a las mismas personas.

Tienes otro ajá! momento, al darse cuenta de que lo que solía explicarse por raza ahora se explica por la universidad de la que se graduó el candidato, un distrito cuando crecieron o una asociación a la que pertenecían. Entonces, efectivamente, estas 3 señales están filtrando la carrera que, a su vez, está filtrando la variable de salida. Usted pone rápidamente en una lista negra el nombre del distrito y la asociación de sus datos, ya que no espera que sean tan importantes después de todo. Dudas por un momento cuando miras la universidad, ya que históricamente todos han estado buscando graduados de la escuela superior, pero decides hacer lo correcto y deshacerte de esta señal también.

En este punto, su IA comienza a recomendar la contratación de un 30% de mujeres y un 10% de negros / hispanos. Yeyyy, moviste la aguja, ¡pero aún queda mucho camino por recorrer! Después de todo, a pesar de tener los mejores números de diversidad en el Valle, técnicamente hablando aún discrimina a las mujeres / minorías, solo que menos que otras.

El resto de la brecha parece explicarse de hecho por las diferencias puras de cantidad y aptitud entre los candidatos. Te das cuenta de que, estadísticamente, hay menos mujeres con antecedentes técnicos en el área, menos candidatos hispanos cumplen con los requisitos mínimos y los candidatos negros tienden a obtener una calificación más baja en tus pruebas técnicas. No es culpa suya, dices, la sociedad estaba sesgada en contra de ellos, su estatus económico no les permitía obtener una mejor educación, la división estereotípica del rol de género afectó sus elecciones educativas … Motivados a corregir un error, decides buscar más Candidatos de grupos subrepresentados: organizas eventos de reclutamiento en universidades históricamente negras, organizas concursos para jóvenes desarrolladoras de software, etc. A pesar de la menor tasa de aceptación de la IA entre esos grupos, logras aumentar los números por el gran volumen de candidatos de grupos subrepresentados. Por otro lado, al tener una capacidad limitada de reclutamiento, esto significa que ya no puede responder a todos los candidatos varones blancos / asiáticos, ya que está ocupado con un mayor volumen de candidatos minoritarios.

Sus números de diversidad ahora se ven mejor, pero aún no son perfectos, por lo que decide simplemente agregar una bonificación de puntaje aquí y una cuota allí.

Ahora, eres perfectamente diverso, pero en algún momento has perdido esa sensación basada en datos que tanto te gustaba de tu empresa … ¿Mejorará esto aún la innovación de tu empresa? ¿Vale la pena aumentar todos los sacrificios de sus valores que hizo a lo largo del camino? Hasta que el lector decida, en qué punto particular la compañía hipotética ha cruzado la línea …

Comentarios bienvenidos! Por favor, trate de evitar el enojo santo de la corrección política, y simplemente discuta sobre la base del mérito.

Algunos datos promedio para el contexto:

More Interesting

¿Le resulta aburrido resolver los problemas de aprendizaje automático tipo kaggle intelectualmente aburrido (en comparación con la programación competitiva, por ejemplo)?

¿Existe algún conjunto de datos disponible públicamente para la clasificación étnica / nacionalidad de los nombres humanos?

¿Qué cursos deben tomar los antecedentes de EE para el aprendizaje profundo?

Si la tasa de predicción de un algoritmo de aprendizaje automático mantiene porcentajes bajos (50% a 60%) en un conjunto de datos, ¿cómo puedo mejorar?

Cómo iniciar el aprendizaje automático desde PHP

Cómo optimizar las consultas SPARQL

¿Por qué decimos que las redes neuronales simples no pueden manejar la entrada de longitud variable?

¿Cuáles son las ventajas y desventajas de cada método de regresión no lineal existente?

¿Es posible usar bibliotecas de aprendizaje automático OpenCV para aplicaciones que no son de visión por computadora?

Cómo hacer clustering de tipos de datos mixtos en Python

¿Cómo se puede imputar valores perdidos en SAS?

¿Cuáles son las probabilidades de ingresar a un programa de posgrado de aprendizaje automático en una escuela superior si mi experiencia en investigación es en bioinformática y algo de experiencia en investigación en PNL?

Cómo usar KNN para datos mixtos (categóricos y numéricos)

¿Qué es un modelo de mezcla de Bernoulli?

¿Cuántas imágenes de entrenamiento deberían usarse para una buena tarea de reconocimiento de género en OpenCV? ¿Hay algún conjunto de datos disponible para esta tarea?