💢 🐏 🏊 Comment nous avons recherché des candidats à l'aide de l'apprentissage automatique 😱 👩‍💼 🔫

Pour trouver de vrais talents, les entreprises doivent trouver les moyens de recherche les plus inhabituels. EPAM aime également rechercher de nouvelles façons de résoudre les problèmes courants. Cette expérience a commencé avec le fait que nos recruteurs se sont tournés vers des collègues de la pratique Data et ont demandé à réfléchir à la façon de créer un système de recherche de candidats pour les postes vacants dans l'entreprise. Un système qui permettrait de réduire le temps passé à trouver un candidat pertinent dans les sources ouvertes *, ainsi que d'augmenter la qualité et la quantité de bons candidats. Notre équipe Data Science a repris la tâche en collaboration avec des étudiants du centre de formation EPAM. Ensuite, je parlerai des principales approches qui peuvent résoudre ce problème, de notre solution et des résultats. En général, le poste s'est avéré être davantage une référence, mais à travers le prisme d'une analyse de rentabilisation spécifique. J'ai aussi essayé de laisser des liens,où cela me semble pertinent, afin que vous puissiez en savoir plus sur une technologie ou une approche particulière.

* - sites et ressources où les candidats, les utilisateurs eux-mêmes publient des informations les concernant. L'accès à ces ressources n'est pas limité, y compris les licences et les conditions d'utilisation de ces ressources (Conditions d'utilisation).

Tâche

En règle générale, l'automatisation signifie l'optimisation des processus. Dans notre cas, l'objectif a été formulé comme augmentant l'efficacité de la recherche de candidats. L'efficacité dans ce cas s'exprime par la recherche des postes vacants les plus appropriés avec des ressources minimales.

, (). , . ( ) , , . : , , , . , .

, : , , , .

— . , . , , .

:

. , . : , , , — . , () .

#1. — One-Hot Encoding (OHE)

, 1 — , 0 — .

Cette approche est simple, mais présente plusieurs inconvénients. Le problème principal de cette approche est peut-être que les compétences dans l'espace obtenues avec son aide seront orthogonales les unes aux autres, et nous ne pourrons pas comparer leur similitude les unes avec les autres. Très probablement, il n'est pas si important pour nous de faire la distinction entre des compétences telles que Java7 et Java8, par exemple, et il serait bien de les distinguer d'autres compétences qui ne sont absolument pas liées à la position d'un développeur Java. Avec cette approche, Java7 de Java8 sera le même que Java7 de Python.

De plus, l'inconvénient de cette approche est que nous ne pouvons pas faire la distinction entre les compétences spécifiques et les compétences populaires qui sont communes à l'ensemble de notre échantillon. Cela fera un certain bruit dans notre recherche et gênera la distinction des candidats et la mise en évidence de candidats similaires.

Un moyen facile d'ajuster légèrement l'influence des compétences populaires sur la recherche consiste à utiliser non pas des estimations binaires, mais des estimations pondérées en fonction de la fréquence d'occurrence dans l'échantillon dans son ensemble et dans des documents séparés. Pour ce faire, utilisez la méthode TF-IDF . Mais dans ce cas, nous ne pouvons toujours pas évaluer la similitude des compétences entre elles.

Méthode n ° 2. Factorisation matricielle

La représentation des candidats dans l'espace, où chaque compétence est la coordonnée de l'espace, est redondante, car une partie des compétences sont presque identiques. En conséquence, des compétences similaires peuvent s'effondrer en certains facteurs / composants / symptômes latents. Une approche pour trouver de tels composants est un groupe de méthodes de factorisation matricielle .

User-Skills , . . — (skills’ embedding). , — , , .

, , . , . — , . , .

, , .

#3.

, . , — . , , , , ( supervised ), , , , , , , (unsupervised ). .

, . , , , .

— , .

,

— StarSpace. «», . , , , , , .

, , . , .

#4.

, — .

, . , , — , — . , — . — - — , , . , , .

, — .

Nœuds - par exemple, les candidats peuvent être quelque peu similaires les uns aux autres, être dans la même communauté, partager des intérêts communs, travailler dans la même entreprise ou avoir d'autres caractéristiques identiques - ceci est responsable de la caractéristique d'uniformité. D'un autre côté, les nœuds de différents groupes peuvent être unis par le fait qu'ils jouent le même rôle dans leurs groupes - dirigeants, chefs adjoints, gardiens de l'information, communicateurs, étrangers. Si nous voulions comparer deux graphiques, nous pourrions comprendre que les leaders d'une colonne jouent le même rôle que les leaders d'une autre - c'est ce qu'on appelle la similitude structurelle.

D'une manière ou d'une autre, les méthodes de représentation graphique tentent de construire un espace prenant en compte à la fois l'homogénéité et l'équivalence structurelle du graphique.

Factorisation graphique

Tout d'abord, nous considérons une méthode basée sur la factorisation des graphes.

, : , .. — 1, — 0. , .

, .

a-like word2vec*

( , ) . , , , . . , , . , — w2v(skip-gram), doc2vec. ( word2vec).

Vous pouvez en savoir plus sur les méthodes de représentation graphique similaires, par exemple ici - DeepWalk , Node2vec , Graph2vec .

La source

Réseaux convolutifs sur les graphiques

Voici une idée similaire à la méthode précédente: nous parcourons le graphique et utilisons des informations sur ses voisins pour représenter un seul nœud. De plus, des informations sur la structure générale du graphe et les caractéristiques du nœud sont impliquées dans l'apprentissage de la représentation. La principale innovation de ces méthodes est que le modèle normalise les valeurs de chaque nœud de telle manière que la position dans l'espace latent de deux nœuds est plus proche, plus les rôles structurels de ces nœuds dans le sous-graphique sont similaires.

Cette procédure est appelée pliage de graphe.

Plus de détails ici:

,

PyTorch BigGraph — Facebook Research. , . , , .

:

: — , . , , , .

, — IT-. , , IT-, (.. ), , .

GitHub (github.com, Terms of Service), . , GitHub API GitHub Archive, GitHub , .

GitHub . : ( , ), , , , , (), , , , , , .

GitHub , , . - , ; (), , . , , .

GitHub, embedding, .. . , .

, embedding.

embedding , , — .

. .

, GitHub , . , , , .

4 , , 5 . , , , , : Java, JavaScript, Python, DevOps, Data Science. 3500 . , , 35% , 65% — . , . , , Java Developer — 60%, , , . , DevOps, , . , — 25,5% .

Qu'avons-nous réalisé

Le pourcentage de candidats pertinents recommandés par le modèle est comparable au pourcentage d'autres systèmes, y compris les ressources de recherche d'emploi.
Il a été possible d'augmenter la base interne de candidats de plusieurs centaines, ajoutant une source qui n'était pas impliquée auparavant.
Le temps de recherche d'un candidat a été réduit de 29% par rapport aux autres sources de recherche «à froid» (c'est-à-dire les sources qui ne sont pas utilisées pour la recherche directe d'emploi).
Nous avons pu traiter plus efficacement les demandes avec des compétences rares.
Et embaucher quelques ingénieurs seniors qui n'étaient pas en recherche d'emploi active.

Ce que j'aimerais améliorer

La solution résultante présente des inconvénients que nous n'avons pas encore pu résoudre:

Il n'y a toujours pas de bonne solution pour évaluer le niveau de compétence des candidats.
GitHub , .
, , GitHub.
, .

, , , , .

, , , .

Comment nous avons recherché des candidats à l'aide de l'apprentissage automatique