Ключевые факторы эффективности и текучести персонала. Подход 1
Евгений Бондаренко
Вот и я решил взглянуть на данные полученные в ходе опроса (Ключевые факторы эффективности и текучести персонала), которыми любезно поделился Эдуард Бабушкин.
Вступление. Философское
Накинутся на такой объём данных с наскоку не получится из-за их реальности. Нужно много задач решить на пути к тому, чтобы уже можно было работать с данными. Корректно их импортировать, проверить переменные на соответствие их типу, отловить пропущенные значения, отловить NA значения, понять, что с ними делать, выловить ошибки (например, дата увольнения 2035 год J), решить, что с ними делать. И это только маленькая часть предварительной работы.

Преодолев данный этап предобработки данных, уже чувствуешь себя победителем. Когда даты являются датами, а числа числами, а факторы факторами. Чувство, когда все на местах! Кто знает, тот меня поймет. А вот кто не понял, о чем это я в предыдущей строке, тогда вперед изучать статистику, аналитику, R, Python. Последовательность может быть любой. Главное начать!
Идея №1
Я решил начать с заработных плат и увольнений.

У нас есть данные о том, какую человек получал з/плату: «белую» или «серую». А также данные о том, сколько лет проработал в компании (т.е. берем только уволенных). Если мы объединим эти данные в одну таблицу, тогда получим такой результат:
Интересно узнать есть ли взаимосвязь между зарплатой («белая"/"серая») и тем, как долго человек работает в компании.

Хи2 дает следующий результат.
Т. е. полученный результат значимый и есть существенные отклонения. Чтобы их увидеть, давайте построим mosaicplot по остаткам:

Как читать данный тип графиков?

  1. Размеры прямоугольников соответствуют количеству наблюдений.
  2. Цвет прямоугольников — величине значимости отклонений ожидаемых и наблюдаемых частот в конкретной ячейке.
  3. Если значения стандартизированных остатков больше 3х (синий или красный цвет), тогда можно считать, что в этой ячейке зафиксированы значимые отклонения.
Мы видим, что у нас левый нижний квадрат («серая» зарплата и стаж до 1 года) темно-синего цвета. Это означает, что очень много людей, кто согласился на «серую» заработную плату увольняются в первый же год с этой работы. Т. е. количество таких наблюдений у нас в разы больше, нежели ожидалось.
Идея №2
У нас есть данные о том, кто являлся инициатором увольнения: работодатель или сам сотрудник. Давайте посмотрим, есть ли взаимосвязь между этой переменной и полом.

Объединив эти данные в таблицу сопряженности получим:
Рассчитаем Хи2:
Отклоняем нулевую гипотезу (p<0.05) о том, что две переменные (инициатор увольнения и пол работника) не взаимосвязаны. Чтобы проинтерпретировать результаты, давайте построим mosaicplot.
Что мы видим на это графике?

Работодатель гораздо чаще увольняет по своей инициативе именно мужчин (правый нижний темно синий квадрат). С женщинами картинка прямо противоположная (левый нижний светло красный квадрат).
Идея №3
Еще у нас есть данные о размере заработной платы на момент увольнения работника. Если объединить эту информацию с инициатором увольнения и стажем работы в этой компании до увольнения в один красивый график, тогда получим:
Зеленые и красные боксплоты нам четко показывают, что работодатель увольняет более дорогих сотрудников, чем те, которые увольняются по собственной инициативе.

Можно еще сделать и такое предположение, что менее оплачиваемые сотрудники находят более высоко оплачиваемую работу и поэтому сами увольняются.
Резюме

Пока это еще не супер глубокий анализ, а всего лишь первый подход к данным. Я бы сказал — знакомство с данными. Но уже понятно, в каком направлении можно направить работу. Есть интересные идеи, которые хотелось бы «прощупать». Следите за следующими подходами.

Евгений Бондаренко
Автор статьи
СПАСИБО!
Если вам понравилась статья, расскажите о ней в соцсетях