Как встать на путь Data Science? Спросили участников ML-соревнования
Как встать на путь Data Science? Спросили участников ML-соревнования

Как встать на путь Data Science? Спросили участников ML-соревнования

17 апреля, 20245 минут на чтение

Содержание статьи

Показать

В феврале этого года ВТБ и холдинг T1 объявили о старте ежегодного соревнования по машинному обучению Data Fusion Contest 2024. Оно продлилось до 5 апреля, участники совсем недавно узнали свои места, а мы взяли интервью у нескольких конкурсантов — от мала до велика.

Соревнование проводилось по двум задачам: «Геоаналитика» и «Модели оттока». Дополнительная номинация — Companion — была введена за публичное решение задач.

За два месяца контеста 1 558 участников предложили 6 878 решений. Принять участие можно было из любой точки мира — зарегистрировано 186 городов из 33 разных стран.

Мы проинтервьюировали как победителей, так и интересных участников Data Fusion Contest. Для удобства можете воспользоваться содержанием статьи.

Андрей Кузнецов, 19 лет

  • Два 1-х места: победитель специальной номинации за лучшее публичное решение (номинация Companion) и лучшее решение в задаче «Геоаналитика».

Андрей рассказал «Коду Дурова», что родился и вырос в Липецке, сейчас учится в Москве. Он не первый год принимает участие в подобных соревнованиях — на Data Fusion Contest задачи были сложнее, чем на других контестах, а оттого эмоций во время мероприятия — ещё больше.

В заключительный день участники сильно активизировались и отправляли много решений, были переживания, что кто-нибудь обгонит в последний момент.

Как давно вы в DS? Какой у вас опыт участия в соревнованиях в России/в мире?

Машинным обучением увлекаюсь с восьмого класса, то есть, уже более пяти лет. За этот период принял участие и выиграл во многих престижных хакатонах и конкурсах. Сначала это были олимпиады для школьников, потом для взрослых. В прошлом году стал призёром на двух международных.

Как рассказал Андрей, во время соревнования параллельно с выполнением задания приходится просматривать материалы по тематике, необходимую литературу, а также существующие подходы и методы, чтобы быть ближе к победе. Без ресёрчей — никуда.

Как оцениваете Data Fusion Contest с точки зрения организации и условий? Можно отвечать честно. Что понравилось, а что бы вы хотели улучшить?

Data Fusion Contest проходил на платформе ods.ai, которая, по словам Андрея, является самой удобной и стабильной. С организацией никаких проблем не возникло.

Организаторы быстро отвечали на вопросы участников в чате, было проведено две онлайн-встречи.

Что касается самих заданий, у Андрея есть пожелание «предоставить более продвинутые базовые решения», что позволило бы разработать более качественные алгоритмы за отведённое время.

Какой совет можете дать нашим читателям, которые тоже хотят принимать участие в таких соревнованиях, но откладывают эту затею?

Искусственный интеллект стремительно развивается — чтобы успевать за тенденциями, стоит задуматься об участии в соревнованиях, говорит Андрей. Для достижения высоких результатов требуются тренировки, практика и самостоятельное изучение нового материала.

Рекомендую прорешивать задачи прошедших олимпиад и анализировать решения победителей.

Дмитрий Кожемяко, 35 лет

  • 1 место в задаче «Модели оттока».

Дмитрий работает в строительной отрасли, и лишь в свободное время он изучает Data Science. Его первое соревнование состоялось год назад на ODS, где он смог занять место в топ-100. Затем, в сентябре 2023 года, он с командой выиграл первый в жизни контест — Всероссийский хакатон 2023, после чего команда Sweepnet заняла призовое место в региональном хакатоне и первое место на Международном хакатоне 2023.

В соревновании Дмитрий участвовал вместе с Иваном Черных, который работает на должности Data Scientist в инвестиционной компании. Была выбрана задача «Отток».

Что можете посоветовать участникам хакатонов?

Не бойтесь предлагать нестандартные гипотезы и отходите от шаблонных подходов к решению задач. Часто они не приводят к желаемым результатам.

Игорь Шарыгин, 60 лет

  • 15 место в задаче «Модели оттока».

Игорь — отличный пример тому утверждению, что возраст не помеха. В индустрию ML он влился совсем недавно — в начале этого года, так как решил полностью поменять свою жизнь, хоть он и называет ML только лишь хобби.

О Data Fusion Contest наш собеседник узнал случайно, а до этого участвовал в двух соревнованиях категории Swag на Kaggle.

Можете поделиться своими эмоциями от задач?

Соревнование захватило и затянуло. Практически всё свободное время уходило на поиск решения. Из смешного: моего опыта в pandas оказалось недостаточно,  поэтому многие фичи генерировал при помощи SQL.

Игорю понравилась и обстановка, и участники, и 15-е место. Жалеет лишь о том, что не обнаружил для себя Data Fusion Contest ранее.

Марк Дядченко, 13 лет

  • 5 место в задаче «Модели оттока».

Пожалуй, самый молодой участник Data Fusion Contest — Марк Дядченко. Python он начал изучать в возрасте 8 лет, а сейчас он имеет звание expert на платформе Kaggle, где читает форумы и статьи, тренируется и участвует в соревнованиях.

Как давно вы в DS? Поделитесь опытом участия в соревнованиях

Data Science я занимаюсь 1,5 года и практически сразу начал участвовать в соревнованиях. Обычно мы не готовимся, потому что мы не знаем, о чём будет задача. По идее, может быть всё, что угодно.

По словам Марка, каждый хакатон даёт новые знания, а Data Fusion Contest он сравнил с зарубежными международными соревнованиями:

Там (на Data Fusion Contest. — Прим. ред.) есть дискуссии, код выкладывают. Есть таблицы лидеров по задачам, ты знаешь, кто на каком этапе сейчас находится, насколько у твоих конкурентов лучше решения.

Марк подчеркнул, что ему «хотелось бы добавить какой-то baseline (основа, содержащая набор инструкций и спецификаций, документацию и другие подробности о задаче. — Прим. ред.)», хотя это не самый важный фактор — разобраться получилось и без этого.

Можете поделиться советом для будущих участников подобных контестов?

Участвуйте в разных соревнованиях! В идеале каждый раз выбирать новое — любое соревнование будет полезно, но какие-нибудь необычные, конечно, интереснее будут, больше придётся придумывать чего-то нового.

Марк не видит смысла в платных курсах, так как всю информацию можно найти самостоятельно. Особенно это актуально в зарубежных соревнованиях. Кроме того, иногда многое зависит от техники — есть соревнования, где мало кто сможет поучаствовать, потому что не у всех есть полтерабайта памяти на компьютере. В случае с Data Fusion Contest всё прошло гладко и без заминок.

Антон Карасёв, 27 лет

  • 3 место в задаче «Геоаналитика».

Антон имеет 7-летний коммерческий опыт в разработке и Data Science — столько же участвует в ML-соревнованиях, что приносит ему и удовольствие, и дополнительный доход.

Расскажите о своей выбранной задаче: с какими трудностями пришлось столкнуться?

Могу сказать, что задача вышла довольно неоднозначной. На первый взгляд всё выглядит просто, задачка вполне классическая в рамках ML и понятная. Однако на практике далеко не все подходы к её решению оказывались успешными, что заставляло изучать иные способы решения и прокачивать свой кругозор.

Отдельно Антон отметил активность тематического чата по ходу соревнования, в котором были интересные обсуждения, а также родились пару мемов.

В качестве решения «Геоаналитики» необходимо было сабмитить inference-код (данный трек соревнования являлся docker-соревнованием. — Прим. ред.). «На мой взгляд, именно так и должны проходить любые ML-соревнования, ведь никакая модель не живёт сама по себе, у неё всегда есть контекст», — подчеркнул Антон.

В целом про площадку и организацию могу сказать только хорошее: система работала чётко, на вопросы в чате организаторы быстро отвечали. Что ещё нужно?)

Каким советом можете поделиться с будущими участниками соревнований?

Навык участия в ML-соревнованиях прокачивается только одним способом — активным участием в ML-соревнованиях. Поэтому всем, кому хочется участвовать в подобных соревнованиях, можно дать только один совет — выбирайте задачу по душе и участвуйте.

Полный лидерборд задач «Геоаналитика» и «Модели оттока» доступен по соответствующим ссылкам. От редакции «Кода Дурова» всем интересующимся советуем следить за инфополем в сфере ML, DS и других соревнований — они не только дадут хороший старт вашей карьере, но и будут продвигать вас по карьерной лестнице.

17 апреля, 2024

Сейчас читают

Редакция рекомендует

Картина дня

Свежие материалы

Свежие материалы