Марат Сабиров

Data Science

Об учебе

Прошел курс «Python для анализа данных», сейчас прохожу специализацию «Data Science». 

Изначально целью было (и есть) освоить науку о данных практически с нуля. Почитал разные мнения и понял, что 70–80% работы в DS — подготовка, предобработка и разведочный анализ данных. Понял, что это основа, с которой можно штурмовать «высокие материи». Плюс, был опыт в анализе данных по своей научной работе (Excel) и небольшой опыт программирования моделей (Visual Basic). 

Всё взвесив, понял, что курс по Python — это во-первых, основа, которая нужна всем, а во-вторых, программа обеспечит более плавный вход в область науки о данных.

Курсом я доволен. После прохождения могу точно сказать, что название полностью соответствует содержанию: уделяется внимание предобработке данных различных форматов, обзорным аналитическим процедурам (базовая статистика и др.), визуализации результатов. Здорово, что нам не только объясняли, как работать с данными, но и как (и где) их получить — на «живых» примерах и заданиях по работе с API Яндекса, ВК, Google. А ещё в рамках программы есть «курс молодого бойца» по Python — для тех, кто совсем с нуля.

Конечно, были и недостатки: ошибки при проверке ответов на платформе, иногда задачи были сформулированы недостаточно чётко или противоречиво, иногда поддержка реагировала не так быстро, как хотелось бы. Но всё это мотивировало меня искать решение самому — так, как оно будет в реальной жизни. Итого: умение (скорее даже психологическая привычка) решать проблемы самостоятельно. То есть в рамках курса вы можете получить даже то, чего там не заявлено, сознательно используя недостатки системы с нужным настроем на решение задач 🙂

Самым сложным было изучение Питона — до того я писал только на Бейсике. Основы вспомнились быстро, но было трудно перестроить мозг на pythonic style. Но как стало получаться — сразу вошёл во вкус! До гуру Python мне ещё, конечно, далеко, но язык так понравился, что я нахожу время на самообразование параллельно с задачами курсов.

О выборе специализации

Мне кажется, я учёный по натуре. Работа в науке — это уже следствие. А DS — не просто программирование. Это, как я сейчас себе представляю, 3:3:3:1 — наука (гипотезы, вычислительные эксперименты) : написание кода : «математика» : коммуникации. Естественно, привлекает оплата труда хорошего специалиста в отрасли.

Ещё для меня значительную роль играет то, чтобы я вносил вклад своим трудом во что-то большое и важное. Исследование новых биомолекул, биоинформатика, прогнозирование рисков окружающей среды — есть даже целое направление «Data Science for social good». По этой причине меня вряд ли заинтересует работа, где надо иметь дело с только с биржевыми или финансовыми показателями или считать метрики успеха бизнеса. Наконец, DS — это перспективно, а в будущем ещё и хороший способ познакомиться с проектами из абсолютно разных областей.

О работе

Продолжаю работать в академической науке (моделирование в биологии), преподаю, развиваю свой собственный небольшой образовательный проект. Уже применяю полученные знания в работе. 

Недавно меня пригласили в DS-проект: нейросеть для распознавания объектов. Надо будет делать всё с нуля: пришлось даже немного освоить тему «железа» для вычислений — требовалось расписать спецификацию рабочей станции под проект, которую должны закупить. Целую неделю сидел на форумах. Уверен, это будет сложный и интересный проект!

О реализованных проектах

После обучения в SkillFactory я написал много простых скриптов, автоматизирующих работу. Недавно реализовал алгоритм поинтереснее: получение множества комбинаций из исходных данных с последующим выбором лучших по определенным критериям. Т. е. «эволюционный» алгоритм — так и работает эволюция. Можно считать это примером переноса «доменных» знаний биолога в новую область. Разумеется, я не первый — генетические алгоритмы существуют уже давно, в т. ч. в виде библиотек Python. Фокус в том, чтобы увидеть, что для конкретной задачи подойдет именно это решение. В итоге наш вариант на платформе признали одним из лучших.

Об инструментах

Довольно широко использую классическую триаду аналитика: Pandas, NumPy, Matplotlib. Сейчас на курсах прохожу базовые методы ML — осваиваю Sklearn. Из встроенных библиотек работал с os, re, math, также оценил полезность Itertools, JSON, Beautiful Soup. Немного работал с Seaborn — она помогает делать действительно стильные визуализации!

Но и есть неудобные вещи: например, в Jupyter нет нормального дебаггера (или я о нем не знаю, ipdb не предлагать). Ясно, что продакшен-код будет уже в PyCharm, где есть всё. А в экспериментах в тетрадках приходится все print’ами обкладывать (наверняка есть более умное решение).

О вдохновении

Безусловно круто то, что делают ребята из Open AI. Интересен Илон Маск с его Neurolink. 

Конечно же, наш ODS — пусть это лишь инициатива двух-трёх человек, но зато есть возможность напрямую пообщаться с авторами. Из научного, наверное, самое впечатляющее — недавнее «открытие» нейросетью результатов Коперника и Кеплера (т. е. гелиоцентрической системы мира) по входным цифрам положения небесных тел. Тут даже более важно, что исследователи отследили «рассуждения» сети (механизм формирования связей). Чуть ранее до этого была новость о том, как другая сеть на порядок ускорила решение классической «задачи трех тел».

О планах на будущее

Мне интересен биотех, биоинформатика. Хочу освоить biopython — библиотеку для работы с последовательностями ДНК и другими информационными молекулами.

Также интересно направление, которое для себя я назвал «Data Science for Sustainable Development» (DS4SD). Sustainable development — глобальная концепция ООН по развитию, в которой делается попытка учесть все аспекты: экономику, экологию, социальные факторы. У нас же пока всё завязано на экономике и бизнесе, остальное — по остаточному принципу. Наверняка у ООН есть большие, интересные датасеты по различным аспектам. 

Круто исследовать данные из разных областей или датасеты с множеством различных показателей. А если исследовать, например, только финансовые данные — мне станет неинтересно уже через месяц.

Оцените статью
Learn Data Science
Добавить комментарий

  1. Аватар
    Дмитрий

    Просто замечательный отзыв ! Кто из сотрудников SkillFactory писал его, признайтесь ?! ))

    Ответить
    1. Алексей
      Learn-Data-Science.ru автор

      С нетерпением будем ждать историю успеха от вас. Ну или конструктивной критики курсов 🙂

      Ответить
      1. Аватар
        Дмитрий

        Да-да, когда нечего сказать, отвечают примерно так, как вы это сделали…))) «В огороде бузина, а Киеве — дядька»…)))

        Ответить