FEW SKILLS
Все о продуктивности

ОБУЧЕНИЕ DATA SCIENCE С НУЛЯ – С ЧЕГО НАЧАТЬ?

0 1 026

Продолжаем писать об образовании и онлайн-курсах (другие статьи здесь). Еще совсем недавно  интерес к data science был практически нулевым. О таких вещах, как нейронные сети, машинное обучение и большие данные, знали только избранные. Сейчас же каждый второй что-то, да слышал о data science и связанных с этим вещах. А работодатели готовы платить такому профессионалу в разы больше, чем среднестатистическому программисту. 

По данным HeadHunter в 2018-м году специалисты из сферы науки о данных получали в среднем 190 тыс руб в месяц, тогда как средний показатель для остальных секторов IT был всего 90 тыс руб. А в США по данным Нетологии даже начинающий data scientist получает более $90 тыс в год.

Высокий спрос сделал эту специальность одной из самых популярных на рынке курсов и тренингов. Но при этом многие начинают попытки пробиться в сферу науки о данных, мало что о ней зная. В этом материале – все о том, чему именно нужно учиться, какие навыки ценятся на рынке и что в итоге должен уметь data scientist.

Мы уже публиковали обзор самых интересных площадок для онлайн-обучения (он здесь). В этом материале собран исчерпывающий список курсов, литературы и ссылок по ключевым моментам, библиотекам и фреймворкам специальности data science. Изучив несколько из описанных в статье ресурсов, можно смело претендовать на позицию junior data scientist. 

Если вы считаете, что мы что-то упустили – выскажитесь об этом в комментариях. А пока начнем с ответов на базовые вопросы. Итак, обучение data science с нуля – что самое важное?

Чем занимается data scientist?

Data scientist — человек, который решает реальные бизнес-кейсы, проводя интеллектуальный анализ большого объема данных. Чтобы справляться с этими задачами, специалист должен обладать не только множеством hard skills, но и иметь выдающиеся личностные качества (о важности soft skills подробно написано в нашей статье). Вот с последних и начнем.

обучение data science с нуля

Обучение data science с нуля – какие личностные качества нужны?

Вам придется разбирать огромные массивы данных, искать нестандартные пути решения и успешно взаимодействовать с другими членкаи команды. Для этого нужно быть больше, чем азбукой алгоритмов. Подумайте, соответствуете ли вы требованиям к специалисту по данным на уровне soft skills. Для этого у вас должны быть:

  1. Аналитический склад ума. Без подходящего склада ума, понять и проанализировать большие объемы данных разного типа просто невозможно;
  2. Упорство и умение доводить начатое до конца. У профессионала не должны опускаться руки, сколько бы раз он ни пробовал решить проблему;
  3. Креативность. Каждый кейс непохож на другие. Нужно не просто выбрать подходящий метод, а придумать его и только потом реализовать. Без креативного подхода в таком не обойтись;
  4. Умение объяснять сложные вещи простым языком. Клиенты зачастую являются людьми без технического образования – теми, кто не разбирается в data science, machine learning и других технических аспектах. Представляя им результаты, специалист должен донести основные положение максимально просто;
  5. Понимание того, как работают бизнес-решения в data science. Цель data scientist — разработать решение для бизнеса, поэтому он должен и сам разбираться, как работает бизнес и будет ли данное решение удобным для конечного пользователя.

Знание английского языка в data science 

Но все soft skills меркнут перед необходимостью знать английский. Это более важно. Без этого никуда. Большая часть из необходимых для изучения ресурсов – на английском языке. Нужно смириться – самые свежие новости и курсы по data science появляются первым делом на английском. Многие книги и обучающие программы, представленные в этой статье, также поддерживают только английский. Но не стоит отчаиваться, если ваш язык хромает.

Уже имея знание не ниже уровня B2, можно просто подтянуть словарный запас, дополнив его терминами, связанными с данными. Чувствуете себя неуверенно? Попробуйте курс по английскому языку для IT-специалистов от Skyeng или найдите более подходящий в нашем обзоре площадок для онлайн-обучения английскому.

Обучение data science с нуля – необходимые технические навыки успешного data scientist

Необходимые для успеха в карьере навыки диктует рынок, а он – вещь переменчивая и нестабильная. Именно поэтому полный список компетенций меняется от вакансии к вакансии. Остановимся на самых важных.

обучение data science с нуля

Линейная алгебра в data science

Обучение data science с нуля и математика – вещи созвучные. Нужно иметь серьезную математическую базу. К счастью, необязательно быть гением абсолютно во всех аспектах.

Линейная алгебра невероятно важна, ведь именно матрицы и векторы применяются для представления данных при использовании методов машинного обучения в серьезных компаниях. Чтобы получить базовые представления о линейной алгебре и быть конкурентоспособным кандидатом, можно пройти несколько курсов:

  •  Линейная алгебра на Stepik. Затрагивает только введение, очень короткий и понятный, позволяет за 4 часа лекций освежить знания или получить базовые представления о том, с какими задачами работает эта сфера математики и как их решать;
  • Вводный курс в линейную алгебру от Высшей Школы Экономики на Coursera. По содержанию он очень близок к предыдущему, но укладывается в еще более сжатые сроки, без потери качества материала;
  • Advanced Linear algebra от Техасского университета. Погружает слушателя в самую суть линейной алгебры и ее прикладное применение (в компьютерных операциях). К сожалению, без должной математической подготовки и знания английского языка осилить его практически невозможно;
  •  Не курс, но учебное пособие от Туганбаева. Качество материала не страдает от легкого и понятного изложения, а обилие заданий помогает закрепить все на практике.

Математический анализ в data science

 Необходим, чтобы понимать, как работает machine learning, и уметь оптимизировать алгоритмы машинного обучения на будущем месте работы. Полезными будут следующие курсы:

  • Calculus 1 на Udemy – дает вводные знания по пределам и знакомит слушателя с базовыми приемами дифференцирования. Изложен на английском языке, поэтому знание языка и предметной терминологии обязательно.
  • Еще один курс от Udemy, но более глубокого уровня — Calculus 3. Очень длинный, но после прохождения принцип работы большей части machine learning алгоритмов, применяемых в data science, становится простым и понятным;
  • Хороший курс по введению в математический анализ на русском на платформе Stepik. Будет понятен даже тем, кто забыл университетский курс матанализа. Все дается в понятной форме и подкрепляется доказательствами;
  • Полный курс матанализа — в учебнике MIT. Рассчитан на студентов младших курсов, поэтому не очень сложен в освоении, но есть и минус — он полностью на английском.
обучение data science с нуля

Обучение data science с нуля – описательная статистика и теория вероятности

Статистические методы активно используются при анализе данных, поэтому крайне важны для успешного прохождения собеседования. Вот что поможет быстро их освоить:

  • Теория вероятности и математическая статистика от Бондаренко — полезный и содержательный учебник — его можно найти на Литрес. Главный плюс — разбор применения статистики в компьютерных науках и отдельное внимание, уделенное обработке данных. Русский язык;
  • Statistics for Data science and Business analysis — курс на Udemy, который не требует предварительных знаний, но при этом охватывает широкий спектр тем: от интерпретации и визуализации данных до их анализа. Сильная сторона – основы статистики разбираются максимально понятно, с помощью увлекательных примеров. Минус – отсутствие русских субтитров.
  • Математическая статистика на Stepik — курс, ориентированный на применение знаний и решение практических задач. Хоть и содержит 11 часов видеолекций, но этого как раз достаточно, чтобы познакомить слушателя с основными разделами математической статистики.
  • Курс от Skillfactory —  специально подготовлен для того, чтобы дать подробнейшее описание и рекомендации по применению математики в data science.

Языки программирования для data science – какие изучать? 

Чтобы стать экспертом по данным, не нужно быть гением, способным взломать Пентагон. Хватит базовых знаний, но к сожалению размер этой самой базы существенен. Итак, обучение data science с нуля и языки программирования.

Первое что приходит в голову — Python. При должной настойчивости можно проводить анализ данных и на Basic, но для более комфортной работы стоит освоить такие языки, как Python или R. Последний чаще всего применяется для статистического анализа и он немного сложнее в освоении, чем Python. Также он больше нацелен на получение научных, чем прикладных результатов. Процесс изучения обоих языков схож:

  • Тут есть подробная официальная документация по Python, к которой прибегают все программисты. Она будет полезна при изучении этого языка, но для ее понимания все же нужен опыт;
  • Вводный курс Как начать программировать на Python от Skillbox.  Это — краткий ликбез, после даже далекий от программирования сможет написать свою собственную программу;
  • Обучение R для начинающих от Нетологии. Этот курс поможет познакомиться с R и научиться применять его в Data Science с нуля;
  • Задания и материалы более высокого уровня есть на сайте, полностью посвященном языку R. Там можно найти все: от гайдов по специальным аспектам применения R, до обучений и подборок задач для новичков;
  • Русскоязычные курсы по Python на Geekbrains и Skillfactory;
  • Хороший курсы на Udemy: Python и R.

Работа с базами данных в data science – лучшие курсы

Базы данных бывают абсолютно разными. Правильно выбранное хранилище данных уже является большой частью успеха. Тому, кто планирует обучение data science с нуля, курсы по работе с SQL, NoSQL и Hadoop необходимы как воздух. 

  • Курс, обучающий работе с NoSQL в комбинации с Microsoft Azure. Этот курс объясняет не только основы NoSQL, но и учит обращаться с незаменимыми для обработки и хранения данных сервисами. Желательно уже быть знакомым с базами данных, тем что такое API и как его использовать;
  • Курс Введение в базы данных от ВШЭ на Stepik может похвастаться интересным и полезным содержанием. В этом курсе очень много теории с глубоким ее разбором, но недостаток практики. Лучше не начинать его, вообще ничего не понимая в базах данных;
  • Основы баз данных – очень короткий курс от GeekBrains (около 200 минут), который на живом примере — интернет-магазин — обучает созданию баз данных и синтаксису SQL. От курса не стоит ждать глубокого погружения в тему, но основные навыки для работы с базами данных он дает;
  • Data Engineering от Skillfactory – дает абсолютно все, что должен знать инженер данных. Обучение построено таким образом, чтобы дать как можно больше практических заданий, в итоге у слушателя уже будет собственный проект, который выгодно смотрится в резюме для вакансии в data science;
  • Интересный курс Аналитик данных на Python от Skillbox.

Ключевые библиотеки Python для Data Science

Data science в Python держится на трех китах (библиотеках): NumPy, Pandas и MatplotLib. Их необходимо знать для комфортной работы.

  • NumPy упрощает работу с многомерными массивами, позволяя без лишних проблем применять к ним высокоуровневые математические функции;
  • Pandas дает программисту возможность применять специальные структуры данных, которые делают работу с числовыми таблицами невероятно удобной;
  • MatplotLib — библиотека для визуализации данных. Она имеет все необходимое, чтобы отобразить результаты работы в двумерной графике. 

Лучший способ научиться работать с этими библиотеками — чтение документации и постоянная практика. Первые шаги к решению практических задач можно сделать, посмотрев какой-нибудь курс – например, от специалистов из университета Сан-Диего или другие: 

  • Python for Data Science на EDX объясняет, как пользоваться этими инструментами для анализа данных и дает несколько реальных кейсов для самостоятельного решения. Нужно быть уже знакомым с программированием на Python и английским для программистов;
  • Пост на GeekBrains с основами работы с NumPy. Это подойдет новичкам и тем, кто еще ни разу не работал с числовыми массивами и векторами, но планирует начинать обучение data science с нуля;
  • Data Analysis with Pandas and Python от Udemy — дает всю необходимую для работы с Pandas теорию. Из минусов курса можно отметить отсутствие субтитров на русском языке и недостаток примеров применения Pandas для решения реальных кейсов;
  • Applying plotting, charting and Data Representation in Python  на Coursera научит работе с Matplotlib и составлению отчетов. В лекциях большое внимание уделяется теоретической части составления графиков и отчетов, в то время, как задания даются с предположением о том, что участники курса уже профессионально владеют Python.

Парсинг информации в data science – как этому научиться? 

Чтобы анализировать данные, их нужно сначала добыть. Чаще всего data scientist должен самостоятельно искать данные в различных источниках, структурировать их и очищать. Базовым для этого может быть понимание того, как работает интернет, что такое запросы и как с ними обращаться. Дать это понимание могут: 

  • Python Requests Essentials — книга, прочтение которой не оставит белых пятен в понимании того, как работают запросы и как обрабатывать их в Python. Специально для тех, кто планирует обучение data science с нуля. Разобранные в этой книге примеры могут стать необходимой базой для будущих проектов, так как в них работа идет с реальными сайтами (facebook, reddit и т.д). Английский;
  • Python Scrapy tutorial на Udemy — один из самых полных курсов по фреймворку сбора данных Scrappy. В нем разобраны все нюансы и полезные “фишки”, но к сожалению нет русских субтитров;
  • Интересные статьи о парсинге с помощью Python для новичков на Skillfactory и сайте Нетологии

Самые важные библиотеки для применения machine learning в data science

Самый распространенный выбор — Scikit-learn. Создана для решения задач классического машинного обучения. Предоставляет широкий выбор алгоритмов обучения с учителем и без учителя. В ней реализованы многие инструменты для машинного обучения: объекты для классификации, регрессии, работы с наборами данных. Для изучения Scikit-learn можно использовать:

  •  Документацию с официального сайта. В ней есть ответы на все вопросы, которые могут возникнуть при использовании этой библиотеки;
  • Supervised Learning with scikit-learn — курс, разбирающий эту библиотеку буквально до мельчайших деталей. После него не должно оставаться непонятых аспектов, но начинать стоит, уже умея программировать на Python и имея познания в статистике;
  • Замечательные подборки курсов по Scikit-learn на Udemy и Coursera. Английский.

Актуальные фреймворки для создания нейронных сетей в data science

Не все задачи решаются с помощью нейронных сетей, но знать, что это такое и как их применять никогда не будет лишним, если вы хотите начать обучение data science с нуля. Речь в первую очередь про TensorFlow. Сегодня он является одним из основных инструментов для создания нейронных сетей. Это открытая программная библиотека для машинного обучения, разработанная компанией Google для решения задач построения и тренировки нейронной сети. Изучить можно здесь:

  •  Основы TensorFlow — серия вебинаров по Data Science от Geekbrains, по итогам которой можно создать первую нейронную сеть с нуля. Этого не хватит для того, чтобы заняться серьезными проектами, но это то, с чего можно начинать.

Работа с версиями в data science – где этому научиться

Все проекты реализуются большой командой, так можно отслеживать, кто и какие изменения вносил, работать совместно над одним документом и в случае неудачи вернуться к прошлой версии разработки. Для освоения этих навыков пригодятся ресурсы по работе с Git:

  • Pro Git — руководство о том, как работать с системой управления версиями Git. Эта книга отвечает на все ключевые вопросы и позволяет влиться в использование Git без проблем;
  • Основы работы с Git и GitHub от Udemy — видеоруководство на русском языке, которое за 3 часа на понятном языке объясняет все нюансы работы с Git и GitHub;
  • Введение в Git — более серьезный курс, который по своей сути, является быстрым пересказом самого важного из Git Pro. Основная сложность курса в том, что материал подается очень быстро, с расчетом на то, что у слушателя уже есть опыт работы с консолью и представление о контроле версий.
обучение data science с нуля

Комплексные курсы по специальности data science – нужны ли они?

Если не хочется ковыряться самостоятельно и тратить время на поиск и перевод литературы, можно пройти целый курс по специальности. Таковых накопилось множество – некоторые разобраны здесь. Сильные стороны комплексных курсов по data science:

  • Пройти один курс со всем необходимым материалом получится быстрее, чем проходить отдельно курсы, дающие необходимые навыки;
  • Такой курс решает все организационные вопросы, например, на нем не нужно самому выстраивать траекторию обучения;
  • Такие курсы обычно изучают на  реальных кейсах и они больше ориентированы на быстрое получение теоретических знаний и их моментальное применение на практике;
  • После таких курсов часто дают сертификат, подтверждающий наличие квалификации.

Обучение data science с нуля – лучшие курсы на русском

  •  Профессия Data Scientist — курс от Skillbox по data science, дающий навыки, необходимые для быстрой переквалификации. Использование реальных данных для обучения слушателей курса помогает лучше понять, что специалист по Data Science делает на рабочем месте, а возможность изучить одну из двух специализаций — анализ данных или машинное обучение — делает курс очень гибким;
  • Полный курс по Data Science от Skillfactory направлен на подготовку всех: начиная от новичков и заканчивая уже опытными программистами и аналитиками. По итогам курса участники будут иметь в портфолио несколько собственных проектов, готовых к выпуску в продакшн;
  •   Факультет искусственного интеллекта GeekBrains ориентирован на обучение с последующим решением проектных задач, с которыми работают специалисты из МегаФон. По итогам этого курса возможно трудоустройство;
  • Курс по переподготовки для профессии Data Scientist от Нетологии дает необходимую базу для Data Science и знакомит с применением этой науки во многих прикладных аспектах (компьютерное зрение, обработка естественного языка и т.д). По итогу курса все участники попробуют себя в масштабном хакатоне по кейсам от крупных компаний, а вдобавок к этому, смогут реализовать свой собственный проект с нуля.  
обучение data science с нуля

Книги по data science для самостоятельного обучения с нуля

Книги по data science – хорошая штука, они дают информацию в понятном виде и могут быть скачаны абсолютно бесплатно. Но не все воспринимают информацию из книг хорошо. Еще один недостаток — технический прогресс, быстро делающий книгу неактуальной.

Кроме упомянутых ранее полезными могут быть: 

  • “Основы Data science и Big data” (можно купить на Читай Городе); 
  • “Data Science. Наука о данных с нуля” (есть на Литрес). 

В обеих описаны основные инструменты для работы с данными и разобраны настоящие задачи, которые уже можно будет положить в портфолио и использовать, откликаясь на вакансии в Data Science. Не забывайте об обучающих блогах:

Заключение

Data science — невероятно перспективное направление, но при этом очень сложное для освоения. Чтобы попасть в эту сферу и удержаться в ней, мало просто получить знания. Их нужно постоянно подкреплять практикой и как можно чаще освежать. Лучшая стратегия для этого — совместить самообучение со специальными курсами. Более глубокое понимание можно приобрести благодаря практике и самостоятельному изучению этой сферы.

Читайте дальше:

Наши подборки лайфхаков для продуктивности

Обзоры приложений для карьеры и бизнеса

Рецензии на книги о саморазвитии и продуктивности

Статьи о научном подходе к спорту и здоровому образу жизни

Правила продуктивного отдыха

Оставьте ответ