Машинное обучение для больших объемов данных
Спринт 9. Машинное обучение в бизнесе
Узнаете, как машинное обучение (МО) помогает бизнесу, как собирать данные и как продуктовые метрики связаны с показателями МО. Научитесь запускать новую функциональность сервиса, применяя МО. Узнаете, что такое бизнес-метрики, KPI и A/B-тестирование.
Спринт 10. Базовый SQL
Изучите основы структурированного языка запросов SQL и операции реляционной алгебры. Познакомитесь с PostgreSQL — популярной системой управления базами данных (СУБД). Научитесь писать запросы разного уровня сложности и переводить бизнес-задачи на язык SQL.
Спринт 11. Командная строка и Git
Научитесь пользоваться командной строкой — интерфейсом, благодаря которому разработчики управляют компьютером и выполняют действия, вводя текстовые команды с клавиатуры. Разберётесь с Git — распределённой системой контроля версий, которая помогает хранить информацию о всех изменениях в вашем коде, а также упрощает командную работу над проектом.
Спринт 12. Мастерская
Мастерская — это возможность попрактиковаться в решении задач по машинному обучению. В этом спринте вы либо поработаете над проектом от реального заказчика, либо поучаствуете в соревнованиях на Kaggle.
Kaggle — это популярный сервис конкурсов по исследованию данных и машинному обучению. Тысячи специалистов по Data Science со всего света участвуют в соревнованиях Kaggle, чтобы получить опыт и награды. Работа с заказчиками и участие в соревнованиях дают преимущество при трудоустройстве, ведь эти проекты пойдут в ваше портфолио.
Спринт 13. Системы обработки больших данных
Познакомитесь с PySpark — Python-фреймворком Apache Spark, который представляет собой систему с открытым исходным кодом, применяемую для распределённой обработки больших данных.
Узнаете про концепцию обработки MapReduce: большие данные распределяют между кластерами и обрабатывают параллельно, а потом собирают результаты вместе.