Как научиться науке о данных (Data Science)

И при этом не заплатив 150,000 рублей

Posted by snakers41 on May 28, 2017

Остап Бендер как нельзя кстати для такой статьи


Продолжая тему статей про самообразование и то, как не попасться на хайп, разводку и недобросовестных учителей хотел бы поделиться своим опытом практического общения со сферой Data Science в России как немного с точки зрения практики, так и немного с точки зрения доступного образования в этой сфере.

Как известно, один хайп и "распил" в обществе заменяет другой, в частности в России в этой роли уже послужили электронная коммерция, интернет-стартапы, SaaS-сервисы, Сколково, "Big Data". Теперь по модной традиции следования за Америкой пришла очередь AI и науки о данных.

К написанию этой статьи меня подтолкнуло то, что не только меня, но и еще одного автора нашего канала попытались развести на деньги недобросовестные "специалисты".

Для начала про применимость современных методов в бизнесе. Из того с чем столкнулся:

  1. 90% работы человека, исследующего данные, на практике это получение этих самых данных. В реальности это означает, что вам либо придется развивать эту компетенцию внутри существующей относительно крупной компании, или довольствоваться выполнением "поручений"  если таковая функция уже там создана;
  2. В реальности я видел только 2 реальные организации, которые частично или как бизнес занимаются подобным. Вот примеры - несколько специалистов в сфере машинного зрения достаточно длительное время делают проекты на фрилансе (их блог и сайт) и компания Double Data, которую пытается засудить ВК. Все остальное с чем сталкивался или совсем местечковое, или связано с государством / Mail.ru / Яндексом с вытекающими последствиями;
  3. Хм, если люди с научными степенями, десятками статей на Хабре и опытом в CV смогли только сделать для себя фриланс, то может это о чем-то говорит? =)


Потом несколько вопиющих случаев из сферы образования / медиа:

  1. Я видел уже 2 примера (!), когда компании (не буду называть имена, но первая - noname, а вторая уже нет...) предлагают курсы за 150,000 рублей с сырой программой и непонятными преподавателями. Особенно нравится подход из разряда "вы должны внести предоплату до завтра" и "в процессе курса будут хакатоны для уточнения программы". На мой язык это переводится так - люди скопипастили курсы с Курсеры и хотят найти джунов, которые им еще и программу сделают;
  2. Есть отличный открытый курс от Санкт-Петербургского сообщества open-data-science, но...тем, кто сделал хоть какие-то домашние задания предложили сходить в Mail.ru на собеседование на позицию джуна. Вроде как все классно, но на самом деле нет;
  3. Тематические сообщества и чаты как правило состоят на 90% из студентов (open data science скорее исключение в лучшую сторону), а их администраторами являются какие-то странные люди, далекие от реальности. Причем за любое выражение своего мнения все в таких обществах банятся, а администраторы начинают вымогать 500-1,500 (от фазы луны и наглости) за 1 "рекламный" пост. Мол если я бесплатно написал статью, чтобы поделиться интересным, я за это еще и должен платить;
  4. Реальный пример реального проекта от "сообщества разработчиков в сфере ML / AI / CV / чатботов (нужное подчеркнуть): i) берется датасет из 50 (!) фотографий банок пива и ii) на 50 фото делается "компьютерное зрение" для большой пивной компании с бюджетом в 30 т.р.. Я понимаю, что есть методы RL, где научиться можно на 1 фото, но  они как бы уже совсем state-of-the-art и обычно, чтобы научить классификатор нужна хотя бы пара тысяч фоток. Сам администратор такого общества, естественно, понимает, что это треш, но желания пояснить заказчикам, что такой проект с приложением, разметкой, парсингом, сборкой итд итп может стоит US$3-5k - естественно нет - джуны сделают и за 10 т.р.;


Чтобы не быть голословным ситуацию нужно как-то исправлять, а не сидеть сложа руки, пока недобросовестные люди пытаются нажиться на Хайпе. По этой причине хочу опубликовать свой список ЛУЧШИХ В МИРЕ курсов по Data Science во всех различных его проявлениях, которые я вручную просеивал, разбивал на категории и значительную часть которых я просмотрел хотя бы в обзорном формате (а некоторые совсем не в обзорном). Несколько основных моментов:

  • Курсы сгруппированы по тематикам и уровню (все, что не "основы" типа более продвинутое);
  • Курсам проставлена оценка полезности от 0 до 10. Обратите внимание, что есть курсы с оценкой 99 - это значит, что они на порядок полезнее всего остального и вообще must have;
  • У каждого курса есть мой персональный комментарий (вы можете найти мою почту или телеграм если есть вопросы);


Список курсов есть в виде:

  1. Гугл таблицы в публичном доступе (обновляется мной);
  2. Онлайн таблицы в виде динамической  JS-таблицы с поиском, экспортом и сортировкой;
  3. Простой, необновляемой таблицы в конце данной статьи;
  4. По идее надо сделать репозиторий, который я когда-либо заполню (обновляться не будет);


Если хотите сказать спасибо - вам сюда в описание канала.

title course_score course_type course_added course_comment
Python cheatsheet link 99 Основы 10.05.2017 Полезные команды в 1 месте
Matplotlib cheatsheet link 99 Основы 10.05.2017 Полезные команды в 1 месте
Pandas cheat sheet link 99 Основы 10.05.2017 Полезные команды в 1 месте
Книга про нейросети. Просто идеальное образование link 99 Нейросети 04.05.2017 Книга про нейросети. Просто идеальное образование
Курс Andrew Ng на питоне link 99 Основы 30.03.2017 Упражнения на питоне к курсу Andew Ng + jp notebooks с best practices
Data science in python - Michigan link 99 Основы 31.05.2017 Основы про ML на питоне
Лучший курс про ML на Coursera link 99 Классика 01.02.2017 (sic) Лучший курс в интернете, но там Matlab / Octave
Practical Deep Learning For Coders link 99 Справочник 01.02.2017 Рецепты для применения deep learning в реальной жизни - прикладные примеры на питоне от победителей Kaggle. Курс просто идеален.
Сверточные нейросети от Стенфорда link 11 Нейросети 01.04.2017 Сверточные нейросети от Стенфорда - по идее после id = 27
Отличный курс про питон и ML link 11 Основы 01.02.2017 Идельная подача материала, автоматические грейдеры, питон
Отличная статья про PCA link 10 Основы 19.05.2017 Метод главных компонент в питоне
Блог про применение питона в бизнесе link 10 Основы 19.05.2017 Просто, четко и понятно
Animated math link 10 Основы 22.04.2017 Красивые визуализации для простых математических понятий
Tmux cheatsheet link 10 Основы 30.03.2017 Команды для tmux - по сути два окна в консоли (заменяет две консоли)
Регрессионный анализ - курс на хабре link 10 Основы 21.03.2017 Отличные примеры, качественная подача материала
Классификация, деревья решений и метод ближайших соседей link 10 Основы 14.03.2017 Отличные примеры, качественная подача материала
Сборник материалов по ML link 10 Справочник 01.02.2017 Репо в гите - дох...я
Сборник материалов по ML link 10 Справочник 01.02.2017 Репо в гите - дох...я
Полезные команды pandas link 10 Основы 01.02.2017 Список полезных команд и суть (без копчи)
Лучшая визуализация методов градиентного спуска link 10 Алгоритмы 01.02.2017 Cream of the crop
Примеры кода для визуализации на питоне link 10 Визуализация 01.02.2017 Отличные примеры, качественная подача материала
Learning how to learn 10 Основы 01.06.2017 Как учиться учиться?
Обзор алгоритмов оптимизации link 10 Алгоритмы 01.02.2017 Cream of the crop
Лучшая презентация про semi-supervised link 10 Semi-SL 01.02.2017 По сути на 2017-03 единственный в инете с математикой и бесплатный на адекватном языке
Настройка Ubuntu и GPU для тренировки нейросетей link 9 Нейросети 30.03.2017 Просто настройка вашей видюхи и установка Ubuntu, чтобы не арендовать сервера
Настройка Ubuntu и GPU для тренировки нейросетей link 9 Нейросети 30.03.2017 Просто настройка вашей видюхи и установка Ubuntu, чтобы не арендовать сервера
Настройка Ubuntu и GPU для тренировки нейросетей link 9 Нейросети 30.03.2017 Просто настройка вашей видюхи и установка Ubuntu, чтобы не арендовать сервера
Бойлерплейт по визуализации на питоне link 9 Визуализация 29.03.2017 Просто одно и тоже 2 методами, программный сахар, быстро и удобно
Курс ML на хабре link 9 Основы 29.03.2017 Отличные примеры, качественная подача материала
Практические советы по системам ML link 9 Пайплайн построения систем 20.03.2017 Список реальных проблем при использовании методов ML (без кода)
Советы от Гугла по построени систем ML link 9 Пайплайн построения систем 20.03.2017 Длинная статья про практические советы от Гугла про БИЗНЕС ML системы (без кода)
Must read kernel on kaggle link 9 Основы 01.02.2017 Прогнали все типы регрессий
Postgres - админство link 8 Postgres 19.05.2017 Для продвинутых как админить постгрес
Сайт специалиста в области link 8 Блоги 14.03.2017 Уклон в теорию, но все труЪ
Блог специалиста в области link 8 Блоги 14.03.2017 Уклон в теорию, но все труЪ
Machine Learning Cheat Sheet link 8 Справочник 01.02.2017 Книга на 100 страниц из разряда "быстро посмотреть основные абстракции" с рубрикатором
Реестр открытых данных NYC link 8 Данные 01.02.2017 По аналогии есть данные США. Очень просто искать и много данных.
Галерея хобби проектов в сфере ML DS link 7 Справочник 01.02.2017 Народ посмотреть и себя показать (?)
Сводные таблицы на питоне link 7 Основы 01.02.2017 Быстро получить готовый код аналогичный сводной таблице Excel
Join-ы больших таблиц в pandas с условиями внутри join - link 7 Основы 01.02.2017 Join-ы больших таблиц в pandas с условиями внутри join
Must-read kernel на kaggle link 7 Основы 01.02.2017 I have made all efforts to document each and every step involved in the prediction process so that this notebook acts as a good starting point for new Kagglers and new machine learning enthusiasts.
Курс Вышки по ML link 6 Основы 29.03.2017 Вышка все таки
Визуализация в Питоне (курс) link 6 Визуализация 01.02.2017 Задания платные, лекции интересные, задания скорее развлекательного характера, в конце есть хороший бойлерплейт стыренный с каггла
Прикладной код на питоне по основным задачам ML link 6 Визуализация 01.02.2017 По сути применение основ ML на примерах с пояснениями в питоне
Список открытых данных РФ link 6 Данные 01.02.2017 Статистика, в основном мало или "воздушные данные", мяска маловато
Реестр открытых данных Москвы link 5 Данные 01.02.2017 Легко скачать, удобный рубрикатор, но такое ощущение, что данных по известным мне датасетам на порядок меньше реального
iPython magic link 5 Основы 01.02.2017 Мета-команнды для jp-notebooks
Starter-код для детекции аномалий link 5 Основы 01.02.2017 Быстро заюзать самые простые и наглядные алгоритмы
Интересный список благих намерений link 4 Основы 01.02.2017 Вероятно заработок на джунах
Открыте данные РФ link 4 Данные 01.02.2017 Статистика, в основном мало или "воздушные данные", мяска маловато
Росстат и его организации link 3 Данные 01.02.2017 Гуглится, но тяжело вытаскивать данные.
Binning data link 3 Основы 01.02.2017 Данные по персентилям, пример кода
Курс про машины с автопилотом link 1 Авто 01.02.2017 Круто в теории, но читать в последнюю очередь
Hadoop tutorial link 0 Big Data 20.04.2017 Хадуп
Курс про RL от Berkeley link 0 RL 30.03.2017 Еще один западный курс
Курс про RL от Яндекса link 0 RL 30.03.2017 Практический курс от яндекса на основе курса №39
Reddit про ML link 0 Формуы 30.03.2017 Reddit про ML
Курс про tensorflow от стенфорда link 0 Нейросети 20.03.2017 Пока нет оценки
Курс ВМК про ML c примерами link 0 Основы 14.03.2017 Надо внимательнее прочитать notebooks / проверить - оценка может измениться
Лучший курс про RL (reinforcement learning) link 0 RL 01.02.2017 По сути на 2017-03 единственный в инете с математикой и бесплатный
Рекуррентные нейросети link 0 Продвинутые нейросети 20.04.2017 Рекуррентные нейросети
MapReduce и майнинг огромных датасетов link 0 Big Data 20.04.2017 MapReduce и майнинг огромных датасетов


Как-то так.

Если хотите сказать спасибо - вам сюда в описание канала.