Вы находитесь на странице: 1из 6

Руководство по Jupyter Notebook для

начинающих
Jupyter Notebook — это мощный инструмент для разработки и представления проектов Data
Science в интерактивном виде. Он объединяет код и вывод все в виде одного документа,
содержащего текст, математические уравнения и визуализации.

Такой пошаговый подход обеспечивает быстрый, последовательный процесс разработки, поскольку


вывод для каждого блока показывается сразу же. Именно поэтому инструмент стал настолько
популярным в среде Data Science за последнее время. Большая часть Kaggle Kernels (работы
участников конкурсов на платформе Kaggle) сегодня созданы с помощью Jupyter Notebook.

Этот материал предназначен для новичков, которые только знакомятся с Jupyter Notebook, и
охватывает все этапы работы с ним: установку, азы использования и процесс создания
интерактивного проекта Data Science.

Настройка Jupyter Notebook

Чтобы начать работать с Jupyter Notebook, библиотеку Jupyter необходимо установить для Python.
Проще всего это сделать с помощью pip:
pip3 install jupyter

Лучше использовать pip3, потому что pip2 работает с Python 2, поддержка которого прекратится


уже 1 января 2020 года.

Теперь нужно разобраться с тем, как пользоваться библиотекой. С помощью команды cd в


командной строке (в Linux и Mac) в первую очередь нужно переместиться в папку, в которой вы
планируете работать. Затем запустите Jupyter с помощью следующей команды:

jupyter notebook

Это запустит сервер Jupyter, а браузер откроет новую вкладку со следующим URL:
https://localhost:8888/tree. Она будет выглядеть приблизительно вот так:

Отлично. Сервер Jupyter работает. Теперь пришло время создать первый notebook и заполнять его
кодом.

Основы Jupyter Notebook

Для создания notebook выберите «New» в верхнем меню, а потом «Python 3». Теперь страница в
браузере будет выглядеть вот так:

Обратите внимание на то, что в верхней части страницы, рядом с логотипом Jupyter, есть
надпись Untitled — это название notebook. Его лучше поменять на что-то более понятное. Просто
наведите мышью и кликните по тексту. Теперь можно выбрать новое название. Например, George's
Notebook.

Теперь напишем какой-нибудь код!


Перед первой строкой написано In []. Это ключевое слово значит, что дальше будет ввод.
Попробуйте написать простое выражение вывода. Не забывайте, что нужно
пользоваться синтаксисом Python 3. После этого нажмите «Run».

Вывод должен отобразиться прямо в notebook. Это и позволяет заниматься программированием в


интерактивном формате, имея возможность отслеживать вывод каждого шага.

Также обратите внимание на то, что In [] изменилась и вместе нее теперь In [1]. Число в скобках
означает порядок, в котором эта ячейка будет запущена. В первой цифра 1, потому что она была
первой запущенной ячейкой. Каждую ячейку можно запускать индивидуально и цифры в скобках
будут менять соответственно.

Рассмотрим пример. Настроим 2 ячейки, в каждой из которых будет разное выражение print.


Сперва запустим вторую, а потом первую. Можно увидеть, как в результате цифры в скобках
меняются.

Если есть несколько ячеек, то между ними можно делиться переменными и импортами. Это
позволяет проще разбивать весь код на связанные блоки, не создавая переменную каждый раз.
Главное убедиться в запуске ячеек в правильном порядке, чтобы переменные не использовались до
того, как были созданы.
Добавление описания к notebook

В Jupyter Notebook есть несколько инструментов, используемых для добавления описания. С их


помощью можно не только оставлять комментарии, но также добавлять заголовки, списки и
форматировать текст. Это делается с помощью Markdown.

Первым делом нужно поменять тип ячейки. Нажмите на выпадающее меню с текстом «Code» и
выберите «Markdown». Это поменяет тип ячейки.

Попробуем несколько вариантов. Заголовки можно создавать с помощью символа #. Один такой
символ создаст самый крупный заголовок верхнего уровня. Чем больше #, тем меньше будет текст.

Сделать текст курсивным можно с помощью символов * с двух сторон текста. Если с каждой стороны
добавить по два *, то текст станет полужирным. Список создается с помощью тире и пробела для
каждого пункта.

Интерактивная наука о данных

Соорудим простой пример проекта Data Science. Этот notebook и код взяты из реального проекта.

Начнем с ячейки Markdown с самым крупным текстом, который делается с помощью одного #. Затем
список и описание всех библиотек, которые необходимо импортировать.

Следом идет первая ячейка, в которой происходит импорт библиотек. Это стандартный код для
Python Data Science с одним исключение: чтобы прямо видеть визуализации Matplotlib в notebook,
нужна следующая строчка: %matplotlib inline.
Следом нужно импортировать набор данных из файла CSV и вывести первые 10 пунктов. Обратите
внимание, как Jupyter автоматически показывает вывод функции .head() в виде таблицы. Jupyter
отлично работает с библиотекой Pandas!

Теперь нарисуем диаграмму прямо в notebook. Поскольку наверху есть строка %matplotlib inline,
при написании plt.show() диаграмма будет выводиться в notebook!

Также обратите внимание на то, как переменные из предыдущих ячеек, содержащие данные из CSV-
файла, используются в последующих ячейках в том случае, если по отношению к первым была
нажата кнопка «Run».
Это простейший способ создания интерактивного проекта Data Science!

Меню

На сервере Jupyter есть несколько меню, с помощью которых от проекта можно получить максимум.
С их помощью можно взаимодействовать с notebook, читать документацию популярных библиотек
Python и экспортировать проект для последующей демонстрации.

Файл (File): отвечает за создание, копирование, переименование и сохранение notebook в файл.


Самый важный пункт в этом разделе — выпадающее меню Download, с помощью которого можно
скачать notebook в разных форматах, включая pdf, html и slides для презентаций.

Редактировать (Edit): используется, чтобы вырезать, копировать и вставлять код. Здесь же можно
поменять порядок ячеек, что понадобится для демонстрации проекта.

Вид (View): здесь можно настроить способ отображения номеров строк и панель инструментов.
Самый примечательный пункт — Cell Toolbar, к каждой ячейке можно добавлять теги, заметки и
другие приложения. Можно даже выбрать способ форматирования для ячейки, что потребуется для
использования notebook в презентации.

Вставить (Insert): для добавления ячеек перед или после выбранной.

Ячейка (Cell): отсюда можно запускать ячейки в определенном порядке или менять их тип.

Помощь (Help): в этом разделе можно получить доступ к важной документации. Здесь же
упоминаются горячие клавиши для ускорения процесса работы. Наконец, тут можно найти ссылки на
документацию для самых важных библиотек Python: Numpy, Scipy, Matplotlib и Pandas.

Вам также может понравиться