Академический Документы
Профессиональный Документы
Культура Документы
начинающих
Jupyter Notebook — это мощный инструмент для разработки и представления проектов Data
Science в интерактивном виде. Он объединяет код и вывод все в виде одного документа,
содержащего текст, математические уравнения и визуализации.
Этот материал предназначен для новичков, которые только знакомятся с Jupyter Notebook, и
охватывает все этапы работы с ним: установку, азы использования и процесс создания
интерактивного проекта Data Science.
Чтобы начать работать с Jupyter Notebook, библиотеку Jupyter необходимо установить для Python.
Проще всего это сделать с помощью pip:
pip3 install jupyter
jupyter notebook
Это запустит сервер Jupyter, а браузер откроет новую вкладку со следующим URL:
https://localhost:8888/tree. Она будет выглядеть приблизительно вот так:
Отлично. Сервер Jupyter работает. Теперь пришло время создать первый notebook и заполнять его
кодом.
Для создания notebook выберите «New» в верхнем меню, а потом «Python 3». Теперь страница в
браузере будет выглядеть вот так:
Обратите внимание на то, что в верхней части страницы, рядом с логотипом Jupyter, есть
надпись Untitled — это название notebook. Его лучше поменять на что-то более понятное. Просто
наведите мышью и кликните по тексту. Теперь можно выбрать новое название. Например, George's
Notebook.
Также обратите внимание на то, что In [] изменилась и вместе нее теперь In [1]. Число в скобках
означает порядок, в котором эта ячейка будет запущена. В первой цифра 1, потому что она была
первой запущенной ячейкой. Каждую ячейку можно запускать индивидуально и цифры в скобках
будут менять соответственно.
Если есть несколько ячеек, то между ними можно делиться переменными и импортами. Это
позволяет проще разбивать весь код на связанные блоки, не создавая переменную каждый раз.
Главное убедиться в запуске ячеек в правильном порядке, чтобы переменные не использовались до
того, как были созданы.
Добавление описания к notebook
Первым делом нужно поменять тип ячейки. Нажмите на выпадающее меню с текстом «Code» и
выберите «Markdown». Это поменяет тип ячейки.
Попробуем несколько вариантов. Заголовки можно создавать с помощью символа #. Один такой
символ создаст самый крупный заголовок верхнего уровня. Чем больше #, тем меньше будет текст.
Сделать текст курсивным можно с помощью символов * с двух сторон текста. Если с каждой стороны
добавить по два *, то текст станет полужирным. Список создается с помощью тире и пробела для
каждого пункта.
Соорудим простой пример проекта Data Science. Этот notebook и код взяты из реального проекта.
Начнем с ячейки Markdown с самым крупным текстом, который делается с помощью одного #. Затем
список и описание всех библиотек, которые необходимо импортировать.
Следом идет первая ячейка, в которой происходит импорт библиотек. Это стандартный код для
Python Data Science с одним исключение: чтобы прямо видеть визуализации Matplotlib в notebook,
нужна следующая строчка: %matplotlib inline.
Следом нужно импортировать набор данных из файла CSV и вывести первые 10 пунктов. Обратите
внимание, как Jupyter автоматически показывает вывод функции .head() в виде таблицы. Jupyter
отлично работает с библиотекой Pandas!
Теперь нарисуем диаграмму прямо в notebook. Поскольку наверху есть строка %matplotlib inline,
при написании plt.show() диаграмма будет выводиться в notebook!
Также обратите внимание на то, как переменные из предыдущих ячеек, содержащие данные из CSV-
файла, используются в последующих ячейках в том случае, если по отношению к первым была
нажата кнопка «Run».
Это простейший способ создания интерактивного проекта Data Science!
Меню
На сервере Jupyter есть несколько меню, с помощью которых от проекта можно получить максимум.
С их помощью можно взаимодействовать с notebook, читать документацию популярных библиотек
Python и экспортировать проект для последующей демонстрации.
Редактировать (Edit): используется, чтобы вырезать, копировать и вставлять код. Здесь же можно
поменять порядок ячеек, что понадобится для демонстрации проекта.
Вид (View): здесь можно настроить способ отображения номеров строк и панель инструментов.
Самый примечательный пункт — Cell Toolbar, к каждой ячейке можно добавлять теги, заметки и
другие приложения. Можно даже выбрать способ форматирования для ячейки, что потребуется для
использования notebook в презентации.
Ячейка (Cell): отсюда можно запускать ячейки в определенном порядке или менять их тип.
Помощь (Help): в этом разделе можно получить доступ к важной документации. Здесь же
упоминаются горячие клавиши для ускорения процесса работы. Наконец, тут можно найти ссылки на
документацию для самых важных библиотек Python: Numpy, Scipy, Matplotlib и Pandas.