Вы находитесь на странице: 1из 46

Чтение и запись данных

Андрей Мещеряков
Data Scientist в EPAM
План модуля

• Что такое данные


• Чтение и запись данных в формате CSV
• Форматирование дат
• Чтение и запись данных в формате XLSX
• Домашнее задание
Что такое данные
Данные – это цифровой след деятельности человека или машины
Что такое данные
Неструктурированные данные – это данные в своей исходной форме
Что такое данные
Структурированные данные – это данные с четко заданной структурой (схемой)
Свойства данных

Структурированные Неструктурированные
данные данные
Свойства данных
Свойства данных
Свойства данных
Свойства данных
Свойства данных
Свойства данных
Свойства данных
Свойства данных
Свойства данных

Структурированные Неструктурированные
данные данные
Инструменты обработки данных

Для обработки почти любых структурированных данных достаточно двух инструментов:

• pandas
• SQL
Средства хранения данных
Выводы

• Данные бывают структурированные и неструктурированные


• Структурированные данные проще обрабатывать, чем неструктурированные
• Неструктурированные данные можно привести к структурированным, и наоборот
• Для хранения данных используются файлы разных форматов
Спасибо за внимание!
Чтение файлов в формате CSV

Андрей Мещеряков
Data Scientist в EPAM
План урока

• Что такое формат CSV


• Почему CSV – наиболее популярный формат табличных данных
• Как прочитать файл CSV
• Важные особенности формата CSV
Что такое формат CSV
CSV (comma-separated values; значения, разделенные запятыми) – текстовый формат,
позволяющий хранить табличные данные
Что такое формат CSV
Скринкаст
Почему CSV – наиболее популярный
формат табличных данных

• Легко читается людьми


• Содержит структурированные данные
• Поддерживается почти всеми системами хранения данных
Что такое формат CSV
Скринкаст
Выводы

• CSV – текстовый формат, позволяющий хранить табличные данные


• CSV поддерживается почти всеми системами хранения данных
• При чтении файла CSV важно правильно указать разделитель и название индекса
Спасибо за внимание!
Запись файлов в формате CSV

Андрей Мещеряков
Data Scientist в EPAM
План урока

• Демонстрация практического задания к предыдущему уроку


• Сохранение данных в файл CSV
• Указание дополнительных атрибутов при сохранении данных
Выводы

• Для сохранения DataFrame в файле формата CSV используется метод to_csv()


• При сохранении файла CSV можно указать разделитель и название индекса
Спасибо за внимание!
Форматирование дат

Андрей Мещеряков
Data Scientist в EPAM
План урока

• Демонстрация практического задания к предыдущему уроку


• Важность проблемы форматирования дат
• Самые частые форматы дат
• Использование pandas для форматирования данных
Форматы дат
Скринкаст
Проблема форматирования дат
Проблема форматирования дат

22.04.2006

2006.04.22

04/22/2006

04.22.2006
Проблема форматирования дат
11/08/12 – ?
Стандартный формат дат
11/08/12 – ?
Стандарт ISO 8601: предписывает записывать даты в следующем виде: 2012-08-11
Форматирование дат в pandas
Существует особый тип данных datetime, позволяющий хранить в нем даты.

Благодаря отдельному типу можно легко производить операции над датами


Выводы

• Существует множество форматов дат, из-за этого при обработке данных


может возникнуть путаница
• Существует стандарт записи дат
• pandas содержит специальный тип для работы с данными
• При чтении файлов CSV можно указать названия столбцов, содержащих даты,
для их приведения к стандарту
Спасибо за внимание!
Чтение и запись файлов в
формате XLSX

Андрей Мещеряков
Data Scientist в EPAM
План урока

• Демонстрация практического задания к предыдущему уроку


• Что такое формат XLSX
• Чем XLSX отличается от CSV
• Как читать файлы формата XLSX
• Как записывать файлы формата XLSX
Что такое формат XLSX
XLSX – бинарный формат хранения данных Excel

Некоторые особенности формата XLSX:

• Несколько таблиц в одном файле


• Форматирование и объединение ячеек
• Формулы для автоматического вычисления значений ячеек
Выводы

• Данные можно разделить на структурированные и неструктурированные


• Формат CSV наиболее популярен и поддерживается почти всеми системами хранения данных
• Формат XLSX представляет больше возможностей, но используется реже
• Даты могут записаны в разных форматах, и при работе с ними важно привести их к стандарту
Спасибо за внимание!

Вам также может понравиться