Вы находитесь на странице: 1из 14

ЭКОНОМИКА ЗНАНИЙ: ТЕОРИЯ И ПРАКТИКА. 2017.

№1

УДК 004.65
А. С. Панфёрова
Магистрант, НИУ «Высшая школа экономики»
г. Москва, РФ
E-mail: improve-yourself@mail.ru

БОЛЬШИЕ ДАННЫЕ В НЕФТЕГАЗОВОЙ ОТРАСЛИ РФ

Аннотация. В данной статье рассмотрены Большие данные в нефтегазовой


отрасли: даны определение, рассмотрены характеристики и области
использования. Рассмотрены основные этапы работы с Большими данными
на предприятии. Рассмотрены основные категории игроков технологического
рынка; представлен сравнительный анализ инструментов BI. Проведен
анализ данных нефтегазовой отрасли РФ с использованием лидирующего по
результатам сравнительного анализа инструмента.
Ключевые слова: большие данные, нефтегазовая отрасль, аналитика,
обработка, хранение, анализ, внедрение.

Цифровые технологии представлены во всех областях человеческой


жизни. Объем данных в хранилищах растет каждую секунду по всему миру.
Поэтому необходимы срочные изменения условий хранения информации
пропорционально росту хранилищ данных, а также необходимо создать
новые возможности для увеличения объема собираемых данных.
«Big Data» - это наиболее быстро растущая область информационных
технологий. Согласно исследованиям Digital Universe IDC, в ближайшие три
года объем данных на планете вырастет до 44 зеттабайт. Кроме того, к 2020
году на каждого человека на Земле будет приходиться 5200 ГБ данных.
Согласно статистике, общая сумма полученных и сохраненных данных
удваивается каждые 1,2 года [1].

52
ЭКОНОМИКА ЗНАНИЙ: ТЕОРИЯ И ПРАКТИКА. 2017. №1

Объем данных, которые ежемесячно передаются мобильными сетями,


за период с 2012 по 2014 год увеличился на 81%. По данным Cisco, в 2014
году объем мобильного трафика составил 2,5 эксабайта (единица
информации, составляющего 10^18 байт) в месяц, а в 2019 году он будет
равен 24,3 эксабайта. Кроме того, к 2020 году начнет функционировать 50
миллиардов интеллектуальных устройств [2]. Гаджеты будут собирать,
анализировать и передавать информацию.
Необходимо отметить, что основной поток информации генерируется
не людьми. Источником являются автоматизированные системы или роботы,
которые постоянно взаимодействуют друг с другом. Существуют
контрольные устройства, датчики, системы наблюдения, операционные
системы для персональных устройств, смартфоны, интеллектуальные
системы, сенсоры, которые собирают данные.
В соответствии с Gartner, Big Data (большие данные) - это обширные
информационные ресурсы, которые обеспечивают экономичные и
инновационные формы обработки информации для более глубокого
понимания и принятия решений [3].
SAS: Большие данные - это термин, который описывает большой объем
данных - как структурированных, так и неструктурированных - которые
пополняют бизнес-среду ежедневно [4].
McKinsey: «Большие данные касаются наборов данных, размер которых
превосходит возможности типичных программных инструментов базы
данных для сбора, хранения, управления и анализа» [5].
Объем больших данных характеризуется следующими
характеристиками (5V):
- Volume - размер накопленной базы данных представляет собой
большой объем информации, которая трудоемка для обработки и хранения
традиционными способами, для чего требуется новый подход и продвинутые
инструменты.

53
ЭКОНОМИКА ЗНАНИЙ: ТЕОРИЯ И ПРАКТИКА. 2017. №1

-Velocity - скорость изменения, указывает на возрастающую скорость


накопления данных и скорость обработки данных.
-Variety - возможность одновременной обработки, структурированной
и неструктурированной многоформатной информации, а также различные
способы анализа данных. Основное различие между структурированной
информацией заключается в том, что ее можно классифицировать. Примером
такой информации может быть информация о транзакциях клиентов.
Неструктурированная информация включает видео, аудиофайлы, текст и
информацию из социальных сетей. В настоящее время 80% информации
является частью неструктурированной группы. Эта информация требует
всестороннего анализа, чтобы сделать ее полезной для дальнейшей
обработки.
-Veracity - надежность данных (надежность доступных данных
становится все более значимой для пользователей). Например, у интернет-
компаний есть проблемы с совместными действиями на веб-сайте компании,
выполняемыми роботом и человеком, что в конечном итоге приводит к
трудностям при анализе данных.
-Value - это ценность и качество накопленной информации. Большие
данные должны быть полезны для компании и принести ей некоторую
ценность. Например, управление бизнес-процессами, отчетность или
оптимизация затрат.
Область использования технологий больших данных обширна. На
основе анализа реальных примеров выявлены и представлены основные
случаи использования больших данных:
1. Оптимизация потоков;
2. Отраслевая специфика;
3. Сегментация клиентов;
4. Анализ рынка и оптимизация цен;
5. Прогнозирование;

54
ЭКОНОМИКА ЗНАНИЙ: ТЕОРИЯ И ПРАКТИКА. 2017. №1

6. Поведенческая аналитика;
7. Обнаружение мошенничества;
8. Предсказание угрозы безопасности.
Эволюция цифровых технологий и увеличение объема данных,
циркулирующих в организациях каждый день, вызывают необходимость во
внедрении более эффективных и быстрых способов обработки и анализа
таких данных. Огромные массивы данных в наборах данных больше не могут
быть эффективно проанализированы с помощью традиционных
инструментов для управления и анализа. Именно поэтому существует
потребность в передовых методах, методах и инструментах для хранения,
управления и анализа больших данных. Появление больших данных влияет
на все этапы от создания, обработки и до принятия окончательных решений.
Таким образом, для больших данных необходимы специальные инструменты
для хранения, управления, обработки, анализа, визуализации, оценки на
разных этапах процесса принятия решений.
Существуют три основные области, связанные с аналитикой больших
данных: хранение больших данных и архитектура, обработка данных и,
наконец, анализ больших данных, который может быть применен для поиска
ключевых и значимых факторов, а также принятия обоснованных решений
[6].
Первым шагом для организаций, которым необходимо иметь дело с
большими данными, является решение о том, где и как будут храниться
полученные данные. Традиционные методы хранения включают
реляционные базы данных, хранилища данных и витрины данных в
соответствии с традиционной средой Enterprise Data Warehouse (EDW). Тем
не менее, среда Big Data требует навыков анализа Magnetic, Agile, Deep
(MAD).
Кроме того, хранилище больших данных должно позволять легко
анализировать и быстро адаптировать данные, учитывая растущее число

55
ЭКОНОМИКА ЗНАНИЙ: ТЕОРИЯ И ПРАКТИКА. 2017. №1

источников и спецификацию анализа данных. Вот почему нам нужна гибкая


база данных, логическое и физическое содержимое которой может
адаптироваться так быстро, как происходит эволюция данных. Наконец,
текущий анализ данных выполняется с использованием сложных
статистических методов, следовательно, хранилище больших данных
выступает в виде усовершенствованного алгоритмического механизма [7].
Следующим шагом после сбора и хранения данных является обработка
больших данных. Существует четыре критических требования к обработке в
больших данных:
1. Быстрая загрузка данных (диск и сетевой трафик отправляют
запросы во время загрузки, важно уменьшить время загрузки данных);
2. Быстрая обработка запросов (в случае запросов в режиме реального
времени и многозадачных запросов с большой нагрузкой критическое время
ответа). Кроме того, количество запросов быстро увеличивается, структура
размещения данных должна быть способна к быстрой скорости обработки);
3. Эффективное использование пространства для хранения (быстрый
рост активности пользователя требует масштабируемой вычислительной
мощности и емкости памяти, но дисковое пространство ограничено);
4. Возможность адаптироваться к высокодинамичным моделям рабочей
загрузки (разные пользователи анализируют наборы данных различными
приложениями по-разному, поэтому средства обработки больших данных
должны быть адаптированы к непредсказуемой динамике).
Следующий шаг после обработки больших данных - аналитика
больших данных. Большие данные - это огромное количество потенциально
интересной и значимой информации для нашего бизнеса. Анализ данных
включает в себя применение алгоритмов и построение моделей, извлечение
ранее неизвестной и значимой информации, а также взаимоотношения и
корреляцию между показателями. Существует множество современных
методов анализа данных (правила ассоциации, кластеризация и

56
ЭКОНОМИКА ЗНАНИЙ: ТЕОРИЯ И ПРАКТИКА. 2017. №1

классификация, деревья решений, регрессия и др), которые дают нам


возможность сформировать конкурентные преимущества на основе анализа
больших данных во времени.
На технологическом рынке выделят четыре основные категории
игроков [8]:
1) Data Acquisition Stream (получение потока данных):
-Data Acquisition (IBM (Datastage, Streams, Data mirror) SAP, SAS,
Oracle, Syncsort, Talend, Microsoft, Tibco, Informatica);
-Data Providers (Kaggle, Microsoft (Windows Azure Marketplace),
Symphony IRI, Knoema, LexisNexis, Nielsen, Reuters, IMS, Inrix Gnip);
-Социальные сети (Facebook, LinkedIn, Twitter);
- Открытые поставщики данных (правительства, регионы и т. Д.).
2) Marshaling (сортировка):
-VLDW (Very Large Data Warehousing) и BI-устройства (SAP (HANA и
Sybase IQ), Oracle (Exadata), SAS, Teradata HP (Vertica), IBM (Netezza),
Kognitio, Actian, EMC² (Greenplum), Microsoft (SQL 2012 и PDW), Paraccel);
-NoSQL-домен (Amazon, Cloudera, Cassandra, Hadoop, IBM, MapR,
MongoDB, Snaplogic, Sparsity, Oracle, Palantir, Splunk, Teradata (данные
Aster);
-Content Management space (Adobe, IBM (FileNet), Oracle Microsoft,
Alfresco, HP (Autonomy), OpenText).
3) Этап анализа включает:
-Аналитические фаза- технологии и поставщики (IBM (SPSS), Hadoop
Map Reduce, R, Oracle, EMC², SAS, Adobe, HP);
- Виртуализация данных (IBM, Informatica Composite, Denodo, HP
(IDOL), Oracle (Exalytics), Microsoft, SAP);
- BI Tools (инструменты бизнес-интеллекта) - Computing Key
Performance Indicators (Tableau, IBM (Cognos suite), Pentaho, Qlikview,
Actuate, SAS, Tibco (Exalead), Oracle (OBI Foundation), Panorama).

57
ЭКОНОМИКА ЗНАНИЙ: ТЕОРИЯ И ПРАКТИКА. 2017. №1

4) Действие:
-BPM & action (все поставщики данных, участники ERP, CRM, BPM,
включая IBM, Microsoft, Adobe, Oracle, SAP, Pega, Eloqua, Teradata (Aprimo), ,
iGrafx, TibcoEMC, OpenText) ;
- область управления данными, Управление основными данными
(MDM -Master Data Management), инструменты метаданных и качества
данных (IBM, Kalido, Informatica, Oracle, Tibco, Adaptive, HP, Microsoft SAP,
Orchestra Networks, SAS, Talend.
Рассмотрим результаты сравнительного анализа, представленного в
квадранте, разработанного компанией Gartner. (рис. 1).
Критерии Gartner «Magic Quadrant for Business Intelligence and
Analytics Platforms» включают в себя: Опыт клиентов, бизнес-модель,
жизнеспособность (финансовое здоровье), ценообразование, маркетинг,
продажи, инновации, операции и географическую стратегию.

Рис. 1. “Gartner Magic Quadrant for Business Intelligence and Analytics


Platforms” 2017 [3]

58
ЭКОНОМИКА ЗНАНИЙ: ТЕОРИЯ И ПРАКТИКА. 2017. №1

Лидером «Magic Quadrant for Business Intelligence and Analytics


Platforms» в 2017 стал инструмент BI – Tableau. Tableau - «Программное
обеспечение Tableau помогает предприятиям понимать данные.
Революционное решение позволяет компаниям связывать, визуализировать,
обмениваться данными. Кроме того, вы можете создавать и публиковать
информационные панели, а затем делиться ими без навыков
программирования.
Это аналитическое решение для самостоятельного пользования;
Позволяет быстро находить данные и ответы на поставленные вопросы.
Сервер Tableau позволяет публиковать информационные панели с рабочего
стола Tableau через любой веб-браузер или мобильное устройство».
Далее для примера представлены результаты анализа и визуализации
данных нефтегазовой отрасли Российской Федерации, выполненные с
использованием Tableau.
На рис.2 представлена мировая добыча нефти в группах (тыс. баррелей
в день). Первоначальный массив включает данные по всем странам мира за
период 1965-2015гг.

Рис. 2. Мировая добыча нефти (тыс. баррелей в день)


Доказанные запасы нефти в России по данным на 2015 год составляют
около 102,4 млрд. Баррелей. Это шестой показатель в мире (рис. 3).

59
ЭКОНОМИКА ЗНАНИЙ: ТЕОРИЯ И ПРАКТИКА. 2017. №1

Рис. 3. Топ-10 стран доказанных запасов нефти (%)


Кроме того, доказанные запасы нефти в России являются крупнейшими
в Европе и Азии (группировка по географическому признаку) в 2015 году
(65,96%) (рис. 4).

Рис. 4. Доказанные запасы группы «Европа и Азия» в 2015 году (%)

Далее приводится наглядный пример изменений в структуре добыча-


потребление нефти в 1985-2015 годах (рис. 5).
60
ЭКОНОМИКА ЗНАНИЙ: ТЕОРИЯ И ПРАКТИКА. 2017. №1

Рис. 5. Добыча и потребление нефти в России в 1985-2015 годах


(баррелей)
Каждая компания в нефтегазовой отрасли собирает огромный объем
данных в зависимости от направления деятельности. Нефтяная
промышленность России была проведена 294 компаниями, поэтому объем
данных в отрасли колоссален. Как мы уже говорили, Нефтяная
промышленность России включает нефтедобывающие предприятия,
нефтеперерабатывающие заводы и предприятия по транспортировке и сбыту
нефти и нефтепродуктов. В зависимости от различных функций организации
изменяется тип большой даты. Нефтедобывающие предприятия и
предприятия нефтеперерабатывающих заводов имеют данные от бурового
оборудования и датчиков, предприятия по транспортировке и сбыту нефти и
нефтепродуктов получают данные о продажах на рынке и из внутренней
документации.
Объем данных из разных областей нефтегазовой отрасли
действительно огромен. Показания всевозможных датчиков, показатели в
процессе производства, обработки, содержания в резервуарах, а также,
например, данные о неустойчивости цен на фондовой бирже на рынке
действительно огромны. К сожалению, большая часть этих данных находится
в неструктурированной или полуструктурированной форме: электронная
61
ЭКОНОМИКА ЗНАНИЙ: ТЕОРИЯ И ПРАКТИКА. 2017. №1

почта, документы, изображения, видео и электронные таблицы, запись


голоса, изменения рынка. Данные этих типов требуют инструментов,
которые синтезируют и интегрируют различные источники данных в единую
форму.
5V (примеры):
1. Volume: сейсмическая обработка, сбор сейсмических данных
(например, широкомасштабное получение данных по азимуту на море).
2. Variety: структурированные (стандартные и модели данных (PPDM,
WITSML, PRODML, RESML, SEG-Y), неструктурированные (изображения,
аудио, видео, карты, кривые журнала), полуструктурированные
(аналитические отчеты, ежедневные отчеты о бурении)
3. Velocity: потоковые данные в реальном времени от бурового
оборудования (EDR, LWD, MWD, каротаж) и датчиков (давление, расход,
скорость проникновения).
4. Veracity (о качестве данных): запуск интегрированных моделей
активов, смесь сейсмических данных, бурение, данные о производстве,
инновации.
5. Value: минимизация рисков, улучшение производства, снижение
издержек простоя, увеличение скорости переработки нефти, более высокая
автоматизация.
Таким образом, внедрения передовых инструментов аналитики
эффективно и необходимо во всех сферах деятельности, в том числе и в
нефтегазовой отрасли Российской Федерации. Применение инструментов
расширенной аналитики позволяют провести более качественный анализ или
анализ огромных объемов данных, по результатам которого необходимо
сформировать меры по оптимизации процессов, минимизации рисков, что
позволит получить конкурентные преимущества и увеличить прибыль
предприятия.

62
ЭКОНОМИКА ЗНАНИЙ: ТЕОРИЯ И ПРАКТИКА. 2017. №1

Литература
1. International Data Corporation (IDC) [Electronic resource] /Executive
Summary:Data Growth, Business Opportunities, and the IT Imperatives – URL:
(https://russia.emc.com/leadership/digital-universe/2014iview/executive-
summary.htm). (Дата обращения: 19.05.2017).
2. IOT conference [Electronic resource] /“20 ошеломляющих фактов о
будущем Big Data” Imperatives – URL: (https://iotconf.ru/ru/news/20-
oshelomlyayushchih-faktov-o-budushchem-big-data). (Дата обращения:
19.05.2017).
3. Gartner, Inc./ Organizing for Big Data Through Better Process and
Governance [Electronic resource] – URL:
https://www.gartner.com/doc/3002918?ref=SiteSearch&sthkw=big%20data%20an
alytic&fnl=search&srcId=1-3478922254 (Дата обращения: 19.05.2017).
4. SAS/Big Data insights [Electronic resource] – URL:
https://www.sas.com/en_us/insights/big-data/what-is-big-data.html (Дата
обращения: 22.05.2017).
5. McKinsey / ReportMcKinsey Global Institute/ Big data: The next frontier
for innovation, competition, and productivity [Electronic resource] – URL:
http://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/big-
data-the-next-frontier-for-innovation (Дата обращения: 19.05.2017).
6. Big Data Analytics: A Literature Review Paper. Lecture Notes in Computer
Science /8557: 2014, 214 - 227 p,
7. EMC Education Services /Data Science and Big Data
Analytics: Discovering, Analyzing, Visualizing and Presenting Data// John Wiley
& Sons - 2015, 352 p
8. Manuel Sevilla. Big Data vendors and technologies, the list! // Capgemini:
Consulting.Technology.Outsoursing [Electronic resource] – URL:

63
ЭКОНОМИКА ЗНАНИЙ: ТЕОРИЯ И ПРАКТИКА. 2017. №1

https://www.capgemini.com/blog/capping-it-off/2012/09/big-data-vendors-and-
technologies-the-list (Дата обращения: 02.06.2017).
9. BP data [Electronic resource] – URL: http://tools.bp.com/energy-charting-
tool.aspx# (Дата обращения: 02.06.2017).

A.S. Panferova
Master of Science, Higher School of Economics
Moscow, Russian Federation
E-mail: improve-yourself@mail.ru

BIG DATA IN THE OIL&GAS INDUSTRY IN RUSSIAN FEDERATION


Annotation. In article Big Data in the Oil&Gas industry are considered:
definitions are given, characteristics and areas of usage are considered. The main
stages of work with the Big Data at the enterprise are considered. The main
categories of the market of technologies are reviewed; a comparative analysis of
the BI tools is presented. The analysis of the data in the Oil&Gas industry of the
Russian Federation (using the leading instrument based on the results of a
comparative analysis) is included.
Key words: Big Data, Oil&Gas industry, analytics, processing, storage, analysis,
implementation.

References
1. International Data Corporation (IDC) [Electronic resource] /Executive
Summary:Data Growth, Business Opportunities, and the IT Imperatives – URL:
(https://russia.emc.com/leadership/digital-universe/2014iview/executive-
summary.htm). (Data obrashheniya: 19.05.2017).
2. IOT conference [Electronic resource] /“20 ошеломляющих фактов о
будущем Big Data” Imperatives – URL: (https://iotconf.ru/ru/news/20-

64
ЭКОНОМИКА ЗНАНИЙ: ТЕОРИЯ И ПРАКТИКА. 2017. №1

oshelomlyayushchih-faktov-o-budushchem-big-data). (Data obrashheniya:


19.05.2017).
3. Gartner, Inc./ Organizing for Big Data Through Better Process and
Governance [Electronic resource] – URL:
https://www.gartner.com/doc/3002918?ref=SiteSearch&sthkw=big%20data%20an
alytic&fnl=search&srcId=1-3478922254 (Data obrashheniya: 19.05.2017).
4. SAS/Big Data insights [Electronic resource] – URL:
https://www.sas.com/en_us/insights/big-data/what-is-big-data.html (Data
obrashheniya: 22.05.2017).
5. McKinsey / ReportMcKinsey Global Institute/ Big data: The next frontier
for innovation, competition, and productivity [Electronic resource] – URL:
http://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/big-
data-the-next-frontier-for-innovation (Data obrashheniya: 19.05.2017).
6. Big Data Analytics: A Literature Review Paper. Lecture Notes in Computer
Science /8557: 2014, 214 - 227 p,
7. EMC Education Services /Data Science and Big Data
Analytics: Discovering, Analyzing, Visualizing and Presenting Data// John Wiley
& Sons - 2015, 352 p
8. Manuel Sevilla. Big Data vendors and technologies, the list! // Capgemini:
Consulting.Technology.Outsoursing [Electronic resource] – URL:
https://www.capgemini.com/blog/capping-it-off/2012/09/big-data-vendors-and-
technologies-the-list (Data obrashheniya: 02.06.2017).
9. BP data [Electronic resource] – URL: http://tools.bp.com/energy-charting-
tool.aspx# (Data obrashheniya: 02.06.2017).

65

Оценить