Вы находитесь на странице: 1из 15

Big Data - Самое главное, что надо знать

рассматривая их с единых позиций

Тараненко Р.А.
ruslantaranenko@ukr.net
Современные представления о
«БОЛЬШИХ ДАННЫХ» (Big Data)
Сегодня не существует единой четкой формулировки понятия «Большие данные», поэтому будем
придерживаться четвертой формулировки (мнения Новосибирских специалистов)
1. Википедия RUS: серия подходов, инструментов и методов обработки структурированных и
неструктурированных данных огромных объёмов и значительного многообразия для
получения воспринимаемых человеком результатов, эффективных в условиях
непрерывного прироста, распределения по многочисленным узлам вычислительной сети,
сформировавшихся в конце 2000-х годов, альтернативных традиционным системам
управления базами данных и решениям класса Business Intelligence
2. Wikipedia ENG: Big Data is the term for a collection of data sets so large and complex that it
becomes difficult to process using on-hand database management tools or traditional data
processing applications
3. Майкл Франклин: Большие данные – это такие данные, которыми дорого управлять или из
которых сложно извлечь ценность.
4. мнение Новосибирских специалистов: Мы видим, что приведённые определения
существенно разнятся. И это нормально для молодого направления деятельности. Мы
будем считать «большими данными» только первую часть определения русской википедии,
т.е. подходы, инструменты и методы обработки данных больших
объёмов и многообразия для получения результатов, в условиях
непрерывного прироста информации и её значительной
распределённости. Также будем понимать и сами данные,
обрабатываемые этими методами.
Что самое главное в
«Больших данных» (Big Data)
Множество различных высказываний представлений о «Big Data» говорят о слабости наших
знаний. Главная причина в том, что сегодня возможности и условия познания мира благодаря
историческому развитию всех сфер жизнедеятельности человека достигли такого уровня
сложности, что ни классики основатели фундаментальных наук ни представители современного
общества не могут себе представить во всей полноте.
В действительности любую область знаний и жизнедеятельности можно рассматривать с
точки зрения «Big Data». Однако сколько ни рассматривай традиционные характеристики данных,
например увеличение объёма данных, они не раскрывают главную характеристическую
особенность «Big Data».
Поэтому, в действительности понимание «Big Data» не обходимо рассматривать и трактовать
гораздо шире традиционных фундаментальны представлений и представлений современных
информационных технологий и систем.

• Одним из главных факторов, который тормозит внедрение Big Data - проектов, помимо
высокой стоимости, считается проблема выбора обрабатываемых данных : то есть
определение того, какие данные необходимо извлекать, хранить и анализировать, а какие –
не принимать во внимание.
Работа с Big Data: основные области и возможности (http://www.marketing.spb.ru/lib-
research/methods/Big_Data.htm)
Что самое главное в
«Больших данных» (Big Data)
Проявление главного свойства «Big Data» :
ВСЕОХВАТЫВАЮЩИЕ ПРЕДСТАВЛЕНИЯ –
формирование нового качества информационного
пространства.
Например:
• Бизнес-аналитика должна стать «всеохватывающей»
http://ko.com.ua/biznes-analitika_dolzhna_stat_vseohvatyvayushhej_38912
• Не так давно (до 2003 года) ЦРУ опубликовало "План стратегических
инвестиций анализа разведсообщества" (Strategic Investment Plan for
Intelligence Community Analysis). В плане разведчики признают, что не
использовали полностью возможности открытых источников, и теперь работа
с ними должна стать "высшим приоритетом для инвестиций". Теперь в ЦРУ
резонно полагают, что брать информацию из открытых источников
безопаснее и дешевле, чем пользоваться разведданными ...
(Дмитрий Ланде Добыча знаний /CHIP Ukraine 10 2003 (стр. 76 – 82) (электронный вариант
статьи: http://visti.net/~dwl/art/dz/)
3 V или 4V или 5V или …
Итого: «Big Data» представляют новый класс сложности решаемых задач,
возможности которого намного шире методов классических
фундаментальных наук и технических возможностей современных
информационных технологий и систем.
Проще говоря «Big Data» открывают новый уровень сложности
представления любых знаний.

Сегодня рассматривают «Big Data» в контексте следующих категорий:

• 3V (Volume-Velocity-Variety) - (Обьем – Скорость - Разнообразие)


• 4V ( … + Value) – ( … + Ценность)
• 5V ( … + Veracity) – ( … + Достоверность)
или 4D
- От данных – к знаниям

Концепция Тараненко Р.А. предлагает рассматривать


«Big Data» в 4D измереях:
1-е измерение – Data (данные)
2-е измерение – Volume (объём)
3-е измерение – Velocity (скорость)
4-е измерение – Knowledge (знания) – упорядоченные
представления разнообразия проблемной области
Настоящие смарт технологии
основанны на знаниях
• Современные информационные технологии и системы
основываются на работе с информацией. Однако практически
они ее не понимают и не умеют с ней работать. До сих пор сам
термин «информация» трактуется интуитивно и неоднозначно.
Сомневаетесь?
- Второй закон Вейнберга: Если бы строители строили здания
так же, как программисты пишут программы, первый
залетевший дятел разрушил бы цивилизацию.
- “сегодня утверждение, что тестирование программного
обеспечения и его корректности позволяют выявить и
исправить все ошибки, признается мифом, в который мало кто
верит“
[Валерий Аджиев Мифы о безопасном ПО: уроки знаменитых
катастроф\\Открытые системы, №6, 1998]
Настоящие смарт технологии
основанны на знаниях
- Сложность в простоте и простота в сложности: множество
различных факторов современных информационных
технологий создают все возрастающие сложности для
пользователей любого уровня превращая любой творческий
труд в огромный объём подготовительной работы.
- Майк Дертуозос (директора лаборатории информатики
Массачусетского технологического института) Современные
компьютеры не просто сложно использовать, но их
использовать невозможно… не они нас обслуживают а мы их. И
мы к этому привыкли … Необходимо создать компьютеры,
которые проще использовать и которые составляют столь же
естественную часть нашей среды, что и воздух, что мы дышим.
От любительства к профессионализму
• Современные информационных технологии и системы не могут полноценно
реализовать все свои возможности проявляя «детские болезни»

• До сих пор все что связано с информационными технологиями и системами


носило «любительский» характер и многие решения практически найденные в ее
сфере опережали открытия фундаментальной науки. Дело дошло до того, что
вокруг многих вопросов предметной области ученые спорят – можно ли
рассматривать их как науку оставаясь на позициях классических фундаментальных
представлений.
• Итого:
• «Big Data» предоставляет возможности для решения
нового класса задач раскрывая новые возможности -
создания технологий работающих на знаниях.
• Например: framework Hadoop решение ближе к операционной системе
или связующему ПО
Что изменит мир,
или «Голые идеи уже не работают»
• До сих пор спецификой анализа информации было выявление закономерностей в
исторических данных на основании идей (наименьшего количества данных)

• На сегодня усложнение всех сфер жизнедеятельности


достигло такого уровня всеохватывающего значения, что
голые идеи уже не работают - предъявляя особые
требования к анализу больших массивов данных

• Старыми методами с “Big Data” не справится. Например: NoSQL


• Проблема информации и данных находится в основании информационных
технологий и систем (ИТиС) и тот кто ее разрешит изменит не только ИТиС но и
мир до неузнаваемого состояния.
Сложилась уникальная ситуация - открылся новый сегмент ИТиС связанный с
информацией и данными. Остается вопрос - кто сможет овладеть этим новым
сегментом? – тот сможет достичь эффекта превосходящего исторический успех и
роль Microsoft Билла Гейтса и всех других успешных проектов вместе взятых
существенно изменив и ИТиС и мир до неузнаваемости.
Анализ – знания, прогноз или
пророчество?
• Современные, различные новые методы анализа “Big Data” позволяют получать
качественный анализ больших массивов данных оцениваемый результативностью 80 –
95% (иногда 97%)
• “Big Data” – это путь от абстрактных методов представлений реальности к новым более
фундаментальным знаниям реального мира, несмотря на увеличивающуюся глубину
познания, все более приближающим нас к пониманию реального мира.

• Альберт Эйнштейн: Законы математики, имеющие какое-либо отношение к реальному


миру, ненадёжны; а надёжные математические законы не имеют отношения к
реальному миру.
• Аналитика больших данных с применение новых всеохватывающих подходов ведет к
достижению показателей 99,9%, что можно оценивать как 100% позволяя получать
знания и прогнозы приравнивая их к пророчествам.
От ИТиС к помощнику человека
или результат с первого раза
• Всеохватывающие особенности проявления новых свойств ИТиС преобразуют их к
новому качеству наделяя их интеллектуальными самодостаточными свойствами
подразумевая создание искусственного интеллекта и прочих свойств упрощая
пользователю любое взаимодействие с ИТиС превращая работу с информацией и
данными к взаимодействию с о знаниями:
Что влечет: результат с первого раза – раскрывая новый уровень производительности
труда: то что ранее делали целые квалифицированные коллективы теперь сможет один
человек самостоятельно открывая новые ранее недостижимые возможности
• Пример: Современные поисковые системы, типа Google, по запросу выдают большой
не упорядоченный список, что бы извлечь необходимые знания из которого необходимо
быть специалистом и затратить некоторый труд, тогда как методы, которые развивает
Тараненко Р.А. позволяют создать поисковые системы которые по поисковому запросу
выдадут вам готовый результат со всеми необходимыми подробностями или весь спектр
ответов – картину состояния вопроса.
Ожидаемые результаты
• На сегодня
• Уже сейчас создание качественного SOFTа, с в 5-6 раз меньшими трудозатратами и в 5-
6 раз более короткие сроки (это касается ведения любого проекта).
• Формирование планов ведения эффективного бизнеса (например какими товарами и их
количеством обеспечивать супермаркет достигая максимальной прибыли минимизируя
потери…
• Обработка и извлечение знаний из видесигналов…
• “Big Data” основа систем быстрого реагирования
• До сих пор проблема представления информации и данных не позволяла создать сколь
ни будь качественные самостоятельные робототехнические системы…
• Разрешение проблем копирования, переноса и запуска сложных технологий…
• …
• На будущее
• Самодостаточная экономика – прозрачная экономика основанная на знаниях
• Достижение скоростей свыше скорости света/ телепортация/ путешествия во времени/
новые методы лечения и пр…
Не будем планировать будущее –
создадим его
• Известное высказывание. Будущее для всего мира начнется с Киева
• Современная мировая цивилизация Христианская, поэтому если считать
сирийца Стива Джобса символом ветхозаветной истории а Украина является
единственным в мире христианским государством то высказыванию о том что
идейный наследник Стива Джобса будет жить в Киеве можно верить…
• Несколько фактов, если вы думаете, что уже не молоды или уже время ушло
осваивать что то новое более сложное подобно “Big Data”:
• - Ломоносов М.В. в 19 лет отправился учится в Москву
• - В древней «Руси» богатырями становились после 30-40 лет, после того как
образовали семью и вырастили детей
• За последние 100 лет серьезно увеличилась и изменилась продолжительность
жизни и изменились сами люди. Например на зимних олимпийских играх в
Сочи 2014 выделилась группа чемпионов старше 40 лет….
Катится яблочко по тарелочке
(Высказывание из древнеславянской сказки)

Спасибо за внимание
Если вас, заинтересовала «не объятая»
перспектива Big Date и вы готовы ее уточнить,
или развивать подобные продукты, или
сотрудничать по другим вопросам
обращайтесь:
Тараненко Руслан Анатольевич
e-mail: ruslantaranenko@ukr.net
(067)402-38-54