Академический Документы
Профессиональный Документы
Культура Документы
com
СТАТИСТИЧЕСКАЯ
КНИГИ
Большие данные и макроэкономика
Прогноз погоды: из доступа к данным
к моделированиюиздание 2016 г.
00 800 6 7 8 9 10 11
(*) Предоставляемая информация бесплатна, как и большинство звонков (хотя некоторые операторы, телефонные будки или отели
может взимать с вас плату).
ISBN 978-92-79-63963-0
ISSN 2315-0807
дои: 10.2785/360587
Кот. №: KS-TC-16-024-EN-N
Информация и взгляды, изложенные в данной публикации, принадлежат автору (авторам) и не обязательно отражают
официальную точку зрения Европейского Союза. Ни институты и органы Европейского Союза, ни любое лицо, действующее от
их имени, не могут нести ответственность за использование содержащейся в них информации.
Оглавление
Абстрактный
Параллельные достижения в области информационных технологий и социального использования приложений, связанных с Интернетом,
предоставляют широкой публике доступ к огромному количеству информации. Связанные с этим большие данные потенциально очень полезны для
различных приложений, начиная от маркетинга и заканчивая уклонением от уплаты налогов.
С точки зрения официальной статистики главные вопросы заключаются в том, являются ли Большие данные областью, в которую стоит
инвестировать для расширения, проверки и улучшения процесса производства данных, и в какой степени, и какие типы партнерств
должны быть сформированы для этой цели. Текущий прогноз макроэкономических показателей представляет собой четко определенную
область, в которой большие данные могут сыграть решающую роль в будущем.
В этой статье мы представляем результаты и основные рекомендации финансируемого Евростатом проекта «Большие данные и
прогнозирование макроэкономической ситуации», реализованного GOPA Consultants, который извлекает выгоду из сотрудничества и
работы целевой группы Евростата по большим данным и нескольких внешних академических экспертов. .
Ключевые слова:Прогноз текущей погоды, большие данные, машинное обучение, сокращение, комбинация прогнозов.
Благодарности:Авторы выражают благодарность Claudio Parracho Soares за поддержку в работе над настольной
публикацией и форматирование макета.
Авторы:
Эмануэле Бальдаччи (англ.1), Дарио Буоно (2), Джордж Капетаниос (3), Стефан Крише(4), Массимилиано
Марчеллино (5), Джан Луиджи Мацци (6), Фотис Папайлиас (7)
В контексте прогнозирования текущей погоды большие данные предоставляют потенциально релевантную дополнительную
информацию по отношению к стандартным данным, поскольку они основаны на довольно разных наборах информации. Более
того, он доступен своевременно и, как правило, не подлежит последующему пересмотру – все это важные признаки
индикаторов, предоставляющих информацию о текущем состоянии экономики. Кроме того, он может обеспечить более
детальное представление об интересующем показателе как во временном, так и в поперечном измерении.
Хотя очевиден потенциал для важного вклада в этом контексте, большие данные поднимают ряд старых и новых
вопросов, в первую очередь связанных с наличием соответствующих данных, а также непрерывностью и качеством их
предоставления. В этом контексте установление надежных партнерских отношений с поставщиками данных как в
государственном, так и в частном секторе, а также с исследовательским сообществом может стать решающим фактором
успеха.
Следовательно, мы обсуждаем основные проблемы, связанные с подготовкой, очисткой, фильтрацией и оценкой данных, тем
более актуальные в контексте официальной статистики, с учетом предоставления набора рекомендаций, связанных со всеми
этапами пошаговой работы. подход к использованию больших данных в прогнозировании текущей погоды. Дополнительные
подробности можно найти, например, в Marcellino (2016).
Вторым основным источником больших данных являются традиционные бизнес-системы (данные, опосредованные процессами). Эти процессы
записывают и отслеживают представляющие интерес бизнес-события, такие как регистрация клиента, производство продукта, принятие заказа и т. д.
Традиционные бизнес-данные — это подавляющая часть того, чем управляют и обрабатывают ИТ-специалисты как в операционных системах, так и в
системах бизнес-аналитики. Обычно структурированные и хранящиеся в системах реляционных баз данных, включая также «Административные
данные», они могут быть дополнительно сгруппированы в данные, производимые государственными учреждениями (медицинские записи,
социальное страхование и т. д.), и данные, производимые предприятиями (коммерческие транзакции, банковские / биржевые записи). , электронная
коммерция, кредитные карты и т. д.).
Третьим быстрорастущим поставщиком больших данных является так называемый Интернет вещей (машинно-генерируемые
данные). Эти данные получают от датчиков и машин, используемых для измерения и записи событий и событий в физическом
мире. Хорошо структурированный характер машинно-генерируемых данных делает их пригодными для компьютерной
обработки, но их размер требует использования новых статистических подходов.
С точки зрения экономического прогнозирования текущей погоды все три типа больших данных потенциально актуальны.
Например, отдельные поисковые запросы в Интернете (социальные сети), транзакции по кредитным картам (традиционные
бизнес-системы) или количество торговых судов, плавающих в определенной области (Интернет вещей), могут предоставить
полезные опережающие индикаторы роста ВВП страны. Таким образом, решающим шагом для правильного использования
больших данных для прогнозирования текущей погоды является тщательный поиск и классификация существующих данных с
четким учетом специфики и характеристик целевой переменной.
Особенностью больших данных, особенно актуальной для приложений прогнозирования текущей погоды, является общее
количество временных наблюдений с частотой целевого экономического индикатора (обычно месяцы/кварталы). К сожалению,
это, как правило, мало, даже если в высокой частоте или в поперечном разрезе могут быть тысячи наблюдений, поскольку
генерация и сбор больших данных начались только недавно. Короткая временная выборка проблематична, поскольку
индикаторы, основанные на больших данных, должны быть связаны с целевыми низкочастотными макроэкономическими
индикаторами, а без достаточно длинной выборки оценщики параметров могут быть зашумленными, а выборка постфактум
оценки для прогнозирования текущей погоды слишком короткой. .
Последним вопросом и рекомендацией, особенно относящейся к прогнозированию текущей погоды на основе больших данных, является
контроль стабильности взаимосвязи с целевой переменной. Это общая проблема и со стандартными индикаторами, поскольку тип и
размер экономических потрясений, поражающих экономику, меняются со временем. В случае больших данных дополнительным
потенциальным источником нестабильности является тот факт, что их размер и качество со временем меняются, как правило, гораздо
быстрее, чем при стандартном сборе данных.
Для этого необходимо «очистить» переменные перед эконометрическим моделированием, заменив выбросы и
отсутствующие наблюдения разумными оценками, устранив другие детерминированные эффекты (например,
календарные) и отфильтровав сезонные и другие краткосрочные периодические изменения, такие как
внутримесячные или внутримесячные. -еженедельные. Когда количество переменных действительно велико и/
или корректировка должна выполняться много раз, как в случае упражнений по рекурсивному
прогнозированию, удобно работать на основе серии за серией. Поскольку не все методы сезонной и
календарной корректировки могут быть применены, когда данные доступны с высокой периодичностью,
необходимо определить или разработать соответствующие методы корректировки, когда данные доступны с
высокой периодичностью.
Большие данные не позволяют использовать стандартные эконометрические методы. Например, когда количество регрессоров
больше, чем количество наблюдений (N >> T, как в наборах данных FAT), очевидно, что нельзя использовать оценку МНК, а также
статистику на основе МНК, такую как t-тесты и F-тесты для проверить значимость регрессоров. Кроме того, выбор регрессоров с
помощью информационных критериев также становится невозможным, поскольку необходимо сравнивать 2N моделей, число
которых превышает один миллион уже для N = 20 регрессоров. Кроме того, стандартная статистическая теория для
доказательства таких эконометрических свойств, как несмещенность и непротиворечивость оценок, обычно опирается на
фиксированные расходящиеся асимптотики N и T (подходит для наборов данных TALL, где T⋙Н). Вместо этого с большими
(потенциально ОГРОМНЫМИ) данными необходимы расходящиеся как N, так и T асимптотики, что намного сложнее.
Обычный подход заключается либо в агрегировании данных, либо в наложении сильных априорных допущений на
эконометрические модели для дезагрегированных данных. Ясно, что в общем случае эти предположения неверны, а агрегация
данных приводит к потере информации. Следовательно, необходима правильная эконометрика больших данных.
В недавнем прошлом эконометрика больших данных получила большой импульс, больше с точки зрения оценки и тестирования, чем
прогнозирования. Существует много доступных подходов, которые можно разделить на пять основных классов, которые мы сейчас кратко
суммируем, предоставляя рекомендации о том, когда использовать каждый из них.
- Методы машинного обучения: В методах машинного обучения, которые особенно подходят для наборов
данных FAT, оценка МНК регуляризована, чтобы ее можно было реализовать при большом N. Обычно это
достигается путем добавления набора (нелинейных) ограничений на параметры модели, которые, таким
образом, сужаются до предварительно заданных значений, предпочтительно до нуля, чтобы добиться более
экономичной спецификации. Этот класс включает в себя такие методы, как регрессия хребта, семинарская
работа по регрессии LASSO Тибширани (1996), адаптивный LASSO, эластичная сеть, SICA, жесткий порог,
повышение и множественное тестирование. К сожалению, мало приложений этих методов доступны в
контексте макроэкономического прогнозирования текущей погоды и прогнозирования.
- Методы уменьшения размерности: третий класс эконометрических методов для правильной обработки больших данных
основан на идее уменьшения размерности набора данных путем создания гораздо меньшего набора сгенерированных
регрессоров, которые затем можно использовать на втором этапе в стандартных эконометрических моделях для получения
прогнозов текущей погоды. и прогнозы в общих чертах. Естественно, существует множество способов выполнения уменьшения
размерности, наиболее распространенными из которых являются анализ основных компонентов и частичные наименьшие
квадраты, которые могут обрабатывать ВЫСОКИЕ наборы данных, и анализ разреженных основных компонентов, который
также подходит для наборов данных FAT и HUGE.
- Объединение текущих прогнозов: Объединение прогнозов (или их комбинация) имеет давнюю традицию
эмпирического успеха, и объединение текущих прогнозов также является многообещающим. Возможными
причинами хорошей эффективности объединения прогнозов могут быть неправильная спецификация модели,
неопределенность модели и непостоянство параметров, которые смягчаются взвешиванием. Поскольку эти функции,
вероятно, присутствуют при моделировании с использованием больших данных, комбинация прогнозов может быть
полезна и в этом контексте. Следовательно, альтернативной процедурой при наличии большого набора
потенциально полезных опережающих индикаторов для интересующей целевой переменной является использование
(возможно, очень большого) набора небольших эконометрических моделей для получения текущих прогнозов, по
одной модели для каждого из N имеющихся индикаторов. или небольшое их подмножество, а затем объединить
полученные многочисленные прогнозы текущей погоды или прогнозы в один прогноз.
Существует ли «высокомерие больших данных»? «Гордыня больших данных» — это часто неявное
предположение о том, что большие данные заменяют, а не дополняют традиционный сбор и анализ
данных, см. Lazer et al. (2014). В контексте прогнозирования текущей погоды это относится к
исследованиям, основанным исключительно на индикаторах больших данных, и неудивительно,
что индикаторы больших данных полезны при таком использовании, но их полезность может быть
ложной. Чтобы уменьшить высокомерие больших данных, мы должны рассматривать, как уже
упоминалось, индикаторы, основанные на больших данных, как дополнение к существующим
индикаторам, основанным на мягких и жестких данных, включать их все в эконометрические
модели и оценивать предельный вклад каждого типа индикаторов. Эта оценка должна проводиться
в контексте вне выборки, поскольку большие данные в выборке могут привести к переоснащению.
Есть ли риск «ложных срабатываний»? Этот вопрос можно переформулировать так: можем ли мы получить некоторые индикаторы,
основанные на больших данных, которые дают хорошие прогнозы только благодаря отслеживанию данных? Точно так же, можем ли мы
получить положительные результаты из-за отслеживания модели, поскольку мы видели, что доступны различные эконометрические
подходы? Риск ложных срабатываний всегда присутствует в эмпирическом анализе и в нашем случае увеличивается из-за размера данных
и количества моделей. Только тщательный и честный статистический анализ может уменьшить этот риск. В частности, мы рекомендуем
сравнить альтернативные индикаторы и методы на обучающей выборке, выбрать предпочтительный подход или объединить несколько
из них, а затем проверить, остаются ли они действительными на ранее неиспользованной выборке.
Принимают ли корреляции за причины при интерпретации результатов? Опять же, это обычная проблема эмпирического анализа,
которая усугубляется в контексте больших данных. Например, большое количество поисковых запросов в Интернете по запросу «заявка на
пособие по безработице» может предсказать будущую безработицу, естественно, не вызывая ее. Следовательно, мы должны
воздерживаться от причинно-следственной интерпретации результатов, если только она не может быть подтверждена экономической
теорией и/или институциональными соображениями.
Есть ли нестабильность в прогнозировании текущей ситуации конкретных индикаторов, основанных на больших данных? Нестабильность
является частым источником ошибок при прогнозировании текущей погоды, в том числе и со стандартными индикаторами. Это может
быть вызвано различными причинами, такими как повторяющийся кризис, более общие институциональные изменения, перебои в
предоставлении данных и т. д. В случае с большими данными существуют некоторые дополнительные конкретные причины
нестабильности, такие как более широкое использование Интернета. и что Lazer et al. (2014) под названием «Динамика алгоритма», а
именно постоянные изменения, вносимые инженерами для улучшения коммерческого сервиса и потребителями при использовании этого
сервиса. Нестабильность действительно часто игнорируется в современной литературе по большим данным. К сожалению, обнаружение и
устранение нестабильности сложны, особенно в контексте больших данных. Тем не менее, некоторые исправления можно попробовать,
использованная литература
Харфорд, Т. (2014, апрель). Большие данные: совершаем ли мы большую ошибку? Файнэншл Таймс. Доступно по адресу
http://www.ft.com/cms/s/2/21a6e7d8-b479-11e3-a09a-00144feabdc0.html #ixzz2xcdlP1zZ.
Лазер Д., Кеннеди Р., Кинг Г., Веспиньяни А. (2014). «Притча о гриппе Google: ловушки в анализе больших
данных», Science, 143, 1203–1205.
Марчеллино, М. (2016 г.), «Прогнозирование текущей ситуации с использованием больших данных», программная речь на 33-йрдКонференция CIRET.
Тибширани, Р. (1996). «Регрессионное сокращение и отбор с помощью лассо», Журнал Королевского статистического
общества B, 58, 267–288.
Бесплатные публикации:
• один экземпляр:
через книжный магазин ЕС (http://bookshop.europa.eu);
(*) Предоставляемая информация бесплатна, как и большинство звонков (хотя некоторые операторы, телефонные будки или отели могут взимать с вас плату).
Платные публикации:
к моделированию
http://ec.europa.eu/eurostat/
ISBN 978-92-79-63963-0