Вы находитесь на странице: 1из 5

Заметки по информатике и математике Выпуск 11

УДК 311.2:004.021

Кластеризация как элемент предобработки данных при


оптимизации портфеля по модели Марковица
А. Ю. Полетаев, Е. В. Старчиков
Ярославский государственный университет им. П. Г. Демидова
E-mail: anatoliy-poletaev@mail.ru, evgenijstarchikov@gmail.com

Аннотация
Вопрос составления оптимального портфеля относится к
наиболее важным проблемам, имеющим огромное практиче-
ское значение. Однако из-за того, что объём исходных дан-
ных обычно достаточно велик, необходимо искать способы
упрощения расчётов. В данной статье исследуется вопрос
влияния предварительной кластеризации данных, позволя-
ющей снизить их размерность, на выбор оптимального порт-
феля по модели Г. Марковица.
Ключевые слова: кластеризация, портфельные инвести-
ци, портфель Марковица, финансы.

Постановка задачи
Согласно портфельной теории, впервые сформулированной Гар-
ри Марковицем в 1952 г., для составления оптимального портфеля
из n ценных бумаг необходимо оценить
Pn лишь два показателя [1].
1) ожидаемую доходность R = i=1 PRni XP
i;
n
2) меру риска (изменчивости) V = i=1 j=1 σi,j Xi Xj .
Здесь Ri — ожидаемая доходность
Pni-ой ценной бумаги; Xi — доля
средств, инвестированных в неё ( i=1 Xi = 1); σi,j — ковариация
доходностей ценных бумаг i и j.
Портфель может быть оптимизирован по заданной ожидаемой
доходности (для минимизации риска), по заданному риску (для
максимизации доходности) и по RAPOC (risk-adjusted return) — то-
гда максимизируется функция R − γV , где γ — некоторый коэф-
фициент. Результатом оптимизации является вектор долей X =
[X1 , . . . , Xn ]
В настоящее время разработано достаточно много математиче-
ских методов оптимизации портфеля по Марковицу [2; 3], однако их
общим недостатком является достаточно высокая вычислительная

c Полетаев А. Ю., Старчиков Е. В., 2019

1
Заметки по информатике и математике Выпуск 11

сложность. Учитывая, что объём биржевых данных, как правило,


велик (например, только на американской бирже NASDAQ торгу-
ются акции более 3000 компаний [4]), а оптимизация портфеля на
динамичном рынке может требоваться достаточно часто, необходи-
мо искать пути ускорения выбора оптимального портфеля.

Предлагаемое решение
Предлагаемый подход заключается в предварительной класте-
ризации — разделении n доступных ценных бумаг на k групп (кла-
стеров) (k < n). Затем для каждого кластера рассчитывается до-
ходность как средняя доходностей входящих в него ценных бумаг
и строится ковариационная матрица доходностей кластеров. По-
сле этого можно будет решать задачу оптимизации портфеля с
меньшим числом параметров, получив вектор долей для кластеров
W = [W1 , . . . , Wk ]. Рассчитать долю каждой ценной бумаги можно
по формуле:
Wj
Xi = ,
Sj
где

j — кластер, в который входит ценная бумага i;


Sj — число ценных бумаг в кластере j.
Критерием разделения (матрицей расстояний для метода иерар-
хической кластеризации) может служить, например, корреляция
доходностей ценных бумаг.
Таким образом, предлагаемый способ позволяет, если кластеры
выделяются хорошо, и k значительно меньше n, достаточно силь-
но снизить вычислительную сложность оптимизации портфеля по
модели Марковица. Кроме того, возможно, результаты проведён-
ной однажды кластеризации можно будет использовать в течение
некоторого времени (до тех пор, пока значительно не изменится
матрица парных корреляций). Однако этот вопрос однозначно тре-
бует дополнительного изучения.
Из-за того, что кластеры представляют собой объединения цен-
ных бумаг, оптимальный портфель, рассчитанный для кластеров,
будет по своим характеристикам хуже, чем оптимальный портфель,
рассчитанный для отдельных ценных бумаг. Для выяснения целесо-
образности применения предложенного решения необходимо опре-

2
Заметки по информатике и математике Выпуск 11

делить, насколько сильным будет снижение характеристик опти-


мального портфеля, рассчитанного для кластеров ценных бумаг,
по сравнению с оптимальным портфелем, рассчитанным для от-
дельных ценных бумаг.

Пример проверки предлагаемого решения


Для проверки качества предложенного решения использова-
лась следующая методика: проводилась кластеризация (агломера-
тивным методом, относящимся к группе методов иерархической
кластеризации), затем для кластеризованных данных составлял-
ся оптимальный портфель по заданной ожидаемой доходности Rc ,
риск полученного портфеля — Vc . После этого составлялся опти-
мальный портфель для некластеризованных данных по заданному
риску Vn = Vc , доходность полученного портфеля — Rn . Разность
L = Rn − Rc является «потерей» — доходом, который не был полу-
чен из-за применения предварительной кластеризации. Проверя-
лись два метода вычисления расстояния — дальнего соседа (также
называемый методом полной связи) и средней связи и различные
пороги кластеризации t. Для кластеризации использовалась биб-
лиотека scipy.cluster, для оптимизации — CVXPY. Проверка произ-
водилась на данных об акциях, торгуемых на Нью-Йоркской фон-
довой бирже и акциях компаний из рейтинга Standard & Poor’s 500
за 2016 год. Наиболее интересные результаты проверки приведены в
таблице 1 (все они относятся к данным компаний из рейтинга S&P
500). Для демонстрации были выбраны результаты при заданной
доходности портфеля на кластеризованных данных Rc = 120 % и
130 %, однако аналогичные закономерности прослеживаются и при
Rc = 110 % и 140 %. Основные выводы, которые можно сделать из
проведённой проверки, следующие:
• снижение доходности портфеля из-за предварительной кла-
стеризации достаточно сильно связано с числом выделенных
кластеров и с пороговым значением кластеризации t (коэф-
фициент корреляции rLt ≈ 0, 7);
• для составления оптимального портфеля предварительная
кластеризация с определением расстояния по методу дальнего
соседа однозначно лучше, чем по методу средней связи. Ско-
рее всего, это связано с тем, что при применении метода даль-
него соседа сильнее проявляется ограничение на попадание в
один кластер акций с разной, несовпадающей изменчивостью;

3
Заметки по информатике и математике Выпуск 11

t Метод Число L, % L, %
определения выделенных при при
расстояния кластеров Rc = 120 % Rc = 130 %
1,5 Средней связи 314 1,8 2,1
2 Средней связи 227 4,5 6,6
2,5 Средней связи 156 5,5 7,7
3 Средней связи 111 7,9 12,4
3,5 Средней связи 77 10,2 16,7
1,5 Дальнего соседа 337 1,8 0,6
2 Дальнего соседа 259 3,6 3,5
2,5 Дальнего соседа 193 4,3 5,4
3 Дальнего соседа 149 4,5 5,2
3,5 Дальнего соседа 114 6,4 10,6

Таблица 1: результаты проверки предлагаемого решения на данных


компаний из рейтинга S&P 500 за 2016 год.

• чем выше заданная доходность кластеризованного портфе-


ля, тем сильнее будет снижение доходности по сравнению с
некластеризованным портфелем аналогичного риска (то, что
данная закономерность не выполняется для наблюдений при
t = 1, 5 и 2 и определении расстояния по методу дальнего
соседа является, скорее всего, аномалией, но данный вопрос
требует отдельного изучения);
• варьируя заданную доходность и порог кластеризации, можно
«подбирать» снижение размерности задачи и падение доход-
ности портфеля.

Заключение
Подводя итог, можно сделать вывод о том, что предварительная
кластеризация позволяет снизить размерность задачи в 2–3 раза
при потере доходности в 3–5 %, что может быть целесообразным
при участии в краткосрочных торгах на бирже с ограниченными
вычислительными ресурсами. В то же время, полученный резуль-
тат нельзя считать окончательным, возможно, существуют способы
снизить размерность ещё сильнее при сохранении существующей
потери доходности или уменьшить потерю доходности при сохра-
нении уже достигнутого снижения размерности.

4
Заметки по информатике и математике Выпуск 11

Список литературы
1. Markowitz H. Portfolio Selection // The Journal of Finance. 1952.
Vol. 7, no. 1. P. 77–91.
2. Дубровин В. И., Оськив О. Модели и методы оптимизации вы-
бора инвестиционного портфеля // Радиоэлектроника, инфор-
матика, управление. 2008. № 1. С. 49—60.
3. Joshi C. Markowitz Portfolio Optimization. 2017. URL: https:
//chaitjo.github.io/markowitz/ (visited on 06/13/2019).
4. NASDAQ corporate overview. 2015. URL: https://business.
nasdaq.com/media/Nasdaq%20Corporate%20Factsheet%202015_
tcm5044-11606.pdf (visited on 06/13/2019).