Вы находитесь на странице: 1из 2

ИЗВЛЕЧЕНИЕ И АНАЛИЗ ДАННЫХ С ПОРТАЛА ГОСУДАРСТВЕННЫХ

ЗАКУПОК
Ибраева Н.С., Кудинов А.В.
Национальный Исследовательский Томский Политехнический Университет
nsi5@tpu.ru

Введение информацию: о заказчиках, поставщиках и их


Объектом исследования являются открытые данные заявках, итогах конкурсов, предметах торгов,
портала государственных закупок. Эти данные результатах торгов, предлагаемые и итоговые цены
могут быть проанализированы с целью выявления на продукты или услуги, а также зафиксированое
различных видов мошенничества среди участников время каждой из операций. Анализ предметной
торгов. Для того, чтобы использовать современные области показал, что первоначально необходимо
инструменты и методы автоматизированного извлечь данные из ресурса, разработав при этом
анализа открытых данных их сперва необходимо специализированный синтаксический анализатор. В
извлечь с портала, а также осуществить их дальнейшем следует извлечь данные из портала,
подготовку к анализу. Статья посвящена решению сформировав реляционную базу данных,
данных задач. необходимую для подготовки данных к анализу.
Проанализировав предметную область, была Процесс извлечения и анализа данных
выделена цель работы: создать синтаксический Для извлечения данных было решено использовать
анализатор (далее парсер) и модель базы данных публичный FTP-сервер ресурса госзакупок,
для извлечения данных с ресурса госзакупок для имеющего адрес ftp://free:free@zakupki.gov.ru [2].
последующего их анализа. Для получения первичных данных было принято
Для достижения цели, обозначенной выше, решение реализовать парсер, используя библиотеки
необходимо решенить следующие задачи: lxml, odbs, а также модули os, zipfile, ftplib,
 провести исследование ресурса госзакупок; входящие в состав Python 3.4. Для хранения
 определить виды мошенничества, выявление полученной информации было принято решение
которых будет осуществляться системой; использовать систему управления базами данных
 выделить ключевые данные портала; Microsoft SQL Server. Входными данными для
 изучить структуру XML документов; приложения, анализирующего сайт, являются FTP-
 спроектировать таблицы с атрибутивными ссылки. В результате обработки парсером
данными; получаются выходные данные в реляционной БД.
 нормализовать таблицы; Парсинг страниц осуществляется в несколько
этапов: получение архивов данных, находящихся на
 выполнить связывание таблиц;
FTP сайте государственных закупок
 разработать парсер;
(ftp.zakupki.gov.ru), извлечение из архивов файлов,
 настроить парсер для анализа данных портала;
которые имеют формат XML, анализ извлечённых
 произвести тестовое извлечение данных в БД. файлов и сохранение необходимой информации на
Анализ предметной области сервер.
Исследуемой областью данного проекта является На рис. 1 представлена общая модель
портал государственных закупок Российской синтаксического анализатора:
Федерации. Данный портал позволяет оформлять
заказы, участвовать в торгах, заключать контракты,
отслеживать отзывы пользователей услуг, вести Подключение Извлечение
Извлечение
данных из
мониторинг имеющихся заказов, организаций, к FTP архивов с FTP
архива
контрактов, жалоб, недобросовестных поставщиков.
Основой для исследований являются данные о
заказах [1]. Поскольку технические возможности
ресурса не совершенны, нередко имеют место
Выгрузка в базу Синтаксический
случаи мошенничества среди участников данных анализ XML файла
конкурсов. Соответственно, есть необходимость в
методологиях и технологиях, позволяющим
выявлять эти случаи, в том числе «договорные» Рис. 4. Общая модель синтаксического анализатора
тендеры, анализировать цены продуктов и услуг в Для хранения данных необходимо создать
зависимости от времён года, региона и других реляционную БД. С этой целью была
факторов, а также возможности манипулировать проанализирована структура хранения информация
этими параметрами путём создания подставных об извещениях, протоколах и контрактах. Данные о
кандидатов. Таким образом, для обеспечения них представлены в региональной выгрузке в
выявления некоторых видов мошенничества папках notifications, protocols, contracts.
существует необходимость создания методологии Начальный этап закупок представлен в виде
извлечения данных и их последующего анализа. извещений. С их помощью заказчики
Извлечённые данные должны содержать в себе информируются о начале торгов. Данные,
57
хранящиеся в извещениях, имеют ценность для предназначенный для выполнения сбора данных с
дальнейшего анализа. Структура извещений хранит FTP сервера портала государственных закупок.
ключевую информацию о названии закупки, После создания синтаксического анализатора была
заказчике, дате опубликования, начальной цене, спроектирована модель базы данных. Данная база
способе размещения заказа (электронный аукцион, является основой для построения кубов данных и
открытый конкурс и другие), лотах и объектах дальнейшего их анализа.
закупки [3]. Одна закупка может иметь связь с По окончанию проектирования БД было
несколькими поставщиками, поэтому в извещении произведено извлечение данных с FTP-сервера. В
может быть несколько лотов, т.е. у каждого лота дальнейшем необходимо анализировать
может быть отдельный поставщик. В объектах полученные данные с помощью технологии OLAP в
закупки указывается информация о необходимых Microsoft SQL Server Analysis Services.
товарах или услугах. При их обозначении
используется ОКПД (Общероссийский Используемые источники
классификатор продукции по видам экономической 1. Ибраева Н.С.; Сергеев Д.А. Использование
деятельности). технологий Business Intelligence для анализа
Протокол представляет собой файлы с итоговыми данных в сфере государственных закупок //
решениями, принятыми при рассмотрении Технологии Microsoft в теории и практике
различных этапов проведения закупки. В файле программирования: сборник трудов XII
протокола показаны заявки поставщиков, также в Всероссийской научно-практической
протоколах может быть несколько лотов. В таком конференции студентов, аспирантов и молодых
случае заявки поставщиков относятся к ученых (Томск, 25–26 марта 2015 г.) / Томский
определённому лоту. политехнический университет. – Томск: Изд-во
В файлах протоколов имеется информация, Томского политехнического университета,
необходимая при будущем анализе, такая как: 2015. – 251 c.
информация о поставщике (раскрывается на 2. Разъяснения по процедуре выгрузки сведений об
последних этапах), дате подписания протокола, опубликованных документах на FTP-сервер
предлагаемых ценах и количестве товара. Общероссийского официального сайта
Протокол и заявка могут быть отклонены, что также [Электронный ресурс]. – режим доступа: URL:
отражается в базе данных. http://zakupki.gov.ru/wps/portal/base/topinfo/infor
Данные из файлов контрактов содержат следующую mation, свободный (Дата обращения:
информацию: этап контракта, тип контракта, 20.10.2015)
данные о победившем поставщике, заказчике, дата 3. Интеграция ООС. Описание версии 5.0
подписания, номер изменений. Указывается также [Электронный ресурс]. – режим доступа: URL:
информация о необходимых товарах или услугах и http://zakupki.gov.ru/epz/main/public/document/vi
об утверждённых ценах на них. ew.html?sectionId=6&pageNo=1&categories=FZ4
4&_categories=on&_categories=on&_categories=o
Заключение n&_categories=on, свободный (Дата обращения:
В процессе выполнения работы достигнуты 20.10.2015)
следующие результаты: освоены методы
предварительного извлечения и обработки данных,
для извлечения данных; изучены методы парсинга
веб-страниц для извлечения тестовых наборов
данных и последующей работы с ними. В
результате изучения методов извлечения данных
был разработан синтаксический анализатор,

58