Вы находитесь на странице: 1из 31

1

Введение
Одним из актуальных вопросов, широко обсуждаемых в научном
сообществе, является оценка результатов деятельности ученого или научного
коллектива. Этот вопрос приобретает особую актуальность при рассмотрении
заявок и предложений о финансировании исследовательских работ.
Современные методики оценки используют, преимущественно,
количественные (наукометрические) показатели, основанные на данных
научной статистики о количестве публикаций ученых и ссылок на них.
Вместе с тем существует достаточно большое число критических
публикаций, в которых подробно анализируются недостатки данного подхода.
В частности, отмечается тенденция постоянного роста числа научных
публикаций, содержащих заимствования из собственных, а также чужих
работ, что снижает эффективность наукометрических оценок и требует
проведения дополнительного анализа публикаций на наличие заимствований.
Анализ программных продуктов для поиска и выявления заимствований,
представленных на рынке IТ-технологий, показал, что практически все
подобные программы работают примерно по одному принципу – тотального
перебора текстов в соответствующих базах данных и поиска прямых
совпадений в публикациях, а их основные отличия заключаются в объеме и
скорости обработки анализируемых баз данных.
Вопрос смысловой идентичности текстов является по прежнему очень
сложным и в тоже время насущным при анализе научных публикаций.
Данный вопрос относится не только к чисто технической реализации методов
поиска похожих фрагментов, а в большей степени затрагивает, на наш взгляд,
правовые и этические проблемы. Что есть «первенство идеи» и что такое
адаптация, развитие, «аранжировка». Вспомним яркие примеры Моцарта и
Сальери, Эзопа-Лафонтена – Крылова, Попова-Маркони и т.д. Оставим
2

данные проблемы за пределами данной публикации для специалистов в


области этики, права и истории.
В данной работе предлагается рассмотреть два подхода связанные с
проблемой оценки смысловой значимости текста по определенной проблеме.
Предлагаемые подходы были разработаны с учетом определенного опыта
эксплуатации программно-аппаратного комплекса «TextAppliаnce» («ТА»), в
котором реализованы алгоритмы обработки текстовой информации такие как
поиск заимствований, построение облаков ключевых слов отдельных текстов
и коллекций публикаций, выделение в тексте публикаций фрагментов
содержащих описание результатов работ, представленных в публикации,
выделение кластеров в коллекциях публикаций, автоматическое
формирование резюме отдельных публикаций, тематический поиск
публикаций по ключевым словам и ряд других. Не будем подробно описывать
данный комплекс, данная статья не является рекламной, а упоминание данных
алгоритмов указывает откуда мы получали те или иные данные и
соответственно, как они были использованы в предлагаемых методиках.
1. Описание алгоритмов
1.1Задача «сравнительный анализ публикаций»

Одной из задач с которой работает аналитик – это выявление творчески


активных научных авторов и возможная оценка его научного потенциала.
Ясно, что для решения данной задачи нужно создать шкалу критериев по
которой оценивается как конкретная рукопись, так и коллекция публикаций
конкретного автора по заданной тематике. Рассмотрение коллекции
публикаций за определенный период обусловлено необходимостью оценки
развития автора, как творческого индивида во времени.
Основой оценки публикации или коллекции публикаций может являться
только само содержание публикации, те слова, сочетания их
последовательность, логичность и доказательность аргументов, которые в ней
приведены. Не будем останавливаться на проблеме цитирования автора и
3

подсчете его рейтинга в разных журналах, этот вопрос очень активно


обсуждается, имеет своих сторонников и противников. Мы попытались найти
несколько иной подход к оценке творческого потенциала автора.
В своих работах автор отражает свой подход к решению поставленной
проблемы через тот лингвистический аппарат, к которому он прибегает,
излагая в публикации исследование и полученные результаты. Это, впрочем,
очевидный факт, неоднократно отражен и доказан в соответствующей
литературе, например, работы Л.С. Выготского «Мышление и речь», Н.
Хомского «Язык и мышление».
Вспомним А.С. Пушкина: «Я к вам пишу - чего-же боле?
Что я могу еще сказать?»
Так, что не будем подробно рассматривать данный посыл, а взяв его за основу
предложим различные методики оценки научных публикаций на основе
различных типов анализа текста.
Метод многокритериальной оценки коллекций публикаций автора.
В основе предлагаемого подхода лежит создание набора критериев, по
которым достаточно объективно можно оценить публикации. Для оценки
критериев применим построение гибкой шкалы оценок, где эксперт принимает
значение в рамках определенного оценочного коридора.
Отметим, что в качестве критериев выбирались те показатели, которые можно
получить при помощи уже упомянутого выше комплекса «ТА». В случае, если
есть желание, данные критерии можно заменить на другие, мы предлагаем
общий подход к многокритериальной оценке научного текста.
Предлагается следующий подход к анализу и оценке научных
публикаций автора.
Для оценки автора первоначально формируется коллекция его публикаций.
Естественно желательно, чтобы эта коллекция охватывала достаточно
большой срок его публикационной активности и в ней должны быть
представлены работы за различные периоды его деятельности. Это позволит
увеличить объективность анализа развития конкретного автора, как ученого.
4

Были выбраны следующие критерии:


1. Использование терминологии;
2. Наличие кластеров;
3. Степень заимствований;
4. Новизна исследований заявленной темы;
5. Актуальность заявленной темы;
6. Соавторство;
7. Доля в публикациях по заявленной теме;
8. Уровень изложения проблемы;
9. Мощность коллекции публикаций.
Исходя из опыта эксплуатации комплекса «ТА» данным критериям был
присвоен различный коэффициент важности. Предлагаемые коэффициенты
являются в определенной степени субъективным по воле авторов статьи, но на
общий подход методики они не влияют.
Рассмотрим описание критериев и методику их оценки по гибкой шкале.
Возможные оценки каждого из показателей шкалы находятся в
диапазоне от 1 до 10, при этом каждый показатель разбивается на три
качественных интервала: низкий (оценка 1-3), средний (оценка 4-6), высокий
(7-10). Конкретные оценки в каждом интервале проставляет эксперт.
Если, в идеальном случае, мы имеем возможность сформировать
коллекцию публикаций автора за достаточно длительный период, то это, в
свою очередь, позволяет оценить те изменения, которые произошли в его
творчестве. Естественно, чем больше объем коллекции публикаций и больше
период, тем получаемая оценка будет полнее характеризовать творческий
потенциал ученого.
Сформировав коллекцию научных публикаций ученого, для удобства
анализа разобьем её на субколлекции, по интервалам времени, при этом
желательно получить субколлекции, сравнимые по количеству содержащихся
в них публикаций.
5

1.2 Описание критериев


Рассмотрим механизм оценки коллекции публикаций по данным критериям.
Критерий №1 "Использование терминологии"

Данный критерий является одним из ключевых. Он имеет коэффициент


важности -10.
Как описано выше при выборе критериев учитывалась возможность их оценки
при помощи функциональных возможностей комплекса «ТА».
При оценке по данному критерию используется возможности режим
сравнения облаков ключевых слов отдельных коллекций (субколлекций)
публикаций. В этом режиме указывается относительная величина общности
ключевых слов между двумя коллекциями публикаций. Более подробно
механизм сравнения ключевых облаков двух коллекций, реализованных в
«ТА» опишем ниже.
За основу оценки данного критерия возьмем два положения о объеме научного
тезауруса ученого: во первых, он должен развиваться во времени и
естественно обогащаться новыми терминами и определениями, а во вторых он
должен быть сопоставим тезаурусом научных терминов ведущих
специалистов рассматриваемой проблемы.
Исходя из этих положений предлагается два подхода к оценке использования
научной терминологии автором.
В случае если сформирована достаточно большая коллекция публикаций
автора, имеет смысл рассмотреть процесс развития тезауруса автора.
С этой целью вся коллекция публикаций разбивается на субколлекции по
сравнимым периодам времени и сравнимым мощностям. Затем производится
попарное сравнение облаков тегов субколлекций и выставляются оценки в
соответствии с предлагаемой шкалой.
Если мера совпадения облаков ключевых слов коллекций находится в
диапазоне 0%-30% (оценка 1-3), то это свидетельствует о том, что в
публикациях автора нет преемственности. То есть, автор или занимался в
6

разные публикационные периоды разными темами, или он находится на самом


начальном этапе исследований и еще не определился с выбором главной
области научных интересов.
Если мера совпадения ключевых слов составляет 35%-65% (оценка 7-
10), то это свидетельствует об устойчивости научных интересов автора при
постоянном пополнении своего терминологического запаса.
Если мера совпадения ключевых слов составляет 70%-100% (4-6), то это
свидетельствует о насыщении терминологического запаса автора, что может
быть признаком торможения процесса развития его исследовательских
интересов. Во многих случаях в коллекциях публикаций, сформированных по
интервалам времени, могут быть выделены кластеры научных текстов, по
определенным терминологическим группам ключевых слов.
В случае если мы не имеем достаточно мощной коллекции публикаций, то в
этом случае предлагается сравнивать облако тегов коллекции, которое мы
считаем в высокой степени отражением тезауруса ученого, с облаком тегов
признанного автора по данной тематике, при этом мощности коллекций и
временной период публикаций должны быть сопоставимы, если, конечно, мы
не рассматриваем классические задачи. Здесь временные рамки не играют
основную роль.
Заметим, что в комплексе «ТА» облако тегов строится в общем виде и не
всегда содержит только смысловые теги, а также при подсчете общности слов
в облаках учитывается только их формальное совпадение, а не частоту
встречаемости в текстах. Более подробно данный вопросы описаны ниже, а
также предложения как учитывать данные нюансы. В данном разделе мы
описываем только те приемы, которые уже реализованы и не требуют
доработки.
Критерий №2 "Наличие кластеров"
В комплексе «ТА» реализован режим определение кластеров в коллекции
публикаций, при этом показывается мощность каждого кластера и ключевые
слова публикаций, входящих в кластер. С учетом имеющихся возможностей
7

предлагается следующий подход к оценке данного компонента коллекции


публикаций.
Если количество кластеров более 6, то это свидетельствует о достаточно
широкой ориентации ученого, или о его соавторском участии в различных
коллективных работах (оценка 1-3).
Если количество кластеров находится в диапазоне 3-5 (оценка 4-6) при
условии примерно одинаковой мощности каждого из них, то это
свидетельствует об определенной тематической "разбросанности" автора.
Если количество кластеров составляет 1-2 (оценка 7-10), то это
свидетельствуют о нацеленности автора на тематику кластеров и его узкой
научной специализации.
Критерий №3 "Степень заимствований"
При оценке по данному критерию используем режим выявления
заимствований в анализируемом тексте. Заключительный результат анализа
текста представляется в форме "Оригинальность публикации - хх%".
Для целей многокритериального анализа предлагается следующая
шкала оценок критерия №2 "Степень заимствований":
- Оригинальность публикации 85%-100% (оценка 7-10);
- Оригинальность 65%-84% (оценка 4-6);
- Оригинальность 0%-64% (оценка 1-3).
При этом, конечно, особо стоит вопрос самоцитирования. На наш взгляд, если
это не заявлено, то также является заимствованием.
Критерий №4 " Новизна исследований заявленной темы"
Под данным критерием понимаем исследование вопроса – насколько
оригинальна тема, изложенная в публикации или в коллекции публикаций.
Как заявлялось ранее – на данном этапе мы используем существующие
функциональные возможности в комплексе «ТА», более тонкий подход к
данной проблеме изложен ниже.
С учетом этого в настоящий момент для оценки данного компонента
предлагается использовать режим поиска релевантных публикаций.
8

.
Используя эту функциональную возможность, предлагается следующая
эмпирическая шкала оценок:
- 1-15 похожих публикаций (оценка 7-10);
- 16-30 публикаций (оценка 4-6);
- более 31 публикации (оценка 1-3).
Более тонкую оценку релевантности можно осуществить через
сравнение облаков ключевых слов публикаций в соответствии со следующим
алгоритмом.
Используем вышеупомянутый список гиперссылок для формирования
коллекции похожих публикаций и соответствующего облака ключевых слов.
Далее произведем сравнение облака ключевых слов исходной коллекции
публикаций автора с облаком ключевых слов коллекции похожих публикаций
и определим меру их общности в процентах.
Полученная величина меры общности позволяет эксперту уточнить
оценку. Например, было найдено шесть похожих публикаций
(предварительная оценка в диапазоне 7-10), при этом мера общности облаков
ключевых слов составила 20% (или 0,2). Соответственно, уточненная оценка
должна составить 8, то есть чем мера общности облаков меньше, тем выше
оценка самостоятельности автора по данному критерию.
Критерий №5 " Актуальность заявленной темы"
Данный критерий интересно рассматривать в связке с предыдущим, то есть мы
связываем новизну проблемы для определенного временного периода и её
привлекательность в научном плане после публикации – как на публикацию
отреагировала научное сообщество. Отсюда особое значение принимает
временной период до и после публикаций статей изучаемого автора по
заявленной проблеме.
Для оценки используем обратный алгоритм, то есть чем больше похожих
статей, тем выше интерес научного сообщества к тематике исследований
автора (есть воздействие его работ на научную деятельность сообщества).
9

Критерий №6 " Соавторство"


Под критерием «соавторство» понимается оценка насколько автор может и
склонен работать самостоятельно.
Предлагается следующая шкала оценок:
- 0-3 соавтора в 80% публикаций - оценка 7-10;
- 4-6 соавторов в 70% публикаций - оценка 4-6;
- более 6 соавторов в 30% публикаций и отсутствие самостоятельных
работ - оценка 1-3.
Критерий №7 " Доля в публикациях по заявленной теме"
По данному критерию мы определяем насколько автор занимает
значимое место в публикациях по заявленной теме. Данная оценка также
может быть получена при помощи комплекса «ТА». Это осуществляется по
следующему алгоритму: проводится семантический поиск публикаций по
заданной теме, затем в режиме «распределение документов по авторам»
определяется место изучаемого автора по числу публикаций среди всех
найденных.
Для оценки по данному критерию предлагается следующая шкала:
- исследуемый автор находится среди 5 самых активных авторов
(оценка 7-10);
- автор находится в числе 6-10 активных авторов (оценка 4-6);
- автор находится в числе более, чем 10 активных авторов (оценка 1-3).
Критерий №8 " Уровень изложения проблемы"
Под данным критерием понимается оценка научности, логичности и
содержательности изложения выводов по проблеме, изложенной в статье.
Данная компонента публикации оценивается в полуавтоматическом режиме
по следующей методике:
формируется выборка отдельных публикаций автора, которые
проверяются на соответствие общим требованиям к научным публикациям
(режим «анализ научных текстов»).
10

Объем такой выборки определяется экспертом, в зависимости от общего


количества публикаций автора в соответствующем временном интервале, но
не менее одной публикации. Оценка по данному критерию проставляется
экспертом на основании автоматически формируемых комплексом «ТА»
списков научных выводов и определений содержащихся в каждой публикации
автора.
Критерий №9 "Мощность коллекций (количество публикаций по
временным интервалам)"
Предлагается следующая шкала оценок:
- Мощность коллекций от 5 ед. - оценка 7-10;
- Мощность коллекций от 3-4 ед. - оценка 4-6;
- Мощность коллекций 1-2 публикации - оценка 1-3.
По каждому интервалу выставляется самостоятельная оценка, затем
выставляется средняя оценка по всей коллекции.
1.3. Многокритериальный анализ
Метод идеальной точки
В предыдущем параграфе были описаны критерии по которым предлагается
производить оценку публикаций автора с целью получения интегральной
оценки относительно его творчества. Теперь перед нами возникает две задачи
– как по этим разным критериям сравнивать различных авторов и как в целом
оценить автора. То есть перед нами стала задача Агафьи Тихоновны,
описанная Н.В. Гоголем – оценить, что важнее нос одного жениха или глаза
другого. Николай Васильевич предложил решить это волевым способом, что-
то не получилось и жених сбежал из-под венца.
Предложим несколько иной способ – классический многокритериальный
способ «идеальной точки». Сравним всех авторов с «идеальным» и
подсчитаем общее евклидово расстояние с учетом всех критериев каждого
автора до идеала.
Рассмотрим формализованное описание данного метода.
11

Согласно описанным выше алгоритмам формируется вектор из 8 компонент


(показателей), описанных выше:
Kr=(p1,p2,p3,p4,p5,p6,p7,p8,p9), где
Kr – вектор оценки автора
pj – отдельный показатель критерия.
Соответственно, составляем вектор оценки идеального автора
Kri=(pi1,pi2,pi3,pi4,pi5,pi6,pi7,pi8, p9).
Далее необходимо подсчитать, насколько вектор по каждой
составляющей отличается от идеала. При этом необходимо учесть, что
составляющие вектора имеют разные весовые коэффициенты важности
значимости).
Соответственно, обозначим коэффициенты важности
Z=(z1,z2,z3,z4,z5,z6,z7,z8,z9).
Для вычисления расстояния вектора до идеальной точки применим
евклидову норму. Тогда расстояние до идеала можно будет определить по
формуле
V=√∑zj(pj - pij)2.
В нашем случае расстояние автора до идеала должно стремиться к 0. Это
достигается, когда вектора Kr и Kri совпадают поэлементно. Соответственно,
максимальное расстояние от автора до идеала это когда вектор Kr = 0.
Обозначим расстояние от 0 до идеала через L. Отсюда расстояние до
идеала от нуля равно
L=√ ∑zj pij2 .
Введем понятие "соответствие идеалу", которое можно выразить
следующей формулой (в процентах):
R=100-V/L×100.
Метод идеальной точки используется для нахождения
квазиоптимального сочетания параметров сложного объекта, при котором он
находится на максимально близком расстоянии от идеального объекта во
12

множестве возможных состояний и сочетаний переменных характеристик


объекта.
В случае рассмотрения вопроса о творческом потенциале ученого, чем
меньше эта разница (расстояние до идеальной точки), тем выше потенциал
(креативность) автор научных публикаций.

2. Алгоритм оценки близости публикаций, реализованный в «ТА»

Изложенная выше методика позволяет, с учетом имеющихся возможностей,


представленных в комплексе «ТА», производить сравнительную оценку
публикаций различных авторов. Вместе с тем необходимо отметить, что
реализованные в комплексе возможности не являются достаточно тонким
инструментом для анализа публикаций. В определенной степени
показательным является реализованный в комплексе метод сравнения облаков
ключевых слов коллекций публикаций. Рассмотрим подробнее реализованный
режим сравнения облаков ключевых слов коллекций.
Введем некоторые обозначения, которые нам пригодятся в дальнейшем при
рассмотрении и формализованном описании различных подходов к оценке
текста публикации.
Обозначения:
I, J - условные обозначения коллекций документов, подлежащих анализу;
Ni - множество документов в коллекции I;
Nj - множество документов в коллекции J;
Si - множество (облако) ключевых слов в коллекции I;
Wi – количество слов в Si
Sj - множество (облако) ключевых слов в коллекции J;
Wj – количество слов в Sj
Si∩Sj – Sij подмножество ключевых слов, которые присутствуют в обоих
коллекциях, соответственно Wij;
13

\Sij – подмножество ключевых слов, которые присутствуют в коллекции I, но


не присутствуют в коллекции J;
\Sji – подмножество ключевых слов, которые присутствуют в коллекции J, но
не присутствуют в коллекции I.
Как описано выше, в комплексе «TА» есть функция (режим) «сравнение
коллекций», в котором используется аппарат так называемой "меры
включения". В этом режиме на экран выводятся ключевые
слова/словосочетания, общие для сравниваемых коллекций, а также ключевые
слова каждой коллекции, которые не вошли в их пересечение. Кроме того, в
этом режиме на экран выводится так называемый "процент близости
коллекций", который подсчитывается на основе учета количества общих
ключевых слов в облаках ключевых слов обеих коллекций.
Обозначим понятие "близости коллекций" как Hij. Близость коллекций
в комплексе в настоящее время вычисляется по следующей формуле:
Hij=Wij/min{Wi,Wj}×100 (мера Шимкевича-Симпсона) (1)
Как видно из формулы (1) в данном режиме учитываются только
числовые характеристики облаков ключевых слов. Однако, облака тегов
коллекций публикаций содержат помимо перечисления ключевых слов еще
одну важную характеристику – вес этих слов в тексте, а вот этот показатель и
не учитывается в режиме, который реализован в комплексе.
Данный момент, а также некоторые другие моменты подвигли нас к
рассмотрению вопроса создания более тонкого аппарата для анализа текстов
публикаций.
3. Другие методы оценки близости публикаций
Ниже приводятся несколько подходов к оценке близости текстов публикаций
через оценку близости облаков ключевых слов (тегов). Отметим, что
предлагаемые методики базируются на основном понятии – четкой
возможности получения характеристик о публикациях доступными
средствами, в том числе и при помощи комплекса «ТА».
3.1. Количественный подход
14

Данный подход основан на учете количества слов (словосочетаний) в


облаках ключевых слов в коллекциях публикаций, которые сравниваются.
Дополнительно введем несколько обозначений:
ƛij – коэффициент соответствия мощностей облаков ключевых слов
коллекций, которые сравниваются. Под мощностью облака будем понимать
количество слов/словосочетаний в облаке (пока без учета их веса).
Соответственно, под весом ключевого слова будем рассматривать его
отображение комплексом TextAppliаnce при помощи изменения размера
шрифта, который показывает нормированное значение количества повторений
данного слова в облаке. Более подробно рассмотрим это ниже.
Коэффициент соответствия мощностей облаков коллекций I и J
определим как
ƛij=Wi/Wj (2),
и, соответственно, соотношение мощностей облаков коллекций J к I как
подобное выражение, но с обратной последовательностью индексов.
Далее рассмотрим новый вид (тематической) близости коллекций I и J.
При этом будем различать, насколько коллекция I близка к коллекции J и
наоборот.
Соответственно, близость коллекции I по отношению к коллекции J
можно подсчитать по формуле
H*ij=(Wij/ ƛijWi)×100 (3),
а схожесть коллекции J по отношению к коллекции I - по формуле
H*ji=(Wij/λjiWj )×100 (4).
Очевидно, что величины H и H* имеют разное значение, так как во
втором случае мы учитываем, хотя и косвенно, размер коллекций через
размеры облаков ключевых слов.

.3.2. Весовой подход


Алгоритмы изложенные выше основаны на количественных
характеристиках облаков ключевых слов коллекций, однако, на наш взгляд,
15

привлекательным и недооцененным является то свойство облаков, что


слова (теги), входящие в них имеют разный вес, что пропорционально
частоте встречаемости в тексте, что и иллюстрируется размером шрифта.
Эту особенность состава облаков мы предлагаем использовать для оценки
близости текстов публикаций. Будем считать размер шрифта слова в облаке
его весом.
При этом отметим, что на данном этапе мы не будем выделять и
рассматривать смысловое содержание слов в облаках. Кроме того, мы
также не будем разделять понятия отдельных слов и словосочетаний.
Построим оценку близости (сходства) коллекций через введенное
понятие веса.
Введем следующие обозначения:
Пусть ΜI- мера облака ключевых слов коллекции I, которую определим
как ΜI= ∑μi,
где μi – это мера (вес) i-го слова в облаке, величина которого равна размеру
шрифта, а суммирование ведется по всем словам в облаке коллекции I.
Соответственно, мера пересечения коллекций I и J вычисляется по формуле
ΜSij=∑μ*i+∑μ*j (5),
где, соответственно, μ*j – это мера слов из пересечения коллекций I и J,
соответственно с весом в коллекции J, и зеркально в коллекции I.
Каждое слагаемое в (5), например, ∑μ*i это мера общности коллекции I
в отношении J, обозначим её как Μ*IJ (6)
Соответственно, меру для коллекции J обозначим, как Μ*JI (7).
Отметим, что величины мер (6) и (7) отличаются, так как ключевые
слова из пересечения облаков имеют разный вес в рассматриваемых
коллекциях. При этом необходимо отметить, что и вес облаков тоже
будет разным, что вызвано и размерами коллекций, распределением ключевых
слов в коллекциях и рядом других факторов
Поэтому, аналогично выражению (2) введем коэффициент соответствия
коллекции I коллекции J:
16

ϴij= ΜI/ ΜJ (8),


а также коэффициент соответствия коллекции J коллекции I:
ϴji=MJ/MI (9).
Теперь мы можем определить насколько пересечение облаков
коллекций свидетельствует о взаимной корреляции облаков коллекций по
отношению к друг к другу. Для этого введем обозначение коэффициента
близости облаков коллекции I к коллекции J, который можно посчитать по
модифицированному коэффициенту Серенсена:
Rij = 2 ϴij Μ*IJ / ΜSij (10).
Соответственно зеркально подсчитывается коэффициент близости
коллекции J по отношению к коллекции I.
Под близостью мы подразумеваем насколько общие ключевые слова в облаке
одной коллекции являются более значимыми (или менее значимыми), по
сравнению с облаком другой коллекции.
Такой подход к оценки близости публикаций несомненно позволяет более
полно учитывать различие характеристик словарного содержания текстов.
3.3. Анализ смысловой близости текстов с учетом веса ключевых слов
В предыдущих алгоритмах мы рассматривали состав облака тегов публикаций
целиком, однако необходимо отметить, что в состав облаков, в силу механизма
его формирования входят слова не несущие смысловой нагрузки
(местоимения, сокращения и т.д.), однако имеющие определенный вес и
поэтому влияющие на подсчет меры близости. Исходя из этого предлагается
ввести понятие – ядро облака ключевых слов. Ядро формируется из слов,
значение которых больше порогового. Опыт показывает, что с определенного
размера шрифта в ядро попадают только слова имеющие определенное
значение и относящиеся к тематике публикации.
Отметим также, что для более четкого формирования облака тегов желательно
рассматривать только тело публикации, исключить из формирования
аннотацию и список литературы, которые в определенной степени очевидно
искажают облако тегов и соответственно его ядро.
17

Соответственно введенные формулы (5) – (10) можно использовать для


сравнения публикаций посредством сравнения ядер облаков ключевых слов.

4. Анализ публикаций посредством аппарата теории графов


4.1 Общий подход
Ранее мы определили меру близости меду двумя коллекциями публикаций
через ядра облаков ключевых слов. Рассмотрим, как можно использовать этот
алгоритм для сравнения различных коллекций и выбирать среди этих
коллекций наиболее нам подходящую по каким –то параметрам поиска.
Конечно можно сделать попарное сравнение, но мы предложим несколько
иной алгоритм.
Предположим нам дано определенный объем коллекций публикаций на
заданную тему. Необходимо выяснить какие публикации наиболее интересны
нам в плане изучаемой нами проблемы. При этом мы хотим выделить из
потока те публикации, которые с одной стороны достаточно полно освещают
заданную проблему, а с другой стороны они должны содержать элементы
новизны.
Для анализа текстов предлагаем применить аппарат теории графов.
По возможности проблема должна быть четко определена и не быть
расплывчатой и абстрактной.
Первоначально необходимо сформировать облако ключевых слов
описывающих данную тему.
Для создания данного набора ключевых слов предлагается использовать
следующий алгоритм – создать коллекцию публикаций различных
авторитетных авторов и использую эту коллекцию создать облако ключевых
слов. При этом отметим, что чем больше авторов мы включим в эту
коллекцию, тем полнее будет наше облако.
18

Из этого облака, посредством описанного выше метода, создаем ядро


ключевых слов по нашей тематике. При этом отметим, что слова будут иметь
различные веса.
С учетом того, что в коллекции войдут публикации различных авторов, это
позволяет предположить, что тем самым в ядро попадут различные слова
синонимы, употребляемые разными авторами для описания одни и тех же
процессов. Длина и представительство таких цепочек синонимов
определяется только экспертным путем в ходе экспериментов и зависит от
точности темы и подбора публикаций в эталонную коллекцию.
Перейдем к построению графа публикаций, который мы хотим исследовать.
Будем рассматривать публикации как вершины графа, а мера близости между
публикациями – это вес ребра. Таким образом мы построим взвешенный граф.
Но нас интересует не просто граф с всевозможными ребрами, где каждая
публикация связана с каждой. Нас интересует, как публикации, т.е. вершины
графа соотносятся с эталонной вершиной графа. Таким образом наш граф
становится строго ориентирован к эталонной вершине, которую мы назовем
центральной точкой графа.
Данный подход дает возможность наглядно изобразить близость публикаций
к изучаемой тематике.
Заметим, если ядро облака ключевых слов центральной вершины большое, за
счет того, что при его формировании было учтено много публикаций по
несколько общей теме, а нас интересует какая - то тема по узкой
специализации, то тогда мы можем рассматривать меру близости меду
публикациями только по тем словам, которые нам интересны, с учетом их
весов,
Таким образом, мы описали построение взвешенного направленного графа
публикаций с эталонной центрической вершиной графа. Однако построение
такой эталонной вершины в связи с неоднородностью эталонной коллекции
статей по объему и количеству от различных авторов, и с различной словарной
окраской предмета изучения порождает некоторую погрешность в
19

определении близости вершин графа (статей) к центральной вершине и к


оценке их близости между собой. Рассмотрим еще один вариант построения
графа.
4.2 Построение графа с несколькими центрами.

Если в предыдущем разделе мы создали центральную вершину за счет


интеграции различных эталонных публикаций, то в данном разделе опишем
развитие данного подхода, который позволяет решать дополнительные задачи
по тематической окраске публикаций.
Предлагается по определенному правилу разбить эталонные статьи на
различные коллекции. Например, по авторам или по специфическим вопросам
изучаемой проблемы или по любым другим признакам, являющиеся общими
для коллекций.
Разбив эталонные публикации на группы, мы можем построить очень
интересный ориентированные взвешенный граф. Каждая эталонная коллекция
имеет свою центральную точку, на которую ориентированы все публикации
коллекции. Вес ребер в этих подграфах соответственно мера близости между
публикациями и центральной точкой подграфа. Центральные точки подграфов
ориентированы на центральную точку графа (см. раздел 4.1). Для чего
предлагается такой способ построения графа – каждая оцениваемая
публикация – или новая вершина графа будет ориентироваться как на
центральные вершины подграфов, так и на центральную вершину графа. Это
позволяет определить к какой научной школе, к какому направлению работ и
т.д. близка анализируемая публикация. Данный подход позволяет определять
по публикациям близкие тематики разработок и даже в какой-то степени
определять лидеров и предлагать условия для объединения научных усилий.
4.3. Сравнение коллекций публикаций
В данном разделе мы рассмотрим алгоритм сравнения различных коллекций
публикаций при помощи теории графов.
20

Поскольку мы построили взвешенный граф, где вершины - это публикации, а


ребра это мера близости между публикациями, то тем самым мы можем
построить матрицу переходов между двумя наборами вершин, которые
соответствуют двум коллекциям публикаций. По горизонтали – это вершины
с которыми мы сравниваем, по горизонтали – вершины которые сравнивают,
элементы матрицы – это вес ребер – мера близости между вершинами
(публикациями). Сумма элементов матрицы – это суммарная близость
коллекций, отсюда можно получить и усредненное значение близости.
Наибольший элемент в матрице соответственно самые близкие вершины
(публикации). Построив ряд таких матриц сравнения с определенной
коллекцией можно определить тенденцию близости публикаций. Данный
подход дает различные возможности для анализа, все зависит от воображения
эксперта.
4.4. Формализация алгоритмов.
В предыдущих разделах были рассмотрены различные подходы к анализу
публикаций посредством применения теории графов.
Ниже приводится формальное описание данных подходов.
5. Оптимизация процесса сравнения публикаций.
В данном разделе мы рассмотрим алгоритмы, которые позволяют
оптимизировать процесс определения тематической и смысловой близости
публикаций.
В комплексе «ТА» есть режим разбора текста публикаций, который позволяет
выделить некоторые составные тексты научного текста. Среди них – это
список сформулированных выводов, содержащихся в тексте. Данный режим
позволяет улучшить оценку близости публикаций. Беря за основу фрагменты
текста публикации, которые содержат выводы и на их основе образуя облака
ключевых и затем произведя те действия, которые были описаны выше мы
получаем более четкую картину оценки близости публикаций.
21

Данный подход также позволяет подойти проблеме выявления новых


тенденций в публикациях по рассматриваемой нами тематике, а также
оценивать величину изменения научных интересов автора.
6. Оценка тенденций
Представим еще один алгоритм сравнения.
Введем понятие «устойчивое словосочетание» (УС). Под этим термином
будем понимать слова или словосочетания, которые достаточно постоянно
присутствуют в ядрах облаков ключевых слов каждой публикации.
Если в предыдущих разделах мы рассматривали сравнения по облакам
ключевых слов, по ядрам ключевых слов, то сейчас предлагаем рассмотреть
сравнение по весам УС. При этом поясним, УС относится к каждой
публикации, что означает, что если мы рассматриваем коллекцию публикаций,
то вес УС во всех публикациях не соответствует весу этого сочетания в облаке
ключевых слов коллекции. Хотя, это наверное очевидно, поясним. Ключевое
слово в коллекции может набрать значительный вес за счет частого
упоминания в нескольких публикациях и при этом не быть устойчивым слово
сочетанием во всей коллекции, а вот УС по своему определению должно
встречаться в подавляющем числе коллекций. В частности, это отличие
позволяет определить временные тенденции в публикациях рассматриваемого
автора.
Отметим, что сравнение весов УС различных авторов, в том числе и
изучаемого, и эталонного, можно определить к какой школе относиться
изучаемый автор. Фактор появления новых УС в публикациях – это
достаточно весомый признак, что автор начинает работать над новой темой, а
сочетание новых и старых УС в одних публикациях могут свидетельствовать
о новом подходе к тематике. Здесь становится интересным момент к какой
тематике относятся новые УС.
Пусть Ki(УС) – вес устойчивого сочетания в облаке ключевых слов
публикации I, а MI - это вес ядра публикации I, Vi= Ki(УС) / MI относительная
величина веса УС в публикации I. Вычислим эту величину во всех
22

рассматриваемых публикациях, сложим их и выведем средние


арифметическую величину, обозначим её через K∑(УС) и сравним её с
величиной веса УС, которое вычисляем по весу в облаке ключевых слов
коллекции K(УС) . Обозначим это соотношение как D= K∑(УС)/ K(УС).
Если это выражение лежит в интервале близком к 1, то это означает об
устойчивой работе автора над проблемой, рассматривая эту величину, как
функцию во времени, при наличии больших коллекций публикаций, можно
увидеть как меняется показатель D для различных УС во времени
публикационной активности.
Предварительное заключение.
Итак, нами представлены различные подходы к оценки тематической и
смысловой близости научных публикаций. Еще раз перечислим их:
- многокритериальная оценка по различным аспектам с использованием
метода идеальной точки;
- сравнение коллекций публикаций и отдельных публикаций через наличие
общих ключевых слов;
- оценка близости публикаций по весовым критериям ключевых слов
представленных в облаках тегов;
- оценка близости публикаций и коллекций публикаций при помощи аппарата
теории графов;
- оценка близости публикаций через оценку близости выводов,
представленных в публикациях;
- оценка близости публикаций через понятие устойчивые сочетания.

Общностью для всех предлагаемых методик является достаточно прозрачный


алгоритм их реализации. Понятно откуда брать показатели для алгоритмов.
При желании подходы можно комбинировать или сравнивать между собой.
Степень корреляции оценок, получаемых различными методами, описанных в
статье не превышает степени случайной погрешности.
7. Формализация алгоритмов
23

Рассмотрим формализованное описание тех алгоритмов, которые были


описаны выше
7.1 Работа с ядрами облаков ключевых слов.
Как было описано выше к ядру облака ключевых слов мы отнесем те слова
(словосочетания) которые больше определенного размера шрифта обозначим
этот порог через η. Итак в ядро облако ключевых слов мы включаем все слова
для всех публикаций у которых раз мер шрифта больше или равен η.
Соответственно определим вес (меру) ядра облака ключевых слов коллекции
I, через ΜI(η )= ∑μi,(η) (11), где соответственно ΜI(η ) – это вес ядра облака
ключевых коллекции публикаций I, а каждое слагаемое суммы μi,(η) - это вес
отдельного слова в ядре ключевого облака коллекции I.
Впрочем, вместо коллекции публикаций мы можем с таким же успехом
рассматривать и отдельную публикацию, поэтому в данном случае не будем
различать эти понятия, ведь строго говоря одна публикация – это тоже
коллекция, но из одной публикации.
Аналогично нашим рассуждениям по построению меры общности между
коллекциями публикаций через облака ключевых слов, которые описаны
формулами (5)-(10), опишем меру общности меду коллекциями публикаций
через ядра ключевых слов.
Rij(η) = 2 ϴij(η) Μ*IJ(η) / ΜSij(η) (12) – коэффициент близости ядер облаков
ключевых слов коллекции I к коллекции J. Соответственно зеркально
подсчитывается коэффициент близости коллекции J по отношению к
коллекции I через с учетом ядер ключевых слов.
Конечно интерес вызывает как соотносятся оценки близости по формулам (10)
и (12). Коэффициент корреляции между ними, предлагается следующий
KiJ=√(1- (Rij- Rij(η))2 (13) .
Интуитивно ясно, что этот показатель должен стремится к 1. Его ввод
предназначен для дальнейшего сравнения показателя близости коллекций
публикаций по различным алгоритмам.
24

7.2. Рассмотрим применение теории графов


1 случай построение графа через центральную вершину.
Как описано выше построим взвешенный граф, где вершины графа - это
публикации, а вес ребер соответствует мере близости между публикациями,
рассчитанные по формуле (10) или (12) в зависимости от того, что берем за
основу ядра ключевого облака. Граф будем строить ориентированным.
Конечно можно построить граф, где каждая вершина (публикация) будет
ориентирована на другие вершины, тем самым у нас будет некоторое подобие
планетарной системы, где существует закон притяжения (в нашем случае мера
близости) и все планеты (публикации) связаны между собой и вся вселенная
вращается вокруг своего центра – в нашем случае это центрическая вершина.
В нашем случае будем строить наш граф ориентированным на центрическую
вершину. Как описано выше центрическая вершина - это квинтэссенция
наших интересов.
По своей сути – это ядро ядер всех облаков ключевых слов эталонных статей,
которые мы рассматриваем в силу того, что в них очень подробно и
всеобъемлюще описаны разные подходы к нашей проблеме.
Для чего вы выбираем такой подход – это обеспечивает нам учет тезаурусов
различных ученых, и тем самым нам не потребуется использовать словари
синонимов по рассматриваемой нами предметной области.
Несомненно, тезаурусы пересекаются между собой с разной степенью
совпадения и частоты встречаемости слов.
Перед нами встает задача создания центрической вершины – по сути своей она
представляет собой объединенную «единую публикацию» - этакую проматерь
материи, если говорить о планетарном характере графа, и возникает весь граф
и строится системы близости или если угодно – притяжения.
В создаваемом ядре «единой публикации» - веса одинаковых слов
складываются, а вот величина ядра «единой публикации» - это суммарный
размер всех ядер эталонных статей.
25

Определяем: k – количество эталонных публикаций, тогда в соответствии с


(11) мера (вес) ядра облаков ключевых слов эталонных статей выражается
МŦ(η) = ∑к1 ΜI(η ) (14), где соответственно ΜI(η) – это вес ядра облака
ключевых слов эталонной публикаций I.
Соответственно, введем коэффициент соответствия анализируемой
публикации «единой публикации»:
ϴif(η)= ΜI(η)/ ΜŦ(η) (15), ну а отсюда переходим и соответственно к мере
близости исследованной публикации к «единой».
Rif(η) = 2 ϴif(η) Μ*IŦ (η) / ΜSif(η) (16), где соответственно Μ*IŦ (η) – это мера
слов в ядре облака ключевых слов публикаций I, которые также есть и в
ядре облака публикации Ŧ, а ΜSif(η) – мера пересечения ядер облаков
ключевых слов публикаций I и Ŧ.
На основании формулы (16) мы можем построить связанный
ориентированный граф. Хотя в данном случае мы изложили подход к
построению ориентации графа к одной, центральной, вершине, однако данный
подход позволяет построить ориентацию графа к любой публикации.
Таким образом предложен алгоритм сравнения публикаций между собой.
Однако, предлагается пойти дальше.
2 случай, построение графа с несколькими центральными вершинами
Когда мы формировали единственную центральную вершину, мы тем самым
пошли по пути объединения различных по направленности, но общих по сути
коллекций эталонных публикаций.
Если исходить из того, что определенный интерес представляет вопрос к
какому направлению или, если хотите школе, относится та или иная
публикация или серия публикаций какого- либо автора, или группы
соавторов.
Предлагается следующее построение графа. Условно граф представим в виде
первоначального объединения ряда подграфов. В роли подграфов мы
рассмотрим эталонные коллекции публикаций. Ориентировать вершины
внутри подграфа можно разными способами, например, по мере близости, или
26

в подграфе искусственно построить центральную вершину (см. предыдущий


раздел). Такой подход предлагается для реализации задачи – определения к
какой школе (или подграфу) больше соответствует исследуемая нами
коллекция документов. А эта задача напрямую связана с вопросом
дублирования исследований, или концентрации усилий ученых, которые
работают в близких направлениях. Зная установленную близость
исследований можно решать вопрос о создании виртуальных научных
коллективов из различных научных заведений.
Предлагается следующий алгоритм.
Итак нам дана элитная коллекция публикаций W=(w1……wn). Мы хотим
сравнить с ней коллекцию публикаций какого-то автора, обозначим её
Z=(z1…zm). Обе коллекции можно представить, как вершины взвешенного
графа и значит можно построить матрицу перехода между этими вершинами
(коллекциями).
𝑅(𝑧1𝑤1) ⋯ 𝑅(𝑧1𝑤𝑛)
А(ZW)= [ ⋮ ⋱ ⋮ ] (17), где элементы матрицы
𝑅(𝑧𝑛𝑤1) ⋯ 𝑅(𝑧𝑛𝑤𝑛)
соответственно означают вес ребра, а в нашем случае меру близости между
публикациями исследуемого автора и публикациями из эталонной статьи.
Построении матрицы переходов позволяет решать сразу несколько задач, во
первых из матрицы видно как соотносятся публикации автора и эталонные
между собой, а во вторых, если мы хотим выяснить какой эталонной
коллекции больше соответствует исследуемая коллекция, то мы можем
построить ряд матриц и сравнить по через сумму всех элементов матрицы.
Таким образом, обозначим через {Wj}(18) – набор эталонных коллекций
публикаций, соответственно сумму элементов матрицы переходов меду
коллекций Z и одной из коллекций из множества {Wj} как ƱА(ZWj) (19).
Отсюда, максимальное значение ƱА(ZWj) для всех j свидетельствует о
наибольшей близости рассматриваемой коллекции публикаций к конкретной
27

эталонной, т.е. в определенной степени можно говорить о близости тематики


и может методов исследований.
Таким образом можно сравнивать любые коллекции публикаций.
Подобным образом можно сравнивать любые две коллекции публикаций.
Заметим, что если мы хотим сравнивать ряд коллекций публикаций с
конкретной эталонной, то необходимо учитывать и размеры коллекций,
поэтому показатель близости будет выглядеть следующим образом:
max{ƱА(ZiW)/pi} (20), где {Zi} - множество коллекций публикаций нами
рассматриваемое, W – эталонная коллекция, а pi – это количество публикаций
в i-ой коллекции.
Дополнительные возможности
Описанный выше аппарат можно также использовать и в следующем аспекте.
При помощи комплекса «ТА» возможно осуществлять анализ текста
публикаций на предмет определения фрагментов текста, содержащих
формулировки выводов по проделанной работе. С учетом этой возможности
появляется еще один подход к оценке публикаций.
Полученный таким образом файл, содержащий выводы конкретной статьи
можно рассматривать, как производную первой степени от публикации и
соответственно проводить с ней все манипуляции, описанные выше, а именно
формировать облако ключевых слов, его ядро, сравнивать между собой
производные публикаций и т.д. Полный аналог всех действий и по тем
формулам, которые описаны в предыдущем разделе, включая формирование
графов вокруг выделенных выводов эталонных статей.
Приводить описание математического аппарата не будем, ибо совершенно
идентичен выше изложенным.
Вопрос об оценке корреляции всех изложенных методов рассмотрим ниже.
Приведенные алгоритмы позволяют осуществлять различные подходы к
оценке смысловой близости научных публикаций, однако возникает вопрос –
а как оценить возможность того, что в публикациях появились подходы к
решению рассматриваемой проблемы.
28

Оценка тезауруса автора


Предлагается еще один алгоритм оценки тезауруса автора. Тезаурус автора
несомненно функция, меняющаяся во времени публикационной активности,
отражающая этапы научных интересов автора, его развитие или стагнацию.
Пусть {gα} – это ключевые слова из облаков ключевых слов эталонных
публикаций, которые содержатся одновременно во всех публикациях
(пересечение облаков), описывающих проблему α. Будем считать, что если в
облаке ключевых слов публикации существует множество слов из {gα}и вес
этих слов в облаке больше или равен пороговому значению γ , то в публикации
описывается, в определенной степени проблема α.
Обозначим через H(I)=(h1….hm) (21) – это слова из ядра облака ключевых слов
публикации I, которые входят в множество {gα}.

Исходя из предложенного, можно подсчитать две меры публикации I. M1I –


мере ядра облака ключевых слов публикации I. МН(I) – мера ключевых слов
из ядра публикации I , которые относятся к множеству {gi}, отсюда
соотношение этих величин можно определить как условный процент
отношения статьи к рассматриваемой проблеме λα(I)= МН(I)/ M1I (22).
Заметим, что данный подход можно применить к множествам текстов,
которые построены из фрагментов публикаций, которые содержат выводы.
Если мы рассматриваем не одну проблему, а ряд проблем, то можно построить
соответственно набор множеств G= {g1}…..{gn}, где соответственно {gi}- это
ключевые слова из облаков ключевых слов эталонных публикаций, которые
содержатся одновременно во всех публикациях описывающих проблему
какую-то одну проблему.
Соответственно применяя выражение (22) к различным наборам эталонных
ключевых слов можно подсчитать в какой пропорции автор применяет
тезаурус присущий разным проблемам.
29

Оценка оценок

Выше были представлены различные методики оценки научных публикаций.


Условно их можно поделить на три группы:
– многокритериальная оценка публикаций отдельного автора и сравнение его
с идеалом.
- оценка смысловой близости публикаций или коллекций публикаций
посредством различных методов сравнения весов облаков тегов публикаций;
- оценка тезауруса автора на предмет его тематической направленности и
временных тенденций за период публикационной активности.
Возможности использования предложенных подходов рассмотрим ниже, а
сейчас рассмотрим вопрос сравнения оценок одного события различными
способами. Это делается для того, что бы убедиться в ложности или
истинности полученных оценок, вычисленных по различным методикам.
Очевидно, что если разброс между оценками будет в пределах 5-10%, то
можно с уверенностью говорить о правильности используемых алгоритмов.
Итак, предположим, что мы используем 3 методика для оценки какого-либо
показателя публикации I. Результаты этих оценок обозначим через аi1, аi2, аi3.
Тогда, по этим оценкам можно рассмотреть следующие характеристики:
Среднее арифметическое значение - A*(I)=(ai1+ai2+ai3)/3;
Размах оценок R(I)= amax-amin;
Стандартное отклонение S(I)=√∑(ai-A*)2/3 ;
Коэффициент вариации V(I)=S(I)/ A*(I).
Подсчитав коэффициент вариации для одной публикации, интересно
соотнести эту характеристику со всеми другими оценками коэффициента
вариации для статей одной коллекции. Коэффициент корреляции для всей
коллекции V=∑S(I) /∑ A*(I). В случае успешной оценки этот показатель
должен стремится к 1.

Заключение
30

В данной работе была сделана скромная попытка описать алгоритмы


позволяющие оценить научные публикации с точки зрения оценки слов,
представленных в ней. К сожалению оценить содержание математических
формул, которые подчас представлены в статьях, пока еще не представляется
возможным.
Представленные алгоритмы на наш взгляд дают достаточно объективную
оценку словарному запасу статей. При этом описаны различные подходы к
оценки различных показателей и описаны способы их сопоставления. На наш
взгляд это обоюдоострое оружие, как для критиков, так и для пользователей,
осталось только сформировать коллекции статей и применить предложенный
аппарат.
Ни сколько не претендуя на универсальность изложенных методик, питаем
надежду что они могут послужить инструментом для аналитика в океане
информации.
Мы не утверждаем, что это инструмент сильного искусственного интеллекта,
но с достаточно большой степенью уверенности можно утверждать что этот
инструмент позволяет фильтровать информацию и выявлять публикации,
представляющие интерес.
Что дает предложенный математический аппарат:
 Оценить публикации одного автора по различным критериям и
сравнить его с идеальным автором;
 Оценить набор публикаций одного автора, или группы авторов за
определенный период с точки зрения выявления тенденций в описании
излагаемых им (ими) проблем;
 Оценить с большой степени достоверности, близость описания научных
изысканий различных авторов. Что в свою очередь может позволить
либо рассматривать конкурирующие коллективы, либо подсказывать
шаги об объединении усилий для работы над общей темой.
Способствовать созданию виртуальных научных коллективов в
цифровой среде.
31

 Оценивать степень принадлежности авторов к той или иной научной


школе.
 Определять вектор научных интересов авторов во времени, их
склонность к постоянству выбранной темы, или к многообразию
научных интересов.
 По совокупности публикаций различных авторов, работающих в одной
области, оценивать вероятность появление новых подходов.
 И наверное, самое интересное, если использовать иностранные
открытые научные ресурсы, например «Research Gate», осуществлять
машинный перевод, то можно сравнивать российские и зарубежные
публикации со всеми вытекающими последствиями и возможностями.
Простой анализ научных баз данных таких как WoS или Scopus наверно тоже
интересно, но для выявления тенденций имеет ряд настораживающих
моментов – далеко не все статьи российских ученых там публикуются, в этих
базах опосредственный доступ к полным текстам. Ключевые слова,
используемые авторами, не имеют окраски.
На просторах нашей Родины множество Институтов, научных,
образовательных и других. Предлагаемая методика в определенной степени
может помочь организовать координацию научных исследований по схожим
темам, находить и оценивать исследовательские подходы.
В свое время К.Э Циолковский самостоятельно, в начале своей научной
деятельности, сделал научные открытия и результаты отослал Д.И.
Менделееву. Дмитрий Иванович, похвалил начинающего ученого однако
отметил, что изложенные им результаты давно получены и заявлены научному
сообществу. Хорошо, что у Константина Эдуардовича осталось еще время и
силы на действительно новые идеи.
Мы изложили свои идеи, будем рады любой критике, но, если не удастся
воплотить их хотя бы в эксперименте, ну что же, последуем примеру
классиков и вслед за ними отдадим рукопись на грызущую критику мышей.