Как оценить научную результативность?

НАУКА / #7_2021

Беседовал Антон СМИРНОВ / Фото: Unsplash.com

Советник проректора, экс-директор Наукометрического центра НИУ ВШЭ Иван Стерлигов рассказывает о различных подходах к оценке научной результативности на примере трех стран с высоким уровнем развития науки.

Биографии эксперта

Иван Андреевич СТЕРЛИГОВ родился в Москве в 1984 году. Окончил философский факультет МГУ им. М. В. Ломоносова. Работал обозревателем и аналитиком в частных структурах, руководителем прикладных исследовательских центров в различных НИИ при Минобрнауки. Создатель и первый директор Наукометрического центра НИУ ВШЭ.

В настоящее время — советник проректора и научный сотрудник Института институциональных исследований НИУ ВШЭ. Специалист в области прикладного науковедения, наукометрии, оценки и экспертизы в науке. Автор и соавтор ряда публикаций в ведущих отечественных и зарубежных профильных научных журналах.

Недавно у вас вышел совместный с Elsevier отчет о подходах к оценке научных результатов университетов в трех странах: Великобритании, Норвегии и Австралии. Какова цель исследования? С чем связан выбор именно этих стран?

Главная цель — разобраться в том, как устроены системы оценки научной результативности передовых и успешных университетов. Мы также хотели рассказать об этом опыте широкой российской аудитории, чтобы, возможно, что-то было учтено при разработке государственной политики по развитию науки в России и/или в политике российских университетов. Поэтому отчет опубликован на русском языке, хотя готовится к публикации и английская версия.

Мы выбрали системы оценки трех успешных в научном плане стран: Великобритании, Норвегии и Австралии.

В Великобритании реализована Research Excellence Framework (REF) — система оценки научных результатов университетов, построенная вокруг peer review — экспертной оценки. REF во многом является модельной, хотя почти нигде не была воспроизведена из-за ее сложности. Тем не менее это самая известная подобная система с очень длинной историей существования и развития в противоборстве чиновников и ученых — и, конечно, в содружестве тоже.

Затем, в качестве контрпримера, была выбрана Норвегия с так называемой Северной моделью (Nordic model). Суть подхода: оценка и последующее распределение части финансирования базируются не на результатах peer review, а на формуле, в которой ключевая переменная — количество рецензируемых публикаций всех сотрудников университета за отчетный период. Северная модель реализована во всех скандинавских странах, кроме Швеции и Исландии, хотя в них тоже применяются ее элементы. Формальный и тотальный характер оценки отличает Северную модель и с годами сделал ее, пожалуй, самым известным «противовесом» британской модели.

Наконец, австралийская система, совмещающая экспертную оценку и наукометрические индикаторы, можно сказать, находится между REF и Северной моделью. Это самая известная в наукометрической литературе модель благодаря статье Линды Батлер, в которой показано, как ошибки в настройке и оценке приводят к негативным последствиям (Butler L. Explaining Australia’s Increased Share of ISI Publications — the Effects of a Funding Formula Based on Publication Counts. Research policy, 2003, 32 (1).

Кроме этого, все три модели хорошо документированы, что выгодно отличает их от других моделей, информации о которых в открытой печати и в Интернете практически нет, хотя они тоже могут быть весьма успешными. Например, в Израиле результативность университетов оценивается по определенным формулам, в том числе и наукометрическим, но найти об этом подробную информацию крайне сложно. Еще труднее — с документами по Китаю.

Перечисленные выше факторы послужили причиной выбора именно этих трех систем. Конечно, все это так или иначе связано и с российским контекстом: у нас и в формулах нет недостатка, и альтернативная английская модель нередко упоминается учеными в дискуссиях о реформе системы научных организаций.

В общем, мы постарались описать хорошие и разные модели оценки университетской науки для управления этой самой наукой, и сделать это, с одной стороны, доступно для ученых и околонаучной аудитории, с другой стороны — с опорой на научную литературу.

Оценивается ли в этих моделях образовательная деятельность университетов? Или оценка направлена исключительно на научную результативность?

В отчете мы концентрировались на научной составляющей, и в целом эти модели так структурированы, что оценивают именно науку, то есть более-менее автономны от оценки образовательных компонентов. Естественно, образование тоже подвергается оценке, более того, при распределении ресурсов, в том числе финансовых, именно образовательные компоненты (например, число студентов и аспирантов) наиболее важны.

Как наукометрические показатели, применяемые в Северной модели для оценки вузов, влияют на требования внутри университетов к подразделениям и к отдельным сотрудникам?

Это, конечно, принципиальный вопрос. Я в докладе ему посвятил несколько страниц с опорой на исследования, потому что он волнует и вузовских администраторов, и, к счастью, тех, кто это все разрабатывает и внедряет.

Для ответа мне придется использовать термин indicator leakage — это как бы «протечка» показателей с верхнего уровня на нижний — от вуза к его сотрудникам. Если университеты в целом оцениваются и их финансирование распределяется по определенным правилам, то эти правила «спускаются» и на уровень факультетов. Большинство университетов после внедрения моделей на уровне страны начинают создавать внутри себя что-то подобное.

В конце отчета я привожу цитату из колонки замечательного политолога Владимира Гельмана, работающего в Европейском университете в Санкт-Петербурге, — он описывает, как indicator leakage работает в Финляндии, и утверждает, что эта модель общепринята среди самих ученых. В России количество публикаций ученого в нужном квартиле нередко напрямую влияет на его зарплату, отчетность по грантам и т. д. В Финляндии эта зависимость гораздо мягче, но ученые тоже понимают, что нужно регулярно публиковаться в рецензированных изданиях.

Все это для части ученых не очевидно: я часто слышу, что ученый никому ничего не должен. Однако администраторы считают по-другому. С помощью Северной модели эти позиции без особых конфликтов сблизились. Думаю, отчасти потому, что для молодых ученых такая модель скорее благо: это понятная модель развития карьеры и защита от претензий к содержанию работ.

В отчете упомянуто, что во всех трех изучаемых странах наука находится на высоком уровне. При этом модели оценки научной результативности принципиально различаются. О чем это говорит?

Успех различных моделей говорит о том, что можно разными способами добиться высокого результата. Все три модели работают, можно выбрать любую. Но важно понимать, что компромиссы вряд ли возможны: нельзя внедрить какие-то элементы модели и «забыть» про остальные.

Нельзя также забывать, что описанные модели были внедрены давно, но и до их внедрения наука в трех изучаемых странах находилась на высоком уровне. То есть, если внедрить британскую REF в Зимбабве, вряд ли там через три года наука выйдет на уровень Оксфорда. Всё должно работать в комплексе: с учетом ресурсов, общей ситуации в стране и т. д.

В Австралии и Норвегии, где наука была развита хуже, чем в Великобритании, в целом результат внедрения моделей скорее положительный: страны достигли тех целей, которые преследовали, вышли на передовой уровень в мире.

Должны ли метрики из моделей меняться, и если да, то как часто? Какие это дает преимущества и какие несет риски?

Конечно, должны, потому что все время меняются наука и вместе с ней — научная коммуникация.

Обновление метрик — один из принципов Лейденского манифеста, программного документа о том, как правильно их применять, опубликованного ведущими наукометристами и науковедами. Индикаторы нужно регулярно проверять на соответствие их задачам, а не на то, все ли вузы их достигают.

Конечно, изменения не должны быть резкими, иначе планирование посыплется, возникнет массовая фрустрация. Важно, чтобы в этом участвовали сами оцениваемые.

Изменения неизбежны, это хорошо видно на примере английской системы, которая начинает внедрять наукометрические оценки, причем скорее по австралийской модели, в более мягком варианте по сравнению с Северной моделью. Эти оценки могут быть использованы оценочными комиссиями, то есть каждой комиссии по ряду областей будут представляться данные о цитируемости публикаций, которые подают оцениваемые университеты. Комиссии могут принимать или не принимать это во внимание, но роль наукометрической компоненты понемногу возрастает.

Великобритания начинает внедрение наукометрии в свою — очень дорогую — модель оценки научной результативности для того, чтобы ее удешевить, или британцы считают, что это сделает оценку более адекватной?

Я думаю, что второе. Британцы не отказываются от экспертизы, но наукометрия будет внедряться только там, где это одобрят сами ученые, для полноты информации, чтобы придать оценке объективность и предсказуемость.

Сами ученые сегодня ориентируются на наукометрию как на нечто объективное. Особенно это касается естественных наук. Наукометрия позволяет ученому более наглядно показать свой вклад в науку, что очень важно в контексте общей политики, ведь фундаментальная наука — это часть государства, часть бюджета. Соответственно, тем, кто отвечает за науку, важно показать достигнутые успехи. Наукометрические данные — к примеру, высокие места по цитируемости в мире — это дополнительный аргумент, объективный и надежный.

К тому же наукометрия облегчает работу экспертов, привлеченных к оценке научной результативности вузов, которые таким образом частично снимают с себя ответственность, что для них тоже очень важно.

Российские университеты по среднему уровню развития науки пока трудно поставить в один ряд с вузами упомянутых стран-лидеров. Связано ли это с отечественными особенностями оценки университетской науки? Как их можно охарактеризовать?

На мой взгляд, системная проблема оценки научной результативности в России — это недостаточный акцент на действительно объективной оценке. Выбор инструментов и метрик зачастую обуславливается задачами плановой отчетности и поддержания статус-кво за счет демонстрации формального достижения показателей.

Полагаю, именно с этим в значительной мере связана ключевая проблема: по качеству научных исследований, к примеру, в естественных науках, выраженному в современных метриках цитируемости (например, процент статей, попадающих в 10% самых цитируемых в мире в своей предметной области), у нас недостаточный прогресс, несмотря на значительное увеличение финансирования, но при этом есть большие успехи в количестве учитываемых материалов в тех или иных системах оценки. Этим дисбалансом мы разительно отличаемся как от Китая, так и от Австралии.

Важно отметить, что в российских моделях есть и позитивные компоненты: прежде всего, это ориентация на публикации в международных журналах, и мы видим значительное увеличение их числа в ведущих изданиях, даже если не учитывать публикации, осуществленные с помощью сомнительных схем.

Однако, к сожалению, значимого системного роста относительной роли России в мировом научном сообществе не происходит. Отчасти я это связываю со слабостью запроса на качество в сравнении с количеством в различных формальных системах оценки. Из-за недонастройки этих систем в России в ряде случаев возникают уродливые явления вроде недобросовестных публикаций, их покупки в псевдонаучных журналах, накруток числа публикаций через организацию локальных конференций и т. д.

Еще один негативный момент связан с опорой на международные базы научного цитирования без учета их функций: по сути, такие базы — это коммерческие продукты, созданные для определенных целей (рост стоимости актива, прибыль, дивиденды на акции, доля рынка и т. д.), строящие свои стратегии исходя из этого, а вовсе не из задачи развития науки в России. Так, ответственность за оценку качества журналов перекладывается на коммерческих игроков, для которых ключевой маркетинговый фактор в борьбе — это охват базы (число журналов). На примере той же базы Scopus мы видим, что ее быстрое расширение делает метрики по уровню журналов плавающими и трудно интерпретируемыми.

Сейчас в Scopus уже более 600 отечественных журналов, которые были включены туда за последние несколько лет. Это зачастую подменяет международность отечественных публикаций. То есть наверху говорят о высоком проценте публикаций в международной базе данных, которая воспринимается как что-то безусловно качественное, «международного уровня», но на деле этот рост достигается с помощью включения локальных, «домашних» изданий в эти базы, заинтересованные в системном росте охвата. Аналогичная ситуация с Web of Science с их Emerging Sources Citation Index, созданным специально для роста охвата базы.

Конечно, очень хорошо, что наши журналы входят в иностранные базы научного цитирования, но это не столько плод общего развития науки в России, сколько результат целенаправленного достижения всевозможных показателей на всех уровнях, в том числе университетских — например, для выполнения формальных требований к соискателям ученых степеней.

Это касается и грантовой системы, где, на мой взгляд, сложилась неоднозначная политика проведения отбора: да, победителей выбирают на основе заключений экспертов, но для предварительного отсева используется крайне формальная оценка, отсутствующая в грантовых фондах ведущих стран Запада. Она же является главным критерием успешности выполнения проекта.

Формальный подход отчасти связан с рядом объективных и бюрократических сложностей привлечения иностранных экспертов, а ведь именно для фондов это критически важно. Можно спорить о том, как оценивать университеты, но если говорить о грантовых заявках, то здесь, конечно, приоритет должен принадлежать содержательной экспертизе, проведенной лучшими мировыми специалистами, а не каким-то журнальным квартилям.

Как же оценивать качество журнала, если не через его включение в международные базы данных?

Наиболее простой и понятный путь, описанный в нашем докладе, — это экспертные списки журналов. «Белые» списки (учитываем только то, что в списке) в этом плане гораздо лучше, чем «черные» (учитываем всё, кроме того, что в списке), потому что для последних неминуемое отставание от реальной ситуации гораздо опаснее.

Как устроены «белые» списки? Эксперты формируют список рекомендованных для публикации журналов, нередко разбитый на 2−4 уровня по научному качеству и престижу, в том числе с содержательной оценкой метрик цитирования. При этом конкуренция среди авторов постоянно обостряется: в престижные издания поступает огромный поток публикаций изо всех стран, попасть туда с каждым годом все сложнее. Значит, и уровень авторов должен расти — сурово, но такова жизнь в науке «международного уровня».

Журнальные списки не должны обновляться часто. К примеру, списки из Северной модели обновляются раз в несколько лет. Для ученых это удобно, потому что предсказуемо — в отличие от импакт-факторов и квартилей, меняющихся каждый год, что создает напряжение.

«Северные» журнальные списки едины для всей страны, они нормально работают и хорошо воспринимаются учеными. Списки ранжированы, то есть выделяется список очень хороших журналов, набравших наибольшее количество баллов. Конечно, организации выделяют для себя приоритетные журналы.

Главное, чтобы эти журнальные списки использовались разумно. Я вслед за ведущими мировыми наукометристами и науковедами считаю, что при подготовке к защите диссертаций никакие списки применяться не должны, они неминуемо подменяют содержательное рассмотрение сделанного. Собственно, в лучших вузах мира — Гарварде, Кембридже, Высшей технической школе Цюриха (ETHZ) — никаких официальных журнальных списков для соискателей ученой степени нет и в помине.

А для оценки университетов список журналов — нормальный инструмент. Причем национальный список не должен быть коротким — скажем, включать тысячу журналов. В Скандинавии в списки попадает огромное количество хороших изданий — тысячи и тысячи по всем областям науки. Принципиально важно, что такой подход позволяет нивелировать недостатки внешних коммерческих баз, где каких-то предметных областей может вовсе не быть.

Как вы относитесь к так называемому квартильному подходу из Приоритета 2030 (Программа господдержки российских вузов. — Прим. ред.), когда при оценке научной результативности вузов учитываются публикации из журналов первого и второго квартилей в Scopus и WoS?

Этот подход работает у нас уже давно, квартили «пошли в народ» и крепко засели в головах. Прошло всего пять лет — и вот уже многие ученые убеждены: зелененькая плашка в SJR (Scimago Journal & Country Rank, SJR — наукометрический показатель; зеленая отметка SJR присваивается журналам первого квартиля.— Прим. ред.) означает, что ты достиг желанного международного уровня и твоя статья имеет высокий вес. Конечно, нигде в мире это так не работает.

Что важно учитывать при оценке ученых посредством изучения их публикаций в журналах? Это прежде всего авторитетность и охват изданий, то есть журналы должны восприниматься в научном сообществе как авторитетные и популярные, а также в них должно быть высокое качество рецензирования. Собственно, эти три пункта и нужны при составлении журнальных списков. Список журналов — это по большому счету аутсорс экспертной оценки: если ученый опубликовался в журнале Х, значит, его работу оценили два хороших иностранных эксперта, и она будет введена в научный оборот. Именно это важно.

К сожалению, списки журналов, составленные на основе квартилей, не всегда соответствуют перечисленным базовым требованиям. Квартили хорошо работают, к примеру, в естественных науках, которые условно можно назвать горячими — по количеству свежих публикаций и ссылок в списках литературы. Собственно, длинный список литературы в статье, содержащей ссылки на свежие работы в журналах, индексируемых данной базой, — основной формальный признак того, что в этой области квартили и прочие журнальные метрики из этой базы могут применяться. Таких областей, конечно, много, но таковы далеко не все.

Еще одна проблема связана с предметной классификацией. Сейчас огромное количество журналов представлено сразу в нескольких тематиках. Если, например, тематик у журнала пять, то и квартиль этого журнала может варьироваться от первого до четвертого, в зависимости от тематики. С моей точки зрения, если у журнала в одной тематике один квартиль, а в другой — три-четыре, это недостаточно характеризует его уровень. К сожалению, нередки ошибки: совсем недавно ведущий отечественный литературоведческий журнал был приписан в одной из баз к… инженерным наукам!

Экспертные списки таких недостатков лишены, но, чтобы составить их качественно, нужно стремление к объективной оценке, иначе получится очередной «список ВАК», покупку публикаций в котором будут и дальше рекламировать в спам-рассылках.

В Приоритете‑2030 расставлено еще несколько интересных акцентов. К примеру, при оценке больше не учитываются конференционные труды, а два из трех показателей используют фракционный счет — статья приносит тем больше баллов, чем меньше организаций участвовали в работе над публикацией. Как вы думаете, к чему могут привести эти условия с точки зрения публикационного поведения авторов?

Что касается конференций, то ситуация может и дальше ухудшаться (в последние годы число конференционных трудов из России росло быстрее, чем число публикаций других типов.— Прим. ред.). Здесь дизайн индикатора работает во благо, демотивируя вузы продолжать накрутки через «домашние» мероприятия.

В Приоритете сделано исключение только для публикаций в области компьютерных наук, которую я считаю одной из самых важных сейчас: это прикладная основа и мощнейший драйвер для развития остальных областей, даже гуманитарных. Причем публикаций далеко не всех — насколько я понимаю, это единственный пример в нашей госполитике на федеральном уровне, когда будет применяться именно экспертный список (австралийский список IT‑конференций CORE), хорошо известный в России. CORE составляется департаментами Computer Science в университетах Австралии с привлечением экспертов со всего мира, и кто угодно может предложить конференцию для рассмотрения.

В рейтинге CORE есть верхний уровень, содержащий порядка 60 лучших конференций. Они находятся на переднем крае IT: именно там представляются революционные открытия в области искусственного интеллекта, машинного обучения и т. д. Это общепризнанные, престижные и массовые мероприятия с очень жестким и прозрачным рецензированием. Российские конференции на верхних уровнях, увы, не представлены.

Так что в целом это позитивный шаг: он задает правильную планку, хорошо известную российским ученым в области IT, пусть пока не для всех достижимую.

Представители других областей науки часто спрашивают: «А как же наши конференции?» На мой взгляд, тут все очень просто. В большинстве других областей науки (за исключением некоторых технических и инженерных специальностей, которые гораздо ближе к коммерциализации, и части гуманитариев) конференция — это просто ступень на пути к журнальной публикации. Поэтому логично учитывать именно журнальную публикацию, и замечательно, если она перед этим будет представлена на конференции. Это вызывает, конечно, недовольство тех, кто через конференции накручивал себе показатели, но что же делать? Сами виноваты.

Вопрос о фракционном счете сложнее. Да, есть риск снижения международной активности. Но стоит отметить: у нас уже довольно давно работает КБПР (комплексный балл публикационной активности — метод оценки результативности научных организаций в России.— Прим. ред.) — он тоже использует фракционный счет, и по нему живут институты Академии наук. Можно обратиться к опыту его использования. Были опасения, что после ввода КБПР ученые станут реже публиковаться в составе коллабораций, но я не могу сказать, что они массово оправдались: ученые не перестали сотрудничать из-за того, что вместо балла они получат полбалла, если напишут статью вместе.

В рамках одной из скандинавских систем — Норвежской — долевой подсчет был сначала введен, а через несколько лет смягчен для снижения дисбаланса по областям науки (среднее число соавторов, скажем, у филологов и биомедиков очень разное) и смягчения демотивирующего эффекта на коллаборации. Поступили просто: вместо доли университета в публикации берут квадратный корень от нее.

В целом способы подсчета публикаций, конечно, важны, но еще важнее продвижение в том, что́ именно мы считаем и зачем. В отчете мы хотели подчеркнуть, что библиометрия лучше всего работает в качестве ценного и даже незаменимого, но все же подспорья содержательной экспертизы, а не наоборот. Именно при таком подходе широта охвата, богатство метрик и инструментов Scopus и аналогов становятся достоинством.

Ссылка на отчет.

ДРУГИЕ МАТЕРИАЛЫ #7_2021