Измерить неизмеримое

НАУКА / #1–2_2021
Беседовала Надежда ФЕТИСОВА / Фото: собственность эксперта, Unsplash.com

В конце марта один из крупнейших научных издательских домов мира Elsevier и Российский союз ректоров объявили победителей премии Research Excellence Award Russia 2021. Премия с 2005 года вручается самым высокоцитируемым российским исследователям. О том, какой должна быть хорошая научная публикация и нужно ли ученому публиковаться в научных журналах, рассказал обладатель премии в номинации «За вклад в развитие актуальной научной темы в мире», профессор факультета компьютерных наук Высшей школы экономики, заведующий центром глубинного обучения и байесовских методов Дмитрий Ветров.

Дмитрий Петрович Ветров родился в 1981 году. Окончил факультет вычислительной математики и кибернетики МГУ им. М. В. ­Ломоносова.

Работал в ВЦ РАН, МГУ, Курчатовском институте, Сколтехе, Яндексе. Сейчас руководит центром глубинного обучения и байесовских методов ФКН НИУ ВШЭ, а также рядом индустриальных проектов совместно с компаниями Saudi Aramco, Samsung, Huawei, ПАО «Сбербанк».

Разработал авторские курсы «Байесовские методы машинного обучения», «Графические модели», «Нейробайесовские модели», которые читает на факультете компьютерных наук НИУ ВШЭ, ВМК МГУ и в Школе анализа данных Яндекса.

Принимал участие в нескольких междисциплинарных исследовательских проектах по разработке новых методов машинного обучения и вероятностного вывода в когнитивных науках, медицине, неорганической химии, и др.

Автор более 200 публикаций, неоднократно публиковался на ведущих мировых конференциях по машинному обучению и технологиям искусственного интеллекта.
Дмитрий, опишите, пожалуйста, область ваших научных интересов и расскажите немного об исследованиях, которыми вы занимаетесь.

Я занимаюсь разработкой нейробайесовских моделей. Они сочетают современные нейронные сети и так называемый байесовский подход в машинном обучении, обладающий рядом преимуществ по сравнению с классической статистикой. Например, с помощью байесовского вероятностного моделирования можно учитывать специфику конкретной решаемой задачи при настройке параметров по данным, корректно обрабатывать пропуски в данных, обучать сложные генеративные модели, получать решения с заранее заданными свойствами, упрощать обученные модели и многое другое.

Объединение этих двух парадигм в теории может значительно улучшить существующие нейросетевые модели. Но на пути такого объединения возникает целый ряд вычислительных и математических сложностей, над преодолением которых работают многие исследовательские группы в мире, включая нашу.

Еще одно важное направление наших фундаментальных исследований — изучение ряда загадочных эффектов, возникающих при обучении современных нейронных сетей. Сильно упрощая, можно сказать, что они ведут себя не так, как предсказывает теория, а некоторые наблюдаемые явления пока вообще не поддаются объяснению. К числу последних можно отнести, например, так называемый двой­ной спуск по эпохам: это ситуация, когда при обучении нейронной сети ее ошибка (на независимых валидационных данных) сначала снижается, потом подскакивает, а затем снова начинает снижаться. Исследовать такие явления очень интересно.

Кроме того, наша группа проводит прикладные исследования по заказам крупных ­компаний.

Насколько важна для вас эта награда в профессиональном плане?

Награда присуждена по формальным признакам, таким как цитируемость моих публикаций в мире. Это позволяет исключить влияние субъективных факторов.

Конечно, получить награду, на которую тебя никто не выдвигал и не лоббировал твою кандидатуру, — приятно. Но для меня важнее не регалии, а признание мировым научным сообществом полученных нами результатов. Индикаторы этого — участие наших работ в мировых конференциях, имеющих очень высокий уровень научного рецензирования, и последующее их цитирование.

Я рад, что, по крайней мере, три наших результата породили целые поднаправления в машинном обучении, которые активно исследуются научными коллективами в разных странах.

Как пишут организаторы премии, при подсчете результатов учитывались три показателя: количество опубликованных научных статей, их цитируемость в журналах международного уровня, по данным Scopus, и экспертная оценка. Какой из этих трех показателей, по-вашему, наиболее важен?

Число публикаций без учета уровня журналов вряд ли имеет большое значение. В нашей стране много недобросовестных ученых (часто учеными их назвать язык не поворачивается), имеющих огромный шлейф публикаций в «мусорных» журналах; они очень любят козырять числом своих публикаций.

Вообще любая гонка за формальными показателями всегда идет во вред делу — особенно в науке. К сожалению, по-другому чиновники и администраторы нас оценивать не научились; собственно, для их удобства и были введены наукометрические показатели. Если уж их использовать, то лучше учитывать цитируемость работ или уровень изданий, в которых они были опубликованы. Оба этих показателя имеют свои недостатки, но они безусловно информативнее, нежели количество опубликованных статей.

Мнение экспертов может быть как полезным, так и вредным — это зависит от уровня экспертов и критериев, которыми они руководствуются, выставляя оценки.

Что такое, на ваш взгляд, хорошая научная публикация?

Во-первых, в хорошей публикации должен даваться ответ на вопрос, интересующий значительную часть научного сообщества — в идеале, как теоретиков, так и практиков.

Во-вторых, этот ответ должен иметь прямую практическую ценность, позволять улучшить подходы к решению задач.

В‑третьих, в статье должно содержаться обоснование причин (а лучше — небольшое теоретическое исследование), по которым предложенное решение лучше.

В‑четвертых, в ней должны быть сформулированы гипотезы и направления для будущих исследований по затронутой теме. И, конечно, хорошая статья должна удовлетворять всем стандартам современных научных исследований: содержать ссылки и обзор положения в данной области, иметь четкое позиционирование относительно существующих подходов, грамотный дизайн эксперимента и корректное сравнение с бейзлайнами. Получился серьезный список. Видимо, поэтому действительно хороших (в моем, по крайней мере, понимании) научных публикаций крайне мало.

Сколько времени уходит в среднем на весь процесс публикации научной статьи?

Важно понимать, что в нашей области все основные результаты публикуются не в научных журналах. Журналы, с точки зрения специалиста по современным технологиям ИИ и машинному обучению, — безусловное зло. Процесс опубликования статьи в них затягивается на год-два, и к моменту публикации данные часто успевают устареть. Сами журналы ограничивают распространение научной информации, требуя денег за доступ к опубликованным в них статьям. В некоторых областях ситуация еще более вопиющая: журналы требуют денег (и немалых) с авторов за публикацию статей, которые уже прошли рецензирование! Все это повышает порог вхождения в круг авторов и в конечном счете тормозит развитие науки.

Интересен пример из нашей области (машинного обучения): научное сообщество выступило против диктата журналов. Основные результаты стали публиковаться в материалах научных конференций и выкладываться в открытый доступ. Это привело к тому, что сейчас главные международные конференции пользуются среди специалистов гораздо большим авторитетом и влиянием, чем научные журналы; сама область стала развиваться гораздо более быстрыми темпами, и снизился порог вхождения в нее. Мне кажется, это очень хороший пример самоорганизации внутри научного сообщества.

Теперь — к ответу на вопрос. В среднем от момента появления плодотворной дебютной идеи до момента ее доклада на ведущей (или не очень) международной конференции проходит 18 месяцев. Это не только мой опыт, его подтверждают результаты опроса представителей научного сообщества. Примерно год вы проводите исследование, изучаете аналоги, вносите корректировки в модель, пишете текст статьи. И еще полгода занимают процессы рецензирования, авторского ребаттла, второй круг обсуждений, принятие и собственно представление работы на конференции.

Что мотивирует вас к написанию статей для научных журналов?

Как я уже сказал, я не пишу статьи для научных журналов. К выступлениям и публикациям на конференциях мотивируют стандартные для ученого стимулы: стремление поделиться своими открытиями с миром; желание сделать что-то полезное для сообщества, научной области и человечества; тяга к признанию, в конце концов.

Поддерживает ли вашу публикационную активность организация, в которой вы работаете? Если да, то как?

Мое основное место работы — это Высшая школа экономики, где много лет действуют разнообразные программы поддержки публикаций в высокорейтинговых изданиях. За публикации в таких журналах авторам назначаются надбавки к жалованью на срок от года до двух. Надбавки значительные (честно говоря, когда я впервые узнал их размер, то не поверил — теперь могу подтвердить уже как получатель).

Когда создавался факультет компьютерных наук, нам пришлось внести коррективы в критерии оценки публикационной активности и разработать поощрения, которые учитывали бы специфику области (ведущие конференции важнее ведущих журналов). Сейчас я могу с уверенностью сказать, что обновленная система поощрений работает. Число публикаций от сотрудников ВШЭ на ведущих конференциях по компьютерным наукам вообще и по ИИ в частности значительно возросло. В том числе благодаря этому факультет компьютерных наук за несколько лет вышел на лидирующие позиции в России. Это, кстати, хорошо видно по предпочтениям абитуриентов, например, по количеству олимпиадников, стремящихся поступить на ФКН ВШЭ.

Лично я бы предпочел, чтобы надбавки за публикации в первую очередь присуждались молодым исследователям: студентам, аспирантам и начинающим ученым. И для них можно было бы понизить порог, чтобы дать возможность раскрыться. Уверен, что в ближайшее время это будет тем или иным образом институализировано во ВШЭ.

Вообще после многих лет работы в структурах РАН и других университетах я приятно удивлен степенью адекватности руководства ВШЭ и его способностью эффективно расходовать довольно скромные бюджеты. Меня сложно назвать безропотным сторонником администрации ВШЭ, но я очень рад работать в организации, где можно вести конструктивную полемику и где чувствуешь, что ты и начальство — единомышленники. По моему опыту, это редкая удача.

Удается ли вам совмещать преподавательскую и исследовательскую деятельность? Есть ли в таком совмещении плюсы?

Да, конечно. Во-первых, мне просто нравится преподавать.

Во-вторых, благодаря моим курсам у меня есть доступ к студентам из лучших университетов России: ВШЭ, Сколтеха, МФТИ, МГУ, — и я могу отбирать сильных ребят в свою исследовательскую группу.

В‑третьих, студенты на лекциях часто задают вопросы, которые мне не приходили в голову, и поиски ответов позволяют лучше разобраться в материале, а иногда дают начало новым исследовательским проектам.

В‑четвертых, студенты и аспиранты группы, а также волонтеры активно помогают улучшать читаемые курсы, проводят семинарские занятия и проверяют домашние работы. Это позволяет охватить курсами сравнительно большой объем студентов. Всё это очень классно. Я ежегодно вношу изменения в свои курсы, стараясь совершенствовать их по мере развития нашей области и с учетом обратной связи от студентов. Мне кажется, что научно-­исследовательская работа и преподавательская деятельность прекрасно друг друга дополняют.
Сколько научных статей вы читаете в среднем в месяц? Как выстроен ваш процесс чтения научной статьи?

Вот это мое больное место. Из-за большого объема административной и менторской работы на чтение статей у меня остается очень мало времени. По факту внимательно прочесть получается примерно восемь статей в месяц. Это очень мало. Ежедневно в мире появляется около 100 препринтов в области ИИ. А читать статьи хорошо бы сразу же, как они появляются на arxiv.org, чтобы держать руку на пульсе и быть в курсе последних веяний. Идеальный вариант — это когда ты приезжаешь на ведущую конференцию, уже прочитав самые интересные статьи в виде препринтов. Тогда можно со знанием дела расспросить авторов о деталях.

Увы, так получается не всегда. Но хотя я сам читаю мало статей, у меня много аспирантов и студентов, которые активно это делают. Как я шучу, студенты подобны шустрым эсминцам, которые быстро шныряют всюду и выискивают что-то интересное; аспиранты — это легкие крейсеры; а я — неповоротливый дредноут, который мало что успевает, но зато уж если приплывет куда, то во всем разберется.

Мои сотрудники рассказывают мне о статьях, которые они нашли и разобрали. В самых сложных разбираемся вместе. Те статьи, которые меня заинтересовали, я потом отдельно более внимательно изучаю.

Еще один источник статей — рекомендации google scholar. Ирония ситуации заключается в следующем: для того чтобы справиться с валом статей по технологиям ИИ и отобрать из информационного шума что-то полезное для своей работы, ты вынужден использовать… технологии ИИ. Это могло бы стать сюжетом для фантастического романа: ИИ «управляет» учеными, подсовывая им нужные статьи через рекомендательный сервис google scholar, и тем самым определяет направление развития человечества… Шутка, конечно: такой сюжет годится только для низкопробной фантастики.

Как вы считаете, нужно ли российскому ученому публиковаться на русском языке?

Международный научный язык — английский. Все призывы развивать отдельную отечественную науку и публиковаться только на русском языке — в лучшем случае глупость, в худшем — прямое вредительство.

Возможно, в гуманитарных науках ситуация иная. Но любой специалист из технической, естественной, математической области знает: статья, которая не была опубликована на английском языке, — это не публикация, а препринт. С тем же успехом ее можно было опубликовать на древнегреческом. У нее даже не нулевая, а отрицательная научная ценность, так как каждая такая статья усиливает изоляцию и местечковость российской науки. Любая научная статья (быть может, за исключением некоторых специфических гуманитарных областей) должна пройти научное рецензирование и быть опубликована на английском.

Собственно, когда за публикации на русском высказался бывший президент РАН Юрий Осипов, даже неспециалисту стало понятно, что Академия наук в глубочайшем кризисе и нуждается в серьезном реформировании. Мне как ученому было стыдно слышать такое.

Мне кажется, что на русском языке можно и нужно публиковать, во‑первых, учебные пособия для студентов, во‑вторых, научно-­популярные статьи. Для всего остального есть международный язык науки, и это английский, нравится это кому-то или нет.
ДРУГИЕ МАТЕРИАЛЫ #1–2_2021