Цифровая трансформация науки

ТЕМА НОМЕРА / #6_2021
Текст: Наталия АНДРЕЕВА, руководитель аналитической группы «Другая стратегия», член Инвестиционного комитета Северо-­Западного центра трансфера технологий
Иллюстрация: Shutterstock.com

Цифровая трансформация — модная тема не только в промышленности, но и в науке: с помощью цифровых платформ и технологий ученые надеются выйти из «кризиса воспроизводимости» и сделать научное знание более доступным, а управленцы от науки — наконец научиться оценивать реальный вклад исследований и исследователей в социальное и экономическое развитие. Правда, пока не очень ясно, есть ли основания для этих надежд или цифровая трансформация науки — всего лишь еще одна «хайповая тема».

Движение науки в сторону цифровой трансформации было предопределено еще в 1980-х годах — сменой парадигмы управления наукой и научным комплексом в развитых странах.

Переход к «индустриальному» управлению наукой, связанному с формальными количественными метриками (количество научных публикаций, цитируемость) и применимостью научного знания (преимущественно в рамках подхода Technology Readiness Level / TRL, разработанного в NASA и принятого на вооружение во многих странах), в каком-то смысле вынудил университеты и научно-­исследовательские центры заимствовать управленческие практики и инструменты у бизнеса. Масштабное внедрение финансирования, ориентированного на результат, проектного и — ближе к 2020-м годам — доказательного управления научно-­исследовательскими комплексами многих стран было невозможно без использования информационных систем, позволявших хотя бы частично облегчить выстраивание всех необходимых бизнес-­процессов.

Не менее важным фактором для трансформации науки и исследований стало снижение отдачи от R&D в корпоративном секторе, особенно в химической и фармацевтической отраслях, происходящее в течение 30 лет. Поступательно падающая маржинальность традиционных отраслей промышленности и отток капитала в условно-­инновационные сферы / рынки привели к тому, что крупные корпорации начали активно искать и внедрять подходы и технологии, позволяющие повысить конверсию прикладных R&D в новые успешные продукты, и в течение последних 20 лет цифровые технологии и платформы играют в этом процессе ключевую роль.

Изменения в корпоративном секторе повлияли не только на «коммерческую» науку и внутренние R&D‑отделы компаний. Университеты и государственные исследовательские центры по всему миру, как минимум, вынуждены учитывать требования применимости исследовательского результата и его совместимости с корпоративными процессами разработки новых продуктов (new product development, NPD), например, в части возможности выгрузки разработанной документации заказчику в виде, совместимом с его информационными системами.

На цифровизацию и цифровую трансформацию исследований повлияла также конкуренция: университеты и научно-­исследовательские центры, всячески побуждаемые государствами к работе с компаниями и корпорациями, в плане качества исследовательского результата — и, соответственно, используемых цифровых инструментов — вынуждены конкурировать с корпоративными R&D‑отделами (см. Рис. 1); в противном случае организациям и командам очень сложно получать коммерческие заказы на прикладные разработки.
Рисунок 1. Компоненты цифровых R&D в компании BASF
Волшебная таблетка, которой нет
Естественно, универсальных, единых приоритетов в части цифровизации и цифровой трансформации для всех научных дисциплин не существует: исследователи из разных научных областей склоняются к разным наборам цифровых инструментов в зависимости от задач, которые им приходится решать.

Например, по данным масштабного социологического опроса, проведенного Организацией экономического сотрудничества и развития (ОЭСР), цифровые инструменты для коллаборации и онлайн-­коммуникации с обществом наиболее востребованы в областях, связанных с экологией, — как из-за важности «зеленой» общественной повестки, так и из-за общего резонанса, который обычно вызывают в медиа вопросы загрязнения, экологических угроз и пр.

Качество исследовательского результата, в свою очередь, лучше всего «поддержано» цифровыми решениями в областях, имеющих непосредственное отношение к компьютерным вычислениям и моделированию, — собственно в компьютерных науках (computer sciences), инженерных и математических дисциплинах, а также в междисциплинарных исследованиях.

Наконец, цифровые решения для проектного управления (и, соответственно, для повышения эффективности исследований) наиболее востребованы в гуманитарных дисциплинах, а также в прикладных исследованиях в области сельского хозяйства и биологии (подробнее см. Рис. 2).
Рисунок 2. Зоны приоритетов в области цифровизации по различным научным областям (балльная оценка на основании опроса исследователей)
Однако, несмотря на эти различия, есть несколько универсальных задач, которые научные организации и научные команды так или иначе решают с помощью цифровых технологий: относительно «простые» (управление исследованиями для повышения их продуктивности/ эффективности, ускорение коммуникации) и более сложные, связанные с исследовательским процессом, экспериментами и интерпретацией их результатов, то есть с качеством конечного исследовательского результата.
Рисунок 3. Сферы исследовательской деятельности, в наибольшей степени выигрывающие от цифровизации (% респондентов, отметивших соответствующую сферу как выигрывающую от цифровизации)
«Цифра», меняющая международные коммуникации
Большинство цифровых решений и платформ, поддерживающих международные коллаборации, связаны с открытой наукой (open science) и, в отличие от остальных цифровых решений для науки, активно поддерживаются и внедряются на государственном и межгосударственном уровнях.

Одна из самых известных инициатив по развитию открытой науки за счет цифровой составляющей — комплекс проектов и программ открытой науки под эгидой Европейского союза (EU's open science policy). Помимо чисто политических и идеологических оснований, задающих требования в области исследовательской этики, воспроизводимости научных результатов и пр., базой для реализации концепции открытой науки в ЕС, по замыслу Еврокомиссии, должны стать два основных компонента, связанных с цифровыми решениями и платформами.

Первый — проект развития общеевропейского облачного сервиса European Open Science Cloud (EOSC) для размещения публикаций, исследовательских данных, открытого программного обеспечения для научных команд и пр. Цифровые инфраструктуры, уже созданные и планируемые к созданию в ходе этого проекта, должны стать основой для развития «единого европейского исследовательского пространства» — как в части обмена данными и их повторного использования, так и в части совместной работы ученых из разных стран над исследовательскими проектами. В проекте участвуют 150 с лишним исследовательских организаций, в основном государственных; ожидается, что к 2030 году им удастся полностью унифицировать форматы описания, хранения и обработки научных данных и тем самым обеспечить максимально эффективную коллаборацию исследователей из разных стран.

Второй компонент поддержки международной коллаборации в парадигме открытой науки в ЕС — общеевропейский стандарт открытых исследовательских данных FAIR, согласно которому все данные, получаемые в ходе исследований, должны соответствовать универсальным требованиям к их использованию, импорту / экспорту, верификации и пр., в первую очередь — данные, получаемые в ходе коллаборативных исследований, спонсируемых Европейским союзом.

Вместе с тем ситуация в области международного научного сотрудничества делает развитие глобальных цифровых платформ и стандартов исследовательских данных, как минимум, проблематичным. Торговая и технологическая вой­на между США и Китаем уже привела к сокращению международных научных обменов между двумя странами — крупнейшими инвесторами в исследования и разработки.

Пандемия COVID‑19, вроде бы наглядно продемонстрировавшая все плюсы своевременного быстрого обмена результатами исследований, привела к обратному эффекту. В тех же США федеральный Офис по науке и технологиям принял методические рекомендации по кибербезопасности и борьбе с иностранным шпионажем в науке, согласно которым университеты и научные центры должны поддерживать максимальный уровень кибербезопасности, а также тщательно следить за неразглашением информации об исследованиях.

Иными словами, несмотря на все плюсы открытой науки и соответствующих цифровых решений и платформ, сегодня их перспективы сомнительны — за исключением упоминавшегося выше Европейского союза, который по-прежнему вкладывается в евроинтеграцию и создание «единых зон» в разных отраслях и областях.
«Цифра», повышающая эффективность
Высокая востребованность цифровых решений для проектного управления в науке связана не только с растущими требованиями государств и коммерческих заказчиков к эффективности научных команд (больше публикаций, патентов, IP и пр.), но и с высокой доступностью и большим разнообразием этих решений — в отличие от немногочисленных тяжеловесных платформ, поддерживающих международные коллаборации в парадигме открытой науки.

Самый распространенный вариант среди исследовательских команд (даже в ведущих мировых научных центрах и университетах) — универсальные приложения для планирования и бюджетирования, ставшие особенно популярными во время локдаунов из-за пандемии COVID‑19.

Например, некоторые команды и консорциумы в NASA начали использовать платформу Trello для планирования астрономических наблюдений и загрузки телескопов; приложения Trello, Jira и Asana — для распределения, аннотирования и комментирования задач, контроля дедлайнов и документов, а заодно — для разработки алгоритмов исследований. Схожий набор универсальных инструментов проектного управления уже используют исследователи во многих других научных областях, начиная с биотехнологий и клеточных исследований и заканчивая социологией.

Менее доступный, хотя и более комплексный вариант для проектного управления — открытые приложения-­платформы, разработанные специально для управления исследованиями и исследовательскими проектами. Сегодня шире всего применяется платформа Open Science Framework (OSF): она включает функционал по планированию исследовательского процесса (от дизайна экспериментов до распределения средств грантов), сбору и анализу данных, подготовке и публикации препринтов и пр. Именно эту платформу используют исследователи в Массачусетском технологическом институте.

Еще один пример масштабной платформы для управления исследованиями — американская Eureka, созданная Калифорнийским университетом в Сан-­Франциско и предназначенная для исследователей, работающих в области медицины и здравоохранения. Eureka включает портал для управления исследованиями, облачное хранилище, систему обработки и анализа данных, а также обеспечивает интеграцию со сторонними приложениями, сенсорами и внешними устройствами, подключаемыми по Bluetooth, в том числе для сбора данных с носимых устройств (геолокационные датчики, датчики температуры, данные о пульсе, давлении и т. д.).

Важным направлением в части повышения эффективности и результативности исследований в последние годы становятся платформы и приложения для управления научными данными (research data management), решающие проблемы эффективности и воспроизводимости исследовательских результатов.

Отчасти рост внимания к этой теме связан с формальными моментами: многие государственные и частные фонды требуют от получателей грантов предоставления планов по управлению данными — таково универсальное требование для всех научных центров и университетов США, получающих финансирование из Национального научного фонда (National Science Foundation) и Национальных институтов здравоохранения (National Institutes of Health). Схожие требования предъявляют к исследованиям Европейский совет по исследованиям (European Research Council), британские научные фонды и пр.

«Облегченные» и более распространенные в университетах и научных центрах варианты решений для управления данными обычно включают наборы инструкций и алгоритмов (например, по европейскому стандарту FAIR), а также расширенные каталоги доступных приложений и платформ разного типа.

Что касается более комплексных вариантов платформ и информационных систем управления данными, то они, как правило, позволяют управлять научными данными на всех стадиях жизненного цикла исследования, от предварительного планирования (подготовки заявки на грант) до формирования отчетности. Системы такого рода позволяют осуществлять планирование, хранить данные, обеспечивая полную их безопасность, формировать единые или специализированные депозитории и пр.; именно такие решения используют Оксфордский университет и Университетский колледж Лондона.

Иными словами, решения для проектного управления и управления данными значительно облегчают исследователям жизнь в плане снижения «бумажной» и административной нагрузки — как с точки зрения планирования и реализации исследований, так и с точки зрения соответствия чисто формальным требованиям (не в последнюю очередь — в плане формирования отчетности).

Однако инновации, трансформирующие сам исследовательский процесс, лежат все же в другой цифровой сфере.
«Цифра», трансформирующая научное знание
Наглядный пример таких трансформирующих инноваций — цифровые экосистемы / платформы научных проектов класса мегасайенс (megascience): сверхсложные, гетерогенные информационные системы, предназначенные для сбора, хранения и анализа экспериментальных данных и позволяющие получать научные результаты, которые были невозможны еще 30 лет назад.

Пожалуй, самая известная цифровая экосистема такого рода развернута вокруг Большого адронного коллайдера в ЦЕРНе. Это Worldwide LHC Computing Grid (WLCG) — глобальная распределенная вычислительная инфраструктура, состоящая из более чем 800 тыс. компьютеров; она действует в 42 странах мира и включает вычислительные центры самого разного уровня, от центральной системы (Tier 0), расположенной в самом ЦЕРНе и проводящей обработку / калибровку первичных данных, до малых локальных центров, состоящих из одного-двух обычных компьютеров и обслуживающих локальные же группы исследователей (Tier 3).

Более того, в 2017 году по инициативе WLCG международный Фонд разработки ПО для физики высоких энергий (в руководство которого входят несколько представителей ЦЕРНа, Принстона, Университета Лундта и др.) разработал дорожную карту развития специализированного программного обеспечения, необходимого для обработки результатов экспериментов. Вычислительных мощностей уже недостаточно; физикам, работающим за гранью исследовательской интуиции и за пределами Стандартной Модели, нужны новые, сверхсложные цифровые инструменты и математические модели (См. дорожную карту).

Конечно, есть и менее сложные — и более прикладные — примеры такого рода. Один из самых ранних — цифровая платформа Центра материаловедения и инжиниринга (Center for Materials Science and Engineering) Массачусетского технологического института, созданная еще в 1998 году и работающая с большими массивами данных, которые генерируются максимально автоматизированным и роботизированным оборудованием Центра (спектрометры, атомно-­силовой микроскоп и пр.).

Тем не менее до широкого распространения таких систем еще далеко: как это ни парадоксально, абсолютное большинство рядовых исследователей вынуждены работать не с кастомизированными современными цифровыми платформами и информационными системами, способными обеспечить научные прорывы, а с сырыми данными и собственноручно написанным кодом или, в лучшем случае, с морально устаревшим ПО (например, из 3900 статей по геномике, вышедших в 2015 году, 60% были написаны на основе результатов, полученных с использованием очень, очень старого ПО).

По данным масштабного исследования Software Sustainability Institute, еще в 2014 году для семи из 10 исследователей во всех областях знаний наличие программного обеспечения было вопросом жизни и смерти: без ПО они просто не могли бы работать. При этом, по информации британского Института устойчивого развития программного обеспечения для исследований и разработок, 56% исследователей вынуждены разрабатывать собственное программное обеспечение, причем почти четверть из них не обладают необходимыми для этого навыками. А социологический опрос исследователей, проведенный ОЭСР в 2018 году, показал, что в среднем 70% всех исследований в мире включают либо данные, либо код, либо и то и другое (см. Рис. 4).
Рисунок 4. Результаты исследований с точки зрения создания цифровых данных и кода (2018 г.)
Несмотря на все это, в 2021 году основная программная / цифровая база для большинства исследователей — это библиотеки на языке программирования Python (Matplotlib, NumPy, pandas) для самостоятельной разработки программных комплексов и технологии машинного обучения на базе языка R.

К сожалению, все эти решения относятся, так сказать, к сфере «общественного блага». А это означает, что развитие их происходит, в основном, благодаря сообществам энтузиастов — и потому постоянно недофинансировано.

Такая ситуация чревата массой рисков. Лучший пример — ситуация с обработкой данных Event Horizon Telescope. В 2019 году исследовательская команда, работавшая с данными, которые собирал Event Horizon Telescope, сумела создать новый алгоритм обработки (с использованием уже упомянутых библиотек Python) — и получить первое в истории достоверное изображение черной дыры. Это произвело настоящий фурор в научном мире, и Национальный научный фонд США объявил, что «этот результат был невозможен еще поколение назад». И буквально через пять дней тот же Национальный научный фонд отказал команде в финансировании для доработки алгоритмов, с использованием которых был получен этот самый результат, — под тем предлогом, что «программное обеспечение не подтвердило свою полезность».

По счастью, эта история все же закончилась хорошо: у исследователей хватило упорства для того, чтобы отстоять финансирование и развитие своего ПО. Но сколько аналогичных ситуаций разрешилось не в пользу цифровых инструментов и их разработчиков и пользователей, науке неизвестно.

У ситуации с цифровыми решениями и платформами для науки есть еще один неочевидный, но важный аспект: абсолютное большинство инициатив по совершенствованию цифровой инфраструктуры в научной сфере реализуется в развитых странах или в успешных и финансово обеспеченных научных центрах и университетах. Конечно, пока на открытом рынке есть массовые, доступные и бесплатные решения, проблема цифрового неравенства в науке будет стоять не столь остро, как во многих других областях и отраслях. Тем не менее отдельные исследователи еще с начала 2000-х отмечают растущие риски «информационной колонизации», устаревания цифровой инфраструктурной базы в развивающихся странах и недоступности продвинутых цифровых инструментов для исследователей вне крупных корпораций.
«Цифра», меняющая исследователей
Разрозненность цифровых инструментов и решений и низкая доступность продвинутого исследовательского ПО приводят к тому, что большинство исследователей вынуждены ориентироваться на собственные силы и навыки, от сбора данных (нужен более чем 50% исследователей) до продвинутого программирования, позволяющего эти данные обрабатывать и интерпретировать (30% исследователей; подробнее см. Рис. 5), — хотя во многих других областях, от передовых производственных технологий до государственного управления, быстро становится нормой использование no-code решений.
Рисунок 5. Наиболее востребованные цифровые навыки по отдельным научным дисциплинам (% исследователей, отметивших навык как наиболее важный для дисциплины)
Несмотря на общие проблемы с цифровым обеспечением науки, в некоторых странах цифровые навыки и компетенции признаны важным компонентом исследовательской деятельности и поддерживаются в рамках национальных образовательных программ и проектов.

Так, в Великобритании реализуются две общенациональные программы, ориентированные на развитие цифровых навыков для исследований. Программа по развитию базовых цифровых навыков (Институт устойчивого развития программного обеспечения для R&D) была создана для повышения отдачи от государственных инвестиций в развитие цифровых научных инфраструктур; она спонсируется ключевыми британскими научными фондами и ориентирована на исследователей всех возрастов и специализаций. Программа Data Science for Social Good (Институт Тьюринга), в свою очередь, нацелена на молодых исследователей, получающих PhD и уже обладающих базовыми навыками программирования; она реализуется на базе нескольких британских университетов.

Немного в другой логике существует общенациональная инициатива по развитию цифровых навыков и компетенций исследователей в Канаде: в рамках единой Стратегии развития искусственного интеллекта (Pan-­Canadian Artificial Intelligence Strategy) создан отдельный трек по ИИ и машинному обучению, ориентированный на будущих исследователей — от старших школьников до студентов последних курсов.

Наконец, в Японии единая инициатива по обучению исследователей основам управления данными — в виде специализированного курса, который могут пройти все желающие, — развернута в рамках программы поддержки открытого доступа к результатам исследований (Japan Consortium for Open Access Repositories).

Помимо страновых программ развития цифровых навыков, в мире реализуется несколько международных инициатив этого типа: The Carpentries (основы аналитики данных и программирования), двухнедельные школы data-science от Международного научного совета (основы data-science), программа и платформа ELIXIR (основы цифровой грамотности и навыки владения специализированным ПО для исследователей в области life sciences и медицины) и др.

Кроме того, программы развития цифровых навыков реализуются во многих научных центрах и университетах — как в виде формальных образовательных курсов (управление данными, основы программирования), так и в виде неформальных активностей (например, в Дельфтском техническом университете создано сообщество data-энтузиастов, ведущих профильные курсы и помогающих исследователям внедрять лучшие практики управления данными в своих подразделениях).

Россия: вложимся в оптимизацию, а там посмотрим
Что касается российской политики в сфере цифровизации и цифровой трансформации науки, то она скорее ориентируется на оптимизацию исследовательской деятельности (повышение доступности данных, упрощение коллаборации, автоматизация рутинных операций и пр.).

В частности, «Стратегия цифровой трансформации отрасли науки и высшего образования», задающая общероссийские приоритеты и опубликованная министерством науки и высшего образования России в июле 2021 года, предполагает реализацию нескольких оптимизационных «цифровых» проектов в сфере науки и образования (причем образованию уделено куда больше внимания — видимо, как более резонансной с общественной точки зрения теме).

Если коротко, то для цифровой трансформации российской науки планируется реализовать три взаимосвязанных проекта:

1) Создание Единой сервисной платформы науки, включающей:

  • сервис «Портфолио», позволяющий накапливать информацию об ученых (с визуализацией их достижений и потенциала), а также подбирать исследователей для участия в научных проектах;
  • сервисы для управления исследовательскими проектами и научной коллаборации;
  • дата-сеты (размеченные документы, «­государственный диссернет», «актуальность исследования»), предназначенные для исследований;
  • единый реестр мер поддержки и автоматизированный модуль для подготовки заявок на гранты / формирования отчетной документации;
  • единый реестр научного оборудования (ЦКП) и систему онлайн-­бронирования этого оборудования.

2) Создание дата-хаба для сбора управленческих данных о развитии науки и образования, необходимых для принятия решений при «управлении, основанном на данных» (data-driven management);

3) Создание маркетплейса программного обеспечения и оборудования для научной и образовательной сферы — единой цифровой среды взаимодействия образовательных организаций с поставщиками и вендорами оборудования и ПО, а также единых инструментов мониторинга уровня цифровизации в образовательных и научных учреждениях.

Самая важная (и позитивная) особенность этих цифровых планов — в том, что, несмотря на создание единой платформы, суть предлагаемых проектов ­все-таки в разработке системы взаимосвязанных сервисов для исследователей, а не единой безальтернативной информационной системы. Кроме того, автоматизация формирования заявок на гранты и системы отчетности может стать настоящим спасением для научных команд, реализующих несколько проектов сразу.

Правда, уже сейчас можно сказать, что реализация Стратегии столкнется с несколькими сложными проблемами.

Во-первых, во многих, если не во всех научных и образовательных организациях уже сложились собственные цифровые экосистемы (то, что наши зарубежные коллеги изящно именуют legacy software), зачастую состоящие из разрозненных и устаревших информационных систем. Кроме того, в стране существует целый ряд федеральных систем: ведомственная система самого министерства науки и высшего образования, информационные системы научных фондов, ФЦП «Исследования и разработки», ЕГИСУ НИОКТР, не говоря уже о научных электронных библиотеках (eLibrary.ru, КиберЛенинка).

Каким образом будет осуществляться бесшовная интеграция между Единой сервисной платформой и всеми этими системами — вопрос пока открытый; но без его решения создание Единой платформы увеличит административную и бюрократическую нагрузку на российских исследователей, вместо того чтобы ее снизить, как было задумано.

Во-вторых, нет гарантий того, что складывающаяся геополитическая ситуация позволит реализовать планы интеграции в Единую сервисную платформу и ее дата-сеты зарубежных баз данных, начиная с доступа к репозиториям результатов исследований и заканчивая бесшовной интеграцией сервиса «Портфолио» с другими общераспространенными цифровыми идентификаторами ученых (Scopus Author ID, WoS Researcher ID и пр.). Без возможности нормального импорта / экспорта данных, публикаций, РИД и пр. эффект от Единой сервисной платформы в части облегчения исследовательской работы будет ниже ожидаемого.

В‑третьих, из текущей версии Стратегии цифровой трансформации неясно, насколько создаваемая цифровая инфраструктура будет соответствовать требованиям отрытой науки.

И, в‑четвертых, самый важный момент: в Стратегии не выделены российские проекты разработки и развития программного обеспечения для исследований, аналогичных инициативам международного Фонда разработки ПО для физики высоких энергий (ЦЕРН, Принстон и пр.), или хотя бы по специализированным системам для обработки данных из разных научных сфер и дисциплин.

Конечно, многие российские научные команды разрабатывают собственные ПО, и Стратегия цифровой трансформации им для этого не нужна. Например, в 2020 году лаборатория квантовой физики Петербургского института ядерной физики им. Б. П. Константинова представила новый программный комплекс EXP-T для квантово-­механического моделирования электронных состояний и свой­ств систем, включающих атомы тяжелых и сверхтяжелых элементов (и EXP-T уже показал гораздо более высокую точность, чем единственный в мире альтернативный программный пакет DIRAC).

Но есть подозрение, что вывести Россию в десятку стран-­лидеров по уровню развития науки, как это декларируется в Стратегии, одна только цифровая оптимизация все же не сможет.
ДРУГИЕ МАТЕРИАЛЫ #6_2021