Цифровая перезагрузка

ТЕМА НОМЕРА / #8_2022
Текст: Наталия АНДРЕЕВА / Фото: Openai.com/dall-e-2, Flickr.com, Tudelft.nl

Пока менеджеры с помощью цифровых технологий пытаются усовершенствовать управление исследовательскими проектами, в мировой науке идет реальная цифровая трансформация — та, которая позволяет получать прорывные исследовательские результаты, а не только экономить деньги и время. Но ее, как водится, не замечает никто, кроме самих исследователей.

Еще пять лет назад каждый четвертый исследователь в мире в том или ином виде использовал большие данные; каждый десятый создавал датасеты и писал код для их обработки. Активнее всего данные и код создавались и создаются в областях, где их необходимость очевидна (компьютерные науки, инжиниринг), и в научных дисциплинах, которые кажутся непосвященному далекими от информационно-коммуникационных технологий: в сельском хозяйстве, биологии, материаловедении, геологии и пр. При этом почти четверть исследователей, работающих с кодом и данными, не обладают необходимыми для этого навыками и вынуждены осваивать всё по ходу дела; а половина программ, с которыми работают ученые в разных странах и дисциплинах, морально устарели.
Доля исследователей, работающих с большими данными, в научных дисциплинах (2018), %
И даже несмотря на все эти сложности фантастические результаты, которые становятся возможными благодаря новым способам получения и обработки данных (в том числе благодаря все более широкому распространению роботизированных лабораторий и систем управления лабораторной информацией), появляются с завидной регулярностью. Это глобальная экосистема обработки данных Большого адронного коллайдера в физике; проект Sloan Digital Sky Survey, в рамках которого была создана уникальная система удаленного доступа к телескопам и цифровым данным для пятнадцати тысяч исследователей, в астрономии; наконец, система AlphaFold, перевернувшая наши представления о фолдинге белков.

И со столь же завидной регулярностью тема цифровой трансформации исследований ускользает от внимания широкой публики и заодно — менеджеров от науки.
Слепая зона
Главная причина этого постоянного ускользания — то, что цифровая трансформация науки даже в одной области — очень ресурсоемкий процесс, требующий денег, людей и времени.

Скажем, уже упоминавшаяся система AlphaFold — продукт IT-компании DeepMind (полностью принадлежит Alphabet Inc, материнской компании Google); разработка основы этого продукта — нейросети Alpha — велась около пяти лет, еще четыре года заняли тестирование и доработка. При этом за год компания DeepMind, занимающаяся развитием Alpha и продуктов на ее основе, тратит порядка $ 900 млн; бо́льшая часть этих денег идет на оплату труда разработчиков; на первую прибыль ($ 62 млн) DeepMind вышла только в прошлом году.

То есть, по самым грубым подсчетам, для того чтобы получить систему, предсказывающую структуру белков, нужно потратить несколько миллиардов долларов и минимум пять лет. Даже если львиная доля денег уйдет на разработку нейросети с широким спектром рыночных применений (как это произошло с Alpha), а не на одну узкую систему, такие ресурсы есть у ограниченного числа глобальных технологических корпораций и у еще более ограниченного числа государств.

Не помогает и запредельная сложность реальной цифровой трансформации науки. Исследовательские процессы крайне специфичны и даже в рамках узких научных дисциплин требуют принципиально различных подходов и решений, начиная с разметки данных/метаданных и заканчивая форматом представления результатов их обработки. Потому что исследование — это не заявка на грант и уж тем более не отчетность по нему, а планирование и проведение эксперимента, обработка данных / моделирование и пр.

Иными словами, при цифровой трансформации исследовательского процесса очень трудно выполнить формальные KPI: продемонстрировать блестящие количественные показатели результативности, отчитаться десятками тысяч счастливых пользователей и пр. Не говоря уже о разработке универсальных цифровых сервисов для исследователей — таких, которыми могут пользоваться не сто, а сто тысяч человек в стране.

В подобных условиях государству проще и логичнее заниматься оптимизацией организационных, формальных процессов (бухгалтерия, отчетность и пр.), которая — в той или иной степени — облегчит жизнь сразу многим, хотя и не поможет с прорывными научными результатами.
Важность прицела
Именно поэтому наши западные (да и восточные) коллеги и партнеры на государственном уровне вкладываются в два направления реальной цифровой трансформации науки: в развитие цифровых инфраструктур — с тем чтобы исследователям было на что опереться в работе с данными и моделями, раз уж государство не может помочь им с содержанием исследовательского процесса; и, адресно и прицельно, в цифровую трансформацию научных направлений и дисциплин, вносящих наибольший вклад в развитие критичных технологий.

Самый наглядный пример — цифровая трансформация науки в Китае.

Наши китайские коллеги начали разворачивать единую облачную платформу для науки и технологий (China Science and Technology Cloud, CSTCloud) в 2017 году и за несколько лет довели ее до космических параметров.

Сервисами платформы пользуются 100 тыс. исследователей, которым доступны 315 петафлопс вычислительной мощности (ср.: суммарная пиковая мощность топ‑50 российских суперкомпьютеров — около 120 петафлопс, из них на университеты и НИИ приходится 20 петафлопс), 150 петабайт памяти для хранения данных и больше тысячи универсальных и специализированных программных комплексов: порядка 800 — для работы с исследовательскими данными (Рис. 2) и еще около 400 — для решения других задач (планирование, отчетность, VPN, видеоконференцсвязь и пр.).
Универсальные и специализированные программные комплексы для работы с исследовательскими данными и кодом на платформе CSTCloud, ед.
Абсолютное большинство (1095) программных продуктов на платформе — открытые; и, что интересно, платформа позволяет исследователям загружать собственные исследовательские коды — как готовые, так и находящиеся в процессе разработки. Таких комплексов на CSTCloud сейчас совсем немного (всего 43), но — с учетом имеющегося там же ПО для дебаггинга (процесса отладки, проверки) кода — перспективы у этого направления, кажется, есть.

Помимо универсальных решений и сервисов, связанных с данными, планированием и пр., в рамках CSTCloud созданы несколько специализированных доменов, соответствующих актуальным государственным приоритетам в области науки и технологий: новые материалы, вычислительная химия, life science и здравоохранение, ИИ, энергетика, физика высоких энергий, лесное дело, арктические исследования. Для каждого домена / каждой приоритетной области знаний развернуты собственные дата-центры, созданы репозитории данных, платформы поддержки профессиональной коммуникации, подборки программного обеспечения и пр.

В похожей, хотя и не полностью аналогичной логике идет цифровая трансформация науки в США.

На общесистемном уровне государство вкладывается в цифровые исследовательские инфраструктуры, которые нужны для достижения заявленных целей в области доступности, интероперабельности, воспроизводимости, прозрачности данных / результатов исследований; в абсолютном большинстве случаев речь идет о внедрении принципов управления исследовательскими данными в парадигме «открытой науки» (в частности, соответствующие цели и задачи зафиксированы в Приоритетах федеральных агентств в области исследований и разработок).

Собственно, даже само понятие исследовательских инфраструктур в США с 2021 года включает не только научное оборудование, необходимое для экспериментов / наблюдений, но также инфраструктуру для управления знаниями (данные, репозитории, архивы, стандарты, протоколы, алгоритмы, цифровые платформы и пр.), а также так называемую исследовательскую кибер-­инфраструктуру (вычислительные мощности; инфраструктуры, необходимые для работы ПО и хранения/обработки данных; сети и пр.). А свежий стратегический доклад Национального совета по науке и технологиям, посвященный развитию инфраструктур для науки, прямо утверждает, что современные цифровые исследовательские инфраструктуры — это то, что может и должно обеспечить «превращение информации и данных в открытия и инновации».

Что касается адресного развития цифровых инфраструктур и инструментов, то лучше всего этот подход виден в новых материалах и биотехнологиях — исследовательских и технологических направлениях, которые входят в официальный перечень критичных и перспективных технологий США.

В части разработки новых передовых материалов к критичным технологиям относятся технологии дизайна материалов, создания материалов с новыми свой­ствами и/или улучшения имеющихся, а также технологии характеризации и управления жизненным циклом.

Приоритетным это направление стало не вчера — новые материалы появляются в американских стратегических документах и программах финансирования уже 20 лет; самая заметная государственная инициатива США по развитию цифрового материаловедения — Materials Genome Initiative — тоже не нова. С 2011 года федеральное правительство финансирует создание инфраструктуры и разработку ПО, которые позволили бы радикально — на порядок — сократить время от разработки нового материала до его внедрения в промышленность/экономику: базы данных о материалах (унифицированные, снабженные тегами и метаданными, с детализированной онтологией понятий), цифровые модели материалов (от нано- до макроуровня).

Что характерно, эта инициатива — детище Департамента обороны, а также армии и ВВС США — и это помимо остальных 15 департаментов и ведомств, кровно заинтересованных в том, чтобы в стране появлялись новые материалы с новыми свой­ствами.

История с биотехнологиями — более молодая; с 2021 года к критичным для США относятся технологии синтеза белков, геномные, мультиомика, разнообразные технологии биоинжиниринга и биопроизводства/биопроцессинга, а также все виды биоинформатики с ее предиктивным моделированием и аналитическими инструментами.

Для обеспечения развития биотеха в сентябре 2022 года указом «О развитии биотехнологий и инноваций в области биопроизводства для устойчивой и безопасной американской биоэкономики» были утверждены планы реализации инициативы «Данные для биоэкономики», в рамках которой будут созданы и/или собраны качественные и защищенные дата-сеты по максимально широкому перечню направлений, прямо или косвенно связанных с биотехнологиями и их применениями. Ядром этого массива станут данные из сферы геномики/ мультиомики, поскольку именно они, по мнению администрации США, могут дать стране научные и инновационные прорывы в здравоохранении, фармацевтике, энергетике, сельском хозяйстве.

Отдельное направление в рамках инициативы — обеспечение кибербезопасности данных, как в связи с их чувствительностью (особенно это касается медицинских данных граждан США), так и в связи с их стратегической важностью для развития направления.

О технологиях моделирования и симулирования в биотехе речь пока не идет, и понятно почему: основная «цифровая» проблема биотехнологий — не в моделировании, а в разрозненности и недоступности данных (это верно и для многих других научных/ технологических направлений, в том числе для уже упомянутого материаловедения).

Поэтому ряд других стран, реализующих масштабные программы научно-­технологического развития, тоже работает над решением именно этой проблемы — проблемы данных.

Германия создала 30 специализированных консорциумов исследовательских институтов для организации общих репозиториев научных данных, соответствующих международным принципам FAIR; консорциумы объединены по научным направлениям, как естественным (биология, химия и т. д.), так и гуманитарным и общественным (социология, экономика). Помимо датасетов, речь идет о создании всех необходимых инфраструктур (облачное хранение, комплаенс и мониторинг соответствия данных стандартам качества, системы распределенных вычислений/анализа).

Великобритания (Агентство по исследованиям и инновациям) вкладывается в создание защищенных и безопасных дата-центров и репозиториев исследовательских данных со всеми необходимыми инфраструктурами (наращивание вычислительных мощностей, включая суперкомпьютерные и облачные решения; исследовательское ПО и репозитории кода) в рамках единой программы развития исследовательских инфраструктур.

Норвегия, как и Великобритания, в рамках единой стратегии финансирования научной инфраструктуры (National Financing Initiative for Research Infrastructure) планирует развивать цифровые инфраструктуры, находящиеся под управлением единой государственной компании UNINETT, в том числе решения для хранения данных и обменов ими.

Список можно продолжать, но суть всех этих инициатив одна — обеспечить концентрацию исследовательских данных на защищенных и безопасных платформах, дать исследователям доступ к ПО, необходимому для работы с этими данными, и, не в последнюю очередь, позволить им дорабатывать и развивать собственные программные продукты (исследовательский код).
Спасение утопающих
Исследователи и научные организации тоже не теряют времени даром — как правило, ведущие университеты и исследовательские центры начинают вкладываться в цифровую трансформацию науки и в решение проблемы исследовательских данных задолго до того, как на них обращает внимание государство.

Например, Оксфорд утвердил и начал внедрять в исследовательскую практику принципы управления научными данными еще в 2012 году — за несколько лет до того, как Великобритания озаботилась вопросом развития цифровых инфраструктур для науки.

К 2022 году в университете без ­каких-либо понуканий со стороны государства был развернут полноценный цифровой хаб для исследователей — с системой хранения научных данных и обмена ими, ПО и приложениями для совместной исследовательской работы, технической поддержкой, обучающими материалами и мероприятиями.

Более того, Оксфорд обязался обеспечивать своих исследователей всеми необходимыми инфраструктурами для управления научными данными и предоставлять им возможность приобрести необходимые навыки; все принятые на вооружение программные комплексы и внутренние регламенты обращения с данными соответствуют требованиям, установленным британским Агентством по исследованиям и инновациям («Соглашение об открытых исследовательских данных», «Общие принципы политики в отношении данных»).
Основные компоненты цифрового хаба Оксфордского университета
Еще дальше пошел Дельфтский технический университет (Technische Universiteit Delft, TU Delft) — помимо защищенных ресурсов для хранения и архивирования данных и тренингов по работе с ними, университет реализует грантовую программу, в рамках которой исследователи и исследовательские команды получают до € 3,5 тыс. на то, чтобы привести полученные данные в соответствие со стандартами FAIR (легкость поиска за счет метаданных / уникальных глобальных идентификаторов датасетов, доступность, интероперабельность, возможность повторного использования).

И, что впечатляет сильнее всего, у всех исследователей TU Delft есть возможность освоить базовые навыки программирования: командную строку и автоматизацию задач в Unix, основы Python и работу с системой контроля версий Git. Наконец, в университете создан внутренний аналог GitHub’а (на базе хостинга Git-репозиториев GitLab), где исследователи могут размещать и дорабатывать собственные коды для обработки данных, цифрового моделирования и пр.

До таких высот, конечно, дорастают далеко не все. Большинство исследовательских организаций, особенно университетов, ограничиваются инструкциями для исследователей по управлению данными и рекомендациями по поводу того, какое ПО можно для этого использовать.

Во многом это связано с тем, что зачастую масштабные проекты развития цифровых инфраструктур и работы с данными выглядят для отдельных организаций чрезмерными, особенно на фоне больших открытых проектов сбора и хранения исследовательских данных, таких как Dataverse, FigShare, Mendeley Data, а также 320 открытых программных комплексов для выстраивания последовательности действий при анализе данных.

Но дьявол, как обычно, кроется в деталях: в больших открытых репозиториях собраны разрозненные данные из разных дисциплин без ­какой-либо гармонизации, метаданных и пр., что делает использование имеющихся там датасетов крайне затруднительным и не только не способствует решению проблемы с данными, но и усугубляет ее. Нормальная же систематизация и поиск чаще всего возможны в узкоспециализированных репозиториях, ориентированных на те научные направления, где проблема данных обострилась до предела (особенно в life sciences: Genbank, Worldwide Protein Data Bank и пр.).

Что же касается ПО/кода для автоматизации воркфлоу (последовательности действий при работе с данными), то в абсолютном большинстве случаев программные комплексы требуют кастомизации — и, соответственно, развитых навыков программирования.
Игнорировать нельзя трансформировать
В России системных инициатив в части реальной цифровой трансформации науки пока не так много, как хотелось бы.

Национальный проект «Наука и университеты» и входящий в него федеральный проект «Инфраструктура» предполагают, помимо всего прочего, развитие национальной исследовательской компьютерной сети нового поколения, в том числе с целью обеспечения [удаленного] доступа к передовой научной инфраструктуре коллективного пользования (суперкомпьютерным центрам, цифровым коллекциям, банкам данных). При этом иные задачи этой компьютерной сети — например, связанные со сбором и хранением данных — и ее конкретные характеристики то ли не обозначены, то ли по ­каким-то причинам недоступны широкой публике.

Стратегия в области цифровой трансформации науки и высшего образования до 2030 года — так называемое стратегическое направление, утвержденное распоряжением правительства РФ № 3759‑р в декабре 2021 года, — как и большинство федеральных отраслевых стратегий цифровой трансформации, очень абстрактна. Кроме того, большинство проектов, которые должны быть реализованы в рамках этой стратегии, направлены на оптимизацию управления исследованиями и разработками и на развитие «цифровых компетенций» (кстати, в документе по ­какой-то причине отсутствует уже вроде бы созданная «Единая цифровая платформа научного и научно-­технического взаимодействия исследователей»).

Единственный проект из Стратегии, хотя бы теоретически способный внести свой вклад в реальную трансформацию исследований, — это «Датахаб» (обеспечение сбора, обработки и предоставления данных сферы исследований и разработок для принятия управленческих решений и проведения исследовательской деятельности), но в качестве его целей пока заявлены «повышение качества данных и систематизация работы с ними для их использования в принятии управленческих решений»; видимо, «проведение исследовательской деятельности» в данном случае второстепенно.

Более близки к реальной цифровой трансформации работы по созданию домена «Наука» на платформе ГосТех, в рамках которого должны появиться цифровые сервисы для исследователей.

К сожалению, сейчас в рамках домена разрабатываются сервисы, связанные исключительно с организационными процессами: конструктор плана научного проекта, калькулятор экономики (читай — форма для составления сметы), составление отчетности, управленческий дэшборд (этапы и статус работ) и пр., которые нужны не столько исследователям, сколько государственным служащим, ответственным за науку, для контроля госзаданий, прослеживаемости, сбора статистики, принятия решений и пр. Впрочем, все это соответствует целеполаганию отраслевой стратегии цифровой трансформации.

Но надеяться на лучшее ­все-таки пока можно. По планам, домен «Наука» должен включать «Научный Data-hub» (вероятно, тот самый, который упомянут в Стратегии цифровой трансформации науки и высшего образования) — комплекс сервисов, обеспечивающих работу с данными: доступ к бирже виртуальных вычислений (т. е. возможность использования облачных вычислительных мощностей вне контура исследовательской организации), к открытым биобанкам и, шире, к абстрактным и неуточненным «большим данным».

Без функционала, позволяющего выгружать данные из LIMS (системы управления лабораторными данными), управлять данными и анализировать их, а также без репозиториев авторского исследовательского кода и/или программного обеспечения для обработки данных и моделирования биржа вычислений и доступ к чужим данным, конечно, не очень помогут. Исследователи все равно будут вынуждены самостоятельно обрабатывать данные, строить модели, писать коды, искать необходимое ПО и пр.

Хотя пусть уж лучше будут доступны облачные мощности и чужие дата-сеты, чем вообще ничего.

Между тем не ФОИВами едиными жива реальная цифровая трансформация науки; в отдельных крупных организациях дела обстоят заметно лучше.

Например, ряд значимых, хотя и не очень известных публике проектов реализует ГК «Росатом»: единое информационное пространство (ЧУ «ИТЭР-Центр»; система включает доступ к единому массиву данных, аналитические дэшборды, отражающие ход экспериментов и пр.) для команд и организаций, занимающихся проблематикой управляемого термоядерного синтеза; в перспективе — часть сервисов и модулей в рамках проекта «Комплекс цифровых сервисов „Цифровая наука“» (сейчас проект сконцентрирован в основном на управлении реализацией комплексной программы «Развитие техники, технологий и научных исследований в области использования атомной энергии в РФ на период до 2024 года»); цифровое материаловедение (в рамках дорожной карты «Технологии новых материалов и веществ»), связанное с цифровым моделированием и ускоренными имитационными испытаниями новых материалов, и т. д.

Впрочем, большинство крупных технологических компаний в России фокусируют внимание скорее на прикладных исследованиях и разработках, с цифровым проектированием, виртуальными испытаниями, заменяющими натурные.

Так, цифровая трансформация НИОКР входит в число приоритетов Объединенной двигателестроительной корпорации (ОДК; входит в «Ростех»), причем трансформация должна быть взаимосвязана с развитием цифрового контура остальных подразделений/переделов — в первую очередь, с PLM, охватывающей весь жизненный цикл продукции компании, от НИОКР до постпродажного обслуживания изделий — за счет создания цифровых двой­ников, а также с единой системой управления интеллектуальными активами компании.

Фармацевтическая и биотехнологическая компания BIOCAD еще в 2013 году создала и развивает Департамент вычислительной биологии, основные задачи которого — компьютерное моделирование биологических экспериментов (in silico) и решение задач в области системной биологии и молекулярной генетики; результаты работы исследователей, как правило, передаются в Департамент доклинических испытаний *для тестирования in vivo. При этом команда департамента работает частично на собственном программном обеспечении и разрабатывает in-house решения для автоматизации производства фармпрепаратов.

К сожалению, в условной государственной науке заметных инициатив на уровне организаций не так много, как в государственном и коммерческом корпоративном секторе.

Отдельные элементы «цифрового научного процесса» предусмотрены в программах развития университетов — участников программы «Приоритет 2030». Например, программа развития Томского государственного университета предполагает создание межвузовских цифровых датасетов (репозиториев исследовательских данных), публикацию открытых научно-­исследовательских данных (в том числе в соответствии с Пантонскими принципами открытой науки и открытых данных), депонирование данных в иных репозиториях и пр.

При этом ТГУ едва ли не единственный российский университет, не только объявивший об абстрактных планах развития «открытой науки» и «открытых данных», но и обозначивший конкретные проекты в этом направлении.

Хотя, конечно, есть шанс, что и остальные университеты — участники программы «Приоритет 2030» рано или поздно подтянутся.
Что делать?
Дефицит нормальных централизованных инициатив не отменяет цифровых успехов и достижений российских исследователей, исследовательских команд и организаций — успехи и достижения есть, и их довольно много, хотя мало кто, кроме коллег по научно-­технологическому цеху, обращает на это внимание.

Но, как показывает практика наших зарубежных партнеров, рано или поздно наступает момент, когда энтузиазм и профессионализм отдельных исследователей уже не спасают и требуются немалые системные вложения в реальную цифровую трансформацию науки. В инфраструктуры, в данные, в человеческие навыки и компетенции.

Кажется, для России этот момент наступает, если еще не наступил.

Даже если сделать поправку на нынешнюю геополитическую ситуацию и изящно проигнорировать [уже, видимо, не актуальные] планы Российской Федерации относительно международного научного сотрудничества и достижения глобального научного лидерства, «на доске» все равно остаются соображения национальной конкурентоспособности — и технологической, и экономической. А наши коллеги и конкуренты, как было сказано выше, не стоят на месте: США, Великобритания и многие другие западные страны активно инвестируют в цифровую трансформацию науки, особенно в областях, связанных с критическими технологиями; а в Китае, можно сказать, уже вообще все случилось.

Хотелось бы, чтобы российская наука получила максимально возможные ресурсы для цифровой трансформации: огромные вычислительные мощности, дата-центры, специализированные репозитории данных и ПО для работы с ними (в том числе решения на основе ИИ/нейросетей и машинного обучения). Словом, чтобы было всё как в Китае.

Но судя по тому, что происходит с федеральным бюджетом в целом и с бюджетом на науку и технологии в частности, придется двигаться осторожно и последовательно.

Во-первых, приоритезировать: выбрать научные направления, которые должны получить цифровые инфраструктуры и инструменты в первую очередь. Буквально по принципу «где горит» + «есть ли на этом пожаре исследователи, способные и готовые ­что-то сделать» (объединить сообщество, разработать стандарты данных и метаданных, курировать репозитории, создать требования к ПО для обработки, делиться кодом и пр.). Потому что это как раз тот случай, когда схема «размазать деньги ­тонким-­тонким слоем, чтобы никого не обидеть» будет не просто бесполезна — она очень сильно навредит.

Самый очевидный вариант приоритезации — по актуальным критическим технологиям и/или научным направлениям, которые могут внести наибольший вклад в развитие этих технологий (спойлер: это, конечно же, цифровое материаловедение и вычислительная биология).
Перечень критических технологий (распределение полномочий по курированию вопросов развития критических технологий Российской Федерации, утв. 5 сентября 2022 года)
Во-вторых, начать с решения проблемы данных, как все. Сценарии создания репозиториев качественных данных по приоритетным научным направлениям могут быть разными — начиная с условно добровольных консорциумов (как, например, в Германии), в рамках которых исследователи и исследовательские организации сами договариваются об условиях, на которых они готовы делиться данными, и о необходимых параметрах баз данных; и заканчивая полностью централизованной схемой, когда все данные, «производимые» на государственные деньги, сдаются — с поправками на секретность — в государственные же базы (как в Китае).

Возможно, кстати, что не самым плохим сценарием будет промежуточный британский вариант — с открытыми конкурсами на самые быстрые решения (так называемые Sprint Exemplar Projects в рамках государственной программы развития исследовательских инфраструктур) по заявляемым государством ­приоритетам.

Все это, естественно, касается и стандартов научных данных / метаданных (тех самых, которые нужны, чтобы сделать данные «находибельными» и пригодными к повторному использованию).

В-третьих, разобраться с реально нужными инфраструктурами цифровой трансформации — и с физическими (дата-центры, сети), и с софтверными (ПО и код).

Понятно, что отдельной проблемой тут станет понимание существующего в стране цифрового научного ландшафта, хотя бы для того, чтобы не сломать то, что работает; не разрушить исследовательские процессы в тех организациях и командах, которые уже ­как-то обустроили свою научную цифровую инфраструктуру, не дожидаясь указаний от вышестоящего начальства.

В-четвертых, предусмотреть возможность закупки ПО / вычислительных мощностей и затрат на работу с данными/кодом в НИОКР, финансируемых государством, в рамках грантовых программ, госзаданий и пр.

Сейчас многие российские исследователи, создающие датасеты и код, вынуждены буквально протаскивать их контрабандой (как, впрочем, и исследователи во многих других странах). Между тем в мире уже существует практика признания и датасетов, и исследовательского кода результатами исследований наравне с научными публикациями, докладами и пр.

Например, Научный фонд США (National Science Foundation, NSF) разрешает командам, претендующим на получение грантов, запрашивать финансирование на закупку специализированного программно-­аппаратного обеспечения, необходимого для обработки полученных данных, и, что еще важнее, на постпроектную подготовку датасетов, баз данных и исследовательского кода для их дальнейшей публикации.

Деньги на соответствующие закупки и/или работы выдаются, конечно, не под честное слово, а только при наличии плана управления данными (data management plan).

В-пятых, дать исследователям возможность освоить необходимые навыки программирования и обработки данных или привлекать к работе нужных людей (дата-инженеров, дата-аналитиков, разработчиков ПО, специалистов по визуализации и пр.). Хотя это, конечно, скорее прерогатива научных организаций.

И наконец, в‑шестых: помнить о том, что уже через пару лет перед Россией могут встать сложные вопросы, касающиеся цифровой трансформации науки.

Вопросы большие и маленькие
Вопрос номер один: кто в России будет разрабатывать новое поколение цифровых инструментов для науки, в особенности на базе ИИ/нейросетей и машинного обучения?

Это огромная и дорогая работа, которую могут «потянуть» только крупные IT-компании — ну, или государства, у которых, во‑первых, есть на это десятки, если не сотни, миллиардов долларов и, во‑вторых, потенциальные исполнители проектов такого масштаба и такой сложности.

На системном уровне (скажем, на уровне домена на платформе ГосТех) и в случаях со сложными программными продуктами отдельные исследовательские команды, скорее всего, не справятся.

Например, команда исследователей из Беркли (лаборатория Дэвида Бейкера с инфраструктурой сетевых вычислений Berkeley Open Infrastructure for Network Computing) начала разрабатывать собственное ПО для создания новых белков RoseTTAFold еще в 1990‑х — и сломалась на проблеме подбора точной последовательности аминокислот (такой, чтобы аминокислоты складывались исключительно в нужную структуру). Имевшиеся на тот момент подходы и технологии не позволяли «обсчитать» эту задачу ­сколько-­нибудь эффективно — для этого требовались тысячи компьютеров и месяцы.

Команда обошлась с этой проблемой оригинально, запустив в 2008 году онлайн-игру-головоломку Foldit, где пользователям предлагалось решать задачи на фолдинг белка.

Но с помощью вычислительных методов и программирования решить проблему фолдинга смогли ­все-таки только DeepMind/Google с командой разработчиков, нейросетью и многомиллиардными бюджетами. Именно поэтому над полноценным ПО, которое позволило бы разрабатывать новые белки, не имеющие аналогов в природе, сейчас работают та самая DeepMind и, внезапно, Meta (бывший Facebook; компания, признанная в России экстремистской организацией).

Теоретически есть еще надежда на крупные высокотехнологичные компании, создающие собственное проприетарное ПО для исследований и разработок (например, Merck разработала программный комплекс Syntropy для управления биомедицинскими данными и моделирования и теперь продает его компаниям, работающим в области медицины и химии).

Но в России с такими компаниями напряженка — и более того, министерство цифрового развития решило запретить крупным государственным компаниям разрабатывать собственные ПО, чтобы не плодить двой­ное финансирование одних и тех же разработок.

Вот несколько вопросов, связанных с исследовательскими данными:

  • авторские права на данные и обращение с ними (например, роялти для исследователей, получивших данные, за повторное использование этих данных; или право ученых решать, кто может и кто не может использовать данные их исследований);
  • ресурсы на размещение данных в репозиториях (оформление по правилам; физическая загрузка и пр. — кто должен этим заниматься и на какие деньги?);
  • безопасность данных (как показывают регулярные утечки данных пользователей — в Яндексе, CDEK и пр. — и мизерные штрафы за подобную халатность, не то чтобы в России это ­кого-то реально волновало; но речь идет о критических технологиях и, местами, национальной безопасности);
  • аккредитация и аутентификация пользователей для доступа к исследовательским данным;
  • междисциплинарные перетоки данных (из одного стандарта в другой); переток данных НИОКР / исследовательских организаций в промышленность и, шире, реальный сектор (китайские коллеги пробуют выстроить этот процесс за счет размещения исследователей и промышленных компаний на единой платформе CSTCloud, но есть ли там реальный переток данных и цифровых моделей, пока не понятно).

И наконец, еще один животрепещущий вопрос -деньги: кто и из каких бюджетов должен оплачивать поддержку проприетарного ПО и, скажем, подписку на облачные мощности, когда у исследовательской команды/лаборатории/института заканчивается грант, на средства которого это ПО было закуплено?

(Справедливости ради: это не только российская проблема; в США на ее решение дают деньги, страшно сказать, благотворительные организации: Фонд Альфреда Слоуна, Chan Zuckerberg Initiative и пр.)

Впрочем, можно утешаться тем, что до обсуждения всех этих вопросов и проблем нам, похоже, еще очень далеко.
ДРУГИЕ МАТЕРИАЛЫ #8_2022