Молекула ДНК состоит из четырёх букв — нуклеотидов A, T, C и G. Благодаря этим буквам природа создала много разных живых организмов на Земле. Учёные из Института Arc, Стэнфордского университета и компании Nvidia разработали алгоритм Evo 2 искусственного интеллекта, который может анализировать геномы организмов и создавать новые последовательности для решения задач генетической медицины и синтетической биологии.
В клетках информация записывается в виде ДНК, которая содержит гены — инструкции для создания белков. Регуляторные области между генами управляют их работой и могут быть связаны с различными болезнями. Эти области стали ключевой задачей для алгоритма Evo 2.
Evo 2 использует большие языковые модели для изучения последовательностей ДНК разных организмов. Он был обучен на геномах 128 тысяч видов и может анализировать генетические последовательности в более широком контексте.
Система обучалась на базе данных OpenGenome2, включающей геномы всех ветвей жизни. Учёные создали две версии системы: одну на 2,4 триллиона нуклеотидов и полную, использующую весь массив данных. Обучение заняло несколько месяцев и потребовало мощности более 2000 графических процессоров Nvidia H100.
Evo 2 успешно анализирует регуляторные элементы генома, которые управляют работой генов. Он может определять потенциальные риски различных заболеваний и создавать функциональные геномы с нужными свойствами.
Исследователи тестируют систему на создании генетической информации для живых организмов. В будущем это может помочь в разработке новых методов лечения и программировании синтетической жизни. Но для этого потребуются дополнительные тесты и усовершенствования.
© KiberSec.ru – 04.04.2025, обновлено 04.04.2025
Перепечатка материалов сайта возможна только с разрешения администрации KiberSec.ru.