Технологии машинного обучения можно было бы применять для расшифровки «биологического языка» рака, болезни Альцгеймера и других заболеваний, убеждены ученые Кембриджского университета.
Примечательно, что в рамках исследования в сфере биологии ученые решили воспользоваться уже готовой языковой моделью машинного обучения — в сочетании с нейросетями подобные модели используются, например, для автоматического синтеза осмысленных текстов.
Воспользовавшись доступными базами данных, авторы обучили такую модель «языку» нуклеотидных последовательностей, кодирующих белки. При этом их прежде всего интересовал процесс формирования биомолекулярных конденсатов — белковых «капель» неустойчивой формы, которые, как считается, участвуют в важнейших внутриклеточных процессах, в том числе в экспрессии генов и белковом синтезе. По словам ученых, нарушения в белковых конденсатах могут приводить к онкологическим и другим заболеваниям.
Модель, обученная на «языке» кодирования белков, позволяет предсказывать, какие именно белки могут в дальнейшем образовывать конденсаты и агрегаты. По словам авторов, эффективность метода подтвердилась, так как система верно предсказала уже известные ученым изменения белков.
Исследователи считают, что машинное обучение позволит радикально изменить принципы изучения рака и нейродегенеративных заболеваний — по их мнению, искусственный интеллект мог бы делать новые открытия в этих областях, в том числе, возможно, неподвластные людям. В дальнейшем системы машинного обучения можно было бы применять для исправления возникающих в клетках «грамматических ошибок», которые ведут к болезни, считают авторы.
Созданная исследователями нейросеть свободно доступна в виде онлайн-сервиса, который позволяет ввести любую нуклеотидную последовательность и получить прогноз изменения соответствующего белка.