NOVA는 Bittensor 생태계의 서브넷 68로 운영되며 Metanova Labs가 개발한 초기 단계 신약 개발을 위한 탈중앙화 인공지능 네트워크입니다. 이 프로젝트는 결정론적 머신러닝 오라클을 사용하여 생물학적 표적에 대해 합성 가능한 화학 화합물을 생성하고 평가하도록 분산된 참여자들을 조율하며, 투명성과 재현성을 위해 결과를 온체인에 기록합니다. [1] [2]
NOVA는 Bittensor 생태계의 서브넷 68로 구축되고 Metanova Labs가 개발한 신약 개발용 탈중앙화 AI 네트워크입니다. 이는 잠재적인 약물 화합물을 스크리닝하고 최적화하기 위한 분산 플랫폼으로 기능하며, 초기 단계의 제약 연구를 대규모 계산 문제로 재정의합니다. 이 시스템은 특정 생물학적 표적과 효과적으로 상호작용할 가능성이 높은 분자를 찾기 위해 방대한 화학 공간을 탐색하는 모델과 계산 능력을 기여하는 글로벌 참여자들을 조율합니다. 이 프로세스는 경쟁적이고 반복적인 워크플로우로 구성됩니다. 일부 참여자는 후보 분자를 생성하고, 다른 참여자는 그 특성을 평가하여 대규모 화합물 라이브러리의 병렬 탐색을 가능하게 합니다.
NOVA 구축의 핵심은 탈중앙화된 스크리닝 및 최적화 엔진입니다. 머신러닝 모델을 사용하여 분자가 표적 단백질에 어떻게 결합할지 예측하고 비표적과의 바람직하지 않은 상호작용을 피하도록 합니다. 이러한 예측은 반복적인 평가 주기를 통해 지속적으로 개선되어, 네트워크가 더 강력한 결합 친화력과 더 낮은 부작용 위험을 가진 후보를 식별할 수 있게 합니다. 이 플랫폼은 가상 스크리닝, 모델 미세 조정 및 검증 워크플로우를 포함한 초기 신약 개발의 여러 단계를 통합합니다. 이러한 작업을 네트워크 전체에 분산시키고 인센티브를 성능에 맞춤으로써, NOVA는 전통적인 제약 연구와 관련된 시간과 비용을 줄이면서 실행 가능한 약물 후보의 식별을 가속화하는 것을 목표로 합니다. [1] [2]
NOVA는 신약 개발에 대한 개방형 참여를 가능하게 하여, 누구나 제도적 장벽 없이 채굴자 또는 검증자(validator)로 기여할 수 있도록 합니다. 이는 계산, 모델 개발 및 평가가 크라우드소싱되는 초기 단계 제약 연구를 위한 전 세계적으로 분산된 네트워크를 생성합니다. 분자 점수와 상위 후보를 포함한 모든 결과는 온체인에 투명하게 기록되어, 평가된 화합물에 대한 개방적이고 지속적으로 확장되는 데이터셋을 생성합니다. [2]
NOVA의 신약 개발은 참여자들이 예측된 생물학적 활성이 가장 높은 분자를 식별하기 위해 경쟁하는 경쟁적 최적화 프로세스로 구성됩니다. 시스템은 빠른 반복 주기로 실행되며, 빈번한 피드백을 통해 채굴자가 개선된 후보를 지속적으로 다듬고 다시 제출할 수 있도록 합니다. 이는 분자 스크리닝을 화학 공간 탐색이 직접적으로 보상받고 다양한 전략이 장려되는 실시간 경쟁 환경으로 전환합니다. [2]
평가는 단백질-리간드 결합 친화력을 예측하는 PSICHIC이라는 결정론적 머신러닝 모델을 통해 표준화됩니다. 모든 검증자는 동일한 모델을 사용하여 분자 점수를 매기므로, 결과가 일관되고 재현 가능하며 전체 네트워크에서 객관적으로 비교 가능하도록 보장합니다. 이는 주관적인 인간의 판단을 배제하고 모든 참여자가 극대화해야 하는 단일 공유 최적화 함수를 설정합니다. [2]
이 시스템은 약 17억 5천만 개의 합성 가능한 화합물을 포함하는 SAVI-2020을 비롯한 매우 거대한 분자 데이터셋에서 작동합니다. 순수 생성 화학 시스템과 달리, 이러한 분자들은 알려진 화학 합성 경로를 사용하여 생산할 수 있는 구조로 제한됩니다. 이를 통해 높은 점수를 받은 후보가 단순한 계산적 예측일 뿐만 아니라 물리적으로 실현 가능하도록 보장하여, 출력이 실제 신약 개발과 직접적으로 관련되도록 합니다. [2]
NOVA는 개방형 데이터셋, 오픈 소스 모델 및 블록체인 조율을 통합하는 탈중앙화 과학(DeSci) 프레임워크의 일부로 구축되었습니다. 데이터 및 모델 평가에서 결과에 이르는 전체 파이프라인이 투명하고 재사용 가능하여 외부 연구자가 시스템을 검사하고 구축할 수 있습니다. 이는 신약 개발을 폐쇄적인 제약 파이프라인에서 개방적이고 협력적인 인프라로 전환합니다. [2]
NOVA의 아키텍처는 참여자들이 화학 공간을 탐색하여 예측된 생물학적 활성이 높은 분자를 식별하는 경쟁적이고 오라클 중심의 최적화 네트워크로 설계되었습니다. 상위 수준에서 이 시스템은 단백질-리간드 결합 예측 모델, 합성 가능한 화합물 라이브러리에 대한 대규모 화학 탐색, 그리고 모든 참여자의 평가를 표준화하는 결정론적 스코어링 오라클(PSICHIC)을 결합합니다. 목표는 신약 개발을 거대한 분자 탐색 공간에서의 실시간 고처리량 최적화 프로세스로 전환하는 것입니다. 아키텍처는 세 가지 핵심 구성 요소로 이루어져 있습니다.
Compound 모드에서 채굴자는 지정된 표적에 대해 에포크당 분자 세트를 제출합니다. 검증자는 화학적 다양성을 장려하기 위해 예측된 표적 친화력과 엔트로피 또는 참신함 기반 보너스를 결합한 Boltz-2라는 복합 절차를 사용하여 각 분자의 점수를 다시 매깁니다. 중복 감지는 동일한 표적 주간 내에 이전에 제출된 분자의 나중 발생을 무효화하며, 제출 내 중복 또는 속성 요건(예: 최소 중원자 수 또는 회전 가능한 결합 임계값)을 충족하지 못하는 분자는 제출 자격이 박탈될 수 있습니다. 순위는 일반적으로 챌린지당 승자 독식 방식이며, 동점인 경우 가장 먼저 유효한 제출을 한 쪽이 우선합니다. 이 모드는 사소한 반복을 억제하고 화학 공간의 샘플링이 부족한 지역에 대한 시간 민감형 탐색을 촉진하면서 재현 가능한 제약 조건 하에서 광범위한 탐색을 운영합니다. 정확한 수치 가중치, 엔트로피 공식 및 속성 임계값은 챌린지에 따라 다르며 공개 요약에 포괄적으로 열거되지 않으며, 이는 시간이 지남에 따라 변경될 수 있는 프로토콜 수준의 매개변수화를 반영합니다. [1]
Blueprint 모드는 일회성 분자 목록이 아닌 일반화 가능한 탐색 전략을 평가합니다. 채굴자는 고정된 런타임 예산(NVIDIA RTX 4090 GPU에서 약 30분으로 보고됨) 동안 표준화된 샌드박스 내에서 실행되는 코드를 제출합니다. 코드는 100개의 분자를 출력해야 하며, 이 분자들은 결정론적 PSICHIC 오라클을 사용하여 무작위로 선정된 표적 및 비표적(anti-target) 단백질 세트에 대해 다시 점수가 매겨집니다. 순위는 표적 및 비표적 패널에 대한 예측 친화력의 평균 차이를 기반으로 하며, 제출 내 중복 또는 속성 요건 실패 시 결과가 무효화됩니다. 화학 공간, 반응 템플릿 및 표적/비표적 세트는 제출 기간 동안 무작위로 지정되고 공개되지 않으므로, 알고리즘이 특정 알려진 표적에 과적합되지 않고 견고하며 일반적이어야 한다는 요구 사항을 강화합니다. 이 모드는 또한 퇴행적인 솔루션을 줄이고 더 넓은 탐색을 장려하기 위해 다양성 임계값과 참신함 집행을 적용합니다. [1]
평가는 결정론적 오라클을 통해 표준화되어 모든 검증자가 동일한 입력에 대해 동일한 점수를 생성합니다. PSICHIC은 주요 단백질-리간드 친화력 모델로 제시되며, 단백질 서열 또는 구조 정보와 SMILES와 같은 분자 표현을 입력받아 수치 점수를 출력합니다. Compound 모드에서는 Boltz-2로 알려진 추가적인 복합 재채점 프로세스가 참신함/엔트로피를 통합하여 화학적 다양성에 보상하고 좁은 착취를 억제합니다. Blueprint 모드에서는 100개 분자 세트에 대한 표적 및 비표적 예측 간의 평균 차이를 사용하여 순위를 매깁니다. 네트워크는 다음을 포함한 여러 공정성 및 남용 방지 메커니즘을 시행합니다.
스코어링 및 순위 산정은 약 12초의 평가 주기인 블록 주기로 진행되어 빠르게 업데이트되는 리더보드와 블록당 보상 할당을 생성합니다. 라운드는 종종 수백 개의 블록에 걸쳐 진행되므로 채굴자가 개선된 후보를 반복적으로 다듬고 다시 제출할 수 있습니다. 특정 설명은 특정 모드에서 채굴자당 단일 활성 분자 제약을 나타내는 반면, Compound 모드는 에포크당 배치 제출을 허용합니다. 이러한 차이는 프로토콜 진화 또는 문서 불일치로 언급되며 최신 기술 사양에서 명확히 해야 합니다. [2] [1]