Haotian Tang
**탕하오티안(Haotian Tang)**은 시스템 및 머신러닝(SysML)을 전문으로 하는 컴퓨터 과학자입니다. 그의 연구는 효율적인 딥러닝, 특히 3D 인식 및 대규모 기초 모델에 중점을 두고 있습니다. 그의 경력에는 매사추세츠 공과대학교(MIT)의 학술 연구와 Waymo, NVIDIA, Google DeepMind, Meta를 포함한 여러 회사의 산업 분야 직책이 포함됩니다. [1]
학력
탕하오티안은 상하이 교통대학교(SJTU)에 다녔으며, IEEE 명예반에 소속되어 있었습니다. 그는 2020년 최우등으로 졸업하여 컴퓨터 과학 및 기술 학사 학위를 받았습니다. 학부 과정 동안 그는 루홍타오(Hongtao Lu) 교수의 지도를 받았습니다. SJTU 졸업 후 탕하오티안은 매사추세츠 공과대학교(MIT)에 입학했습니다. 그는 2022년 전기 공학 및 컴퓨터 과학 석사 학위를 받았으며, 같은 학과에서 박사 과정을 밟고 있으며 2025년 졸업 예정입니다. MIT에서는 한랩(Han Lab) 소속이며 한송(Song Han) 교수의 지도를 받고 있습니다. [1]
경력
탕하오티안은 2017년 Agora.io에서 소프트웨어 엔지니어링 인턴으로 경력을 시작했습니다. 2019년 상하이 교통대학교 재학 중에는 텐센트(Tencent)에서 컴퓨터 비전 및 머신러닝 관련 연구 인턴으로 근무했으며, 대학 컴퓨터 과학과에서 연구 조교로도 활동했습니다. 2019년부터 2020년까지 그는 MIT 한송(Song Han) 교수와 함께 원격 연구 인턴으로 근무하며 효율적인 3D 딥러닝에 중점을 두었습니다. [1]
2020년, 탕하오티안은 MIT에서 박사 과정을 시작하여 시스템 및 머신러닝을 중심으로 연구했습니다. 이 기간 동안 그의 연구는 3D 신경망, 희소 데이터에 대한 하드웨어 효율성, 자율 시스템을 위한 다중 센서 융합과 같은 주제에 대한 여러 논문으로 이어졌습니다. 학술 연구와 함께 탕하오티안은 여러 산업 인턴십을 수행했습니다. 2022년에는 나중에 NVIDIA에 인수된 OmniML에서 인턴으로 근무했습니다. 2023년에는 Waymo에서 다중 모드 행동 예측 관련 연구 인턴으로 근무했습니다. 이어 2024년에는 NVIDIA에서 효율적인 시각적 생성 모델 관련 인턴으로 근무했습니다. [1]
2025년 초, 탕하오티안은 Google DeepMind에 연구 과학자로 합류하여 세계 시뮬레이션 프로젝트를 위한 대규모 사전 훈련에 기여했습니다. 같은 해 말에는 Meta의 초지능(Superintelligence) 팀의 연구 과학자로 자리를 옮겨 다중 모드 기초 모델 관련 연구를 수행했습니다. [1]
연구 및 논문
탕하오티안의 연구는 딥러닝 시스템의 효율성 및 성능 문제를 해결합니다. 그의 연구는 대규모 언어 모델(LLM), 자율 주행을 위한 3D 포인트 클라우드 처리, 다중 센서 융합을 위한 알고리즘 및 시스템의 공동 설계에 걸쳐 있습니다. [1]
효율적인 대규모 언어 모델
탕하오티안의 연구 상당 부분은 추론과 미세 조정 모두를 위해 대규모 언어 모델을 더 효율적으로 만드는 데 전념해 왔습니다.
- AWQ(Activation-aware Weight Quantization): 탕하오티안은 LLM을 위한 하드웨어 친화적인 저비트 가중치 전용 양자화 방법을 도입한 AWQ 프로젝트의 시스템 공동 책임자였습니다. 이 방법은 적은 비율의 중요한 가중치를 보호하면 역전파나 데이터 재구성 없이 양자화 오류를 크게 줄일 수 있다는 관찰에 기반합니다. 이 연구는 MLSys 2024에서 최우수 논문상을 수상했습니다. [1]
- QServe: 시스템 설계 책임자로서 탕하오티안은 효율적인 클라우드 기반 LLM 제공을 위해 설계된 추론 엔진인 QServe에 기여했습니다. QServe는 W4A8KV4 양자화 방식(4비트 가중치, 8비트 활성화, 4비트 KV 캐시)을 사용하여 추론을 가속화합니다. 이 시스템은 계산 인식 가중치 재정렬 및 융합된 어텐션과 같은 기술을 통합하여 양자화 해제 오버헤드와 메모리 대역폭을 줄여 저렴한 GPU가 고급 하드웨어의 처리량과 일치하도록 합니다. [1]
- LongLoRA: 이 프로젝트는 LLM을 미세 조정하여 긴 컨텍스트 크기를 처리하는 효율적인 방법을 제시했습니다. 이 방법은 미세 조정 중에 이동된 희소 어텐션 메커니즘을 사용하여 일반적으로 컨텍스트 길이에 따라 이차적으로 확장되는 계산 비용을 줄입니다. 이 방법을 통해 제한된 계산 리소스로 모델을 훨씬 더 긴 컨텍스트 창으로 확장할 수 있습니다. [1]
3D 딥러닝 및 포인트 클라우드
탕하오티안은 자율 주행 및 증강 현실과 같은 애플리케이션에 중요한 희소하고 불규칙적인 3D 포인트 클라우드 데이터에 대한 딥러닝 모델을 최적화하는 데 광범위하게 연구했습니다.
- TorchSparse 및 TorchSparse++: 탕하오티안은 TorchSparse 및 후속작인 TorchSparse++의 주요 저자였습니다. 이들은 포인트 클라우드 처리에서 일반적인 희소 합성곱 연산을 가속화하도록 설계된 고성능 GPU 라이브러리입니다. 이 프레임워크는 커널 생성기와 자동 조정기를 도입하여 학습과 추론 모두에 대한 데이터 흐름을 최적화하여 MinkowskiEngine 및 SpConv와 같은 기존 라이브러리보다 훨씬 빠른 속도를 달성합니다. [1]
- BEVFusion: 이 연구는 카메라와 LiDAR와 같은 다양한 센서의 기능을 공유된 조감도(BEV) 표현으로 통합하는 다중 작업, 다중 센서 융합 프레임워크를 도입했습니다. 이 통합된 공간에서 기하학적 및 의미론적 정보를 모두 보존함으로써 BEVFusion은 계산 비용을 줄이면서 3D 객체 감지 및 맵 분할 작업의 성능을 향상시켰습니다. [1]
- SPVNAS 및 PVCNN: 초기 연구에서 탕하오티안은 새로운 3D 신경망 기본 요소에 대한 논문을 공동 저술했습니다. Point-Voxel CNN(PVCNN)은 포인트 기반 표현의 메모리 효율성과 복셀 기반 합성곱의 계산적 지역성을 결합했습니다. 이를 기반으로 Sparse Point-Voxel Convolution(SPVConv) 및 3D Neural Architecture Search(SPVNAS)가 개발되어 SemanticKITTI와 같은 벤치마크에서 높은 성능을 달성하는 효율적이고 정확한 3D 장면 이해를 위한 네트워크 아키텍처를 자동으로 찾았습니다. [1]