高伟

职称:长聘副教授
电话:0755-26033202
办公室:A214
Email:gaowei262@pku.edu.cn
实验室网站:https://pkustarlab.github.io/
研究方向:3D视觉智能、多模态智能及应用(沉浸媒体、自动驾驶/机器人),主要包括:(1)基于表征学习的智能编码;(2)世界模型与视觉-语言-动作多模态大模型。
职称 长聘副教授 电话 0755-26033202
办公室 A214 Email gaowei262@pku.edu.cn
研究方向 3D视觉智能、多模态智能及应用(沉浸媒体、自动驾驶/机器人),主要包括:(1)基于表征学习的智能编码;(2)世界模型与视觉-语言-动作多模态大模型。 实验室网站 https://pkustarlab.github.io/

​导师与研究领域、方向:

高伟,博士,北京大学长聘副教授/博士生导师/PI,时空智能实验室(STAR LAB)负责人。曾在香港城市大学、新加坡南洋理工大学和美国UCLA学习和工作,曾在工业界从事研发工作。长期从事多媒体计算与人工智能领域研究,特别是3D视觉智能、多模态智能及应用(沉浸媒体、自动驾驶/机器人)。研究方向主要包括:(1)3D视觉数据编码(基于表征学习的智能编码):3D视觉数据编码(3D点云编码、3D Gaussian Splatting压缩/渲染、2D/3D图像视频编码、深度学习智能编码、人机感知共友好编码)、3D视觉数据质量评价与增强、智能编码标准与传输系统;(2)3D视觉数据处理(世界模型与视觉-语言-动作多模态大模型):面向3D重建生成的生成式人工智能/世界模型、面向3D感知理解的视觉-语言-动作多模态大模型、空间智能和具身智能的3D视觉与多模态学习;(3)3D视觉智能与多模态智能应用:沉浸交互媒体通信(VR/AR/MR)应用、自主智能无人系统(自动驾驶/机器人)应用。

科研方面:在国际权威期刊(如IEEE TPAMI、TIP、TCSVT、TMM、TNNLS、TGRS和IJCV等)和国际重要会议(如CVPR、ICCV、ECCV、ACM MM、AAAI、NeurIPS、ICLR等)上发表论文200余篇,多篇论文入选ESI高被引论文和优秀论文奖。编写英文学术专著4部,包括《AI-based 3D Point Cloud Coding》、《AI-based Image and Video Coding》、《Deep Learning for 3D Point Clouds》、《Point Cloud Compression》,并荣获2025年施普林格·自然“中国新发展奖”。参与2023年中国人工智能系列白皮书《深度学习》编写工作。申请美国/中国专利80余项(已授权40余项),提交国际MPEG和国内AVS标准技术提案80余项(被采纳30余项)。积极参与多媒体与人工智能技术标准制定工作,参与《信息技术 高效图形数据编码 第2部分:点云》、《信息技术 高效图形数据编码 第3部分:点云主观质量评价方法》团体标准立项,作为核心成员积极参与推动第一代和第二代中国自主点云编码标准,并荣获2023年AVS产业技术创新奖团队奖(点云压缩标准贡献)。搭建多个重要开源项目,包括OpenPointCloud(三维点云编码与处理开源库)、OpenAICoding(深度学习图像视频编码开源库)、OpenDatasets(大规模多媒体计算与人工智能数据集开源库)、OpenAIDriving(基于人工智能的自动驾驶开源库)等,并荣获2022年中国计算机学会优秀图形开源软件奖项。入选斯坦福大学“全球前2%顶尖科学家”榜单。荣获2024年度中国图象图形学学会自然科学奖二等奖(受限环境下多模态视觉感知理论与方法,第1完成人)。由于3D视觉数据编码方面的研究工作荣获2025年国际IEEE视觉信号处理与通信学术新星奖项。由于3D沉浸式媒体方面的研究工作荣获2021年国际IEEE多媒体学术新星奖项。荣获2021年中国计算机学会腾讯犀牛鸟优秀专利奖。作为负责人承担20余项国家级、省市级和企业合作重要科研项目,包括科技部国家重点研发计划项目(课题3项)、国家自然科学基金项目(重点项目课题1项,面上项目1项,青年项目1项)、广东省自然科学基金项目(面上项目2项)、深圳市基础研究项目(重点项目1项,面上项目3项)等。

教学方面:自2019年起为北京大学硕博研究生讲授两门课程,包括《三维视觉与计算摄像学》、《现代视频处理专题》。所开设的课程《三维视觉与计算摄像学》获得2024年北京大学研究生课程建设资助立项并入选深圳大学城公开课共享课程。指导博士后/博士生/硕士生累计50余人,所指导的博士/硕士研究生多人次获得国家奖学金、北京市优秀毕业生、北京大学优秀毕业生、北京大学三好学生标兵,以及2024年深圳人工智能优秀博士学位论文奖等荣誉。

服务方面:担任国际IEEE多媒体系统与应用技术委员会委员(IEEE MSA-TC)、国际IEEE视觉信号处理和通信技术委员会委员(IEEE VSPC-TC)、亚太信号与信息处理协会图像视频与多媒体技术委员会委员(APSIPA IVM-TC)。担任中国计算机学会多媒体技术专委会执行委员、中国图象图形学学会多媒体专业委员会委员/三维视觉专业委员会委员/图像视频通信专业委员会委员。担任多媒体计算与人工智能领域多个国际顶级期刊副编辑,包括IEEE Transactions on Image Processing (IEEE TIP)、IEEE Transactions on Circuits and Systems for Video Technology (IEEE TCSVT)、IEEE Transactions on Multimedia (IEEE TMM)等。担任APSIPA Transactions on Signal and Information Processing、ZTE Communications期刊上深度学习数据压缩、点云处理与应用专刊的客座编委。在ACM MM 2025、IEEE ICME 2023、ACM MM 2022、IEEE VCIP 2022、IEEE ICME 2021会议上组织过点云编码与处理、3D视觉计算与应用、交互式媒体质量评价等领域的研讨会和专题会议。担任ACM MM 2025、ACM MM 2024、IEEE ICIP 2024、IEEE IJCNN 2024、IEEE ICME 2023讲习班讲者。担任国际顶级期刊IEEE TPAMI、TIP、TVCG、TCSVT、TMM、TNNLS,以及国际顶级会议NeurIPS、CVPR、ECCV、AAAI、ACM MM、IJCAI、ICLR等审稿人,多次担任国际顶级会议领域主席等。国家自然科学基金和省市级项目评审专家。

实验室使命:2019年创立了时空智能实验室(STAR LAB),正在带领课题组积极从事沉浸媒体与3D视觉技术研究。课题组致力于促进新兴3D视觉智能与多模态智能技术发展,以更好地服务于人类与机器感知。重要应用领域包括沉浸交互媒体通信(VR/AR/MR)、自主智能无人系统(自动驾驶/机器人)等。课题组与工业界有广泛的研发合作,推动相关技术应用落地。

欢迎优秀的本科生和硕士生保送和报考北京大学信息工程学院的硕士和博士研究生,同时欢迎申请课题组的博士后和访问职位(包括“博雅”博士后项目:基本年薪50万/年起,两年资助期,优异者出站后可转为特聘副研究员),从事多媒体计算与人工智能相关热门与前沿课题的研究探索。请查看主页:https://gaowei262.github.io/(查看最新招生与科研信息)。



近两年发表的顶级期刊和会议论文(2024-2026,第一作者均为本课题组学生):

1.Kangli Wang, Qianxi Yi, Yuqi Ye, Shihao Li, Wei Gao*, “AnyPcc: Compressing Any Point Cloud with a Single Universal Model,” IEEE/CVF International Conference on Computer Vision and Pattern Recognition (CVPR), 2026.

2.Yuqi Ye, Zijian Zhang, Junhong Lin, Shangkun Sun, Changhao Peng, Wei Gao*, “AutoDrive-P3: Unified Chain of Perception-Prediction-Planning Thought via Reinforcement Fine-Tuning,” International Conference on Learning Representations (ICLR), 2026.

3.Changhao Peng, Yuqi Ye, Shuangjun Du, Wenxu Gao, Wei Gao*, “Dual-Path Condition Alignment for Diffusion Transformers,” International Conference on Learning Representations (ICLR), 2026.

4.Xiaoyu Liang, Linhui Wang, Chunlam Li, Junhong Lin, Wei Gao*,“LangEditor: Natural Language-Driven 4D Editing for Improved Controllability of Dynamic Driving Scenes,” IEEE International Conference on Robotics and Automation (ICRA), June 1-5, 2026, Vienna, Austria.

5.Wang Liu, Zhuangzi Li, Ge Li, Siwei Ma, Sam Kwong, Wei Gao*, “Post-Processing Geometry Enhancement for G-PCC Compressed LiDAR via Cylindrical Densification,” IEEE Transactions on Image Processing (TIP), 2026.

6.Changhao Peng, Yuqi Ye, Wei Gao*, “Correcting Quantization-Induced Gradient Mismatch in Neural Image Compression,” 2026 AAAI Conference on Artificial Intelligence (AAAI), 2026.

7.Liang Xie, Haoran Li, Baoliang Chen, Ge Li, Sam Kwong, Wei Gao*, “Foreground-Aware Geometry Compression with Hybrid Attention for Large-Scale Point Clouds,” IEEE Transactions on Broadcasting (TBC), 2025.

8.Liang Xie, Yanting Li, Yuyang Tang, Wei Gao*, “Efficient Geometry Compression and Communication for 3D Gaussian Splatting Point Clouds,” ACM International Conference on Mobile Computing and Networking (ACM MobiCom), 2025.

9.Wenxu Gao, Liang Xie, Kangli Wang, Jingxuan Su, Changhao Peng, Wei Gao*, “DPCSet: A Large-scale Dynamic Point Cloud Dataset for Compression and Perception,” ACM International Conference on Multimedia (ACM MM), 2025.

10.Haohui Li, Bowen Qu, Wei Gao*, “T23D-QA: An Open Dataset and Benchmark for Text-driven 3D Generation Quality Assessment,” ACM International Conference on Multimedia (ACM MM), 2025.

11.Huiming Zheng, Wei Gao*, “OpenMVC: An Open-Source Library for Learning-based Multi-view Compression,” ACM International Conference on Multimedia (ACM MM), 2025.

12.Huiming Zheng, Linjie Zhou, Wei Gao*, “SCID-Compress900: A Multi-Scene Dataset of 4K and 1080P Screen Content Images for Image Compression Research,” ACM International Conference on Multimedia (ACM MM), 2025.

13.Wang Liu, Wei Gao*, “Omni-scene Perception-oriented Point Cloud Geometry Enhancement for Coordinate Quantization,” International Conference on Computer Vision (ICCV), 2025.

14.Songlin Fan, Wei Gao*, Zhineng Chen, Ge Li, Guoqing Liu, Qicheng Wang, “Stochasticity-aware No-Reference Point Cloud Quality Assessment,” International Joint Conference on Artificial Intelligence (IJCAI), 2025.

15.Zhaojian Yao, Wei Gao*, Ge Li, Tiesong Zhao, “Collaborating Constrained and Unconstrained Encodings for Cross-Modal Salient Object Detection,” IEEE Transactions on Emerging Topics in Computational Intelligence (TETCI), 2025.

16.Chenhao Zhang, Wei Gao*,“AdaDPCC: Adaptive Rate Control and Rate-Distortion-Complexity Optimization for Dynamic Point Cloud Compression,”2025AAAI Conference on Artificial Intelligence (AAAI),2025.

17.Kangli Wang, Wei Gao*,“UniPCGC: Towards Practical Point Cloud Geometry Compression via An Efficient Unified Approach,”2025AAAI Conference on Artificial Intelligence (AAAI),2025.

18.Shangkun Sun, Xiaoyu Liang, Songlin Fan, Wenxu Gao, Wei Gao*,“VE-Bench: Subjective-Aligned Benchmark Suite for Text-Driven Video Editing Quality Assessment,”2025AAAI Conference on Artificial Intelligence (AAAI),2025.

19.Zhanyuan Cai, Wenxu Gao, Ge Li, Wei Gao*,“Distortion Propagation Model-based V-PCC Rate Control for3D Point Cloud Broadcasting,”IEEE Transactions on Broadcasting (TBC),2024.

20.Yuan Li, Wei Gao*, Ge Li, Siwei Ma,“Saliency Segmentation Oriented Deep Image Compression with Novel Bit Allocation,”IEEE Transactions on Image Processing (TIP),2024.

21.Dinghao Yang, Wei Gao*,“PointCHD: A Point Cloud Benchmark forCongenital Heart Disease Classification andSegmentation,”IEEE Journal of Biomedical and Health Informatics (JBHI), 2024.

22.Haohui Li, Wei Gao*,“Information Exploration of Projected Views for Point Cloud Quality Measurement,”IEEE Transactions on Instrumentation and Measurement (TIM), 2024.

23.Songlin Fan,Wei Gao*, Ge Li,“Point-MPP: Point Cloud Self-supervised Learning fromMasked Position Prediction,”IEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2024.

24.Shangkun Sun, Jiaming Liu, Huaxia Li, Guoqing Liu, Thomas H. Li,Wei Gao*,“StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video Sequences,”Advances in Neural Information Processing Systems (NeurIPS), 2024.

25.Hang Yuan,Wei Gao*, Wenxu Gao, “OpenSEP: An Open Source Subjective Experiment Platform,”ACM International Conference on Multimedia (ACM MM),2024.

26.Liang Xie,Wei Gao*, “LearningPCC: A PyTorch Library for Learning-Based Point Cloud Compression,”ACM International Conference on Multimedia (ACM MM),2024.

27.Liang Xie,Wei Gao*, “PCHMVision: An Open-Source Library of Point Cloud Compression for Human and Machine Vision,”ACM International Conference on Multimedia (ACM MM),2024.

28.Huiming Zheng, Wei Gao*, Zhuozhen Yu, Tiesong Zhao, Ge Li,“ViewPCGC: View-Guided Learned Point Cloud Geometry Compression,”ACM International Conference on Multimedia (ACM MM),2024.

29.Liang Xie, Wei Gao*, Huiming Zheng, Ge Li,“ROI-Guided Point Cloud Geometry Compression Towards Human and Machine Vision,”ACM International Conference on Multimedia (ACM MM),2024.

30.Changhao Peng, Wei Gao*,“Laplacian Matrix Learning for Point Cloud Attribute Compression with Ternary Search-Based Adaptive Block Partition,”ACM International Conference on Multimedia (ACM MM),2024.

31.Chenhao Zhang, Wei Gao*,“Learned Rate Control for Frame-Level Adaptive Neural Video Compression via Dynamic Neural Network,”2024 European Conference on Computer Vision (ECCV), 2024.

32.Liang Xie, Wei Gao*, Huiming Zheng, Ge Li,“SPCGC: Scalable Point Cloud Geometry Compression for Machine Vision,” 2024 IEEE International Conference on Robotics and Automation (ICRA), May 13-17, 2024, Yokohama, Japan.

33.Zhaojian Yao,Wei Gao*,“Iterative Saliency Aggregation and Assignment Network for Efficient Salient Object Detection in Optical Remote Sensing Images,”IEEE Transactions on Geoscience and Remote Sensing (TGRS), 2024.

34.Wang Liu, Wei Gao*, Ge Li, Siwei Ma, Tiesong Zhao, Hui Yuan,“Enlarged Motion-Aware and Frequency-Aware Network for Compressed Video Artifact Reduction,”IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), 2024.

35.Jilong Wang,Wei Gao*, Ge Li,“Zoom to Perceive Better: No-reference Point Cloud Quality Assessment via Exploring Effective Multiscale Feature,”IEEE Transactions on Circuits and Systems for Video Technology(TCSVT),2024.

36.Wang Liu, Wei Gao*, Xingming Mu,“Fast Inter-Frame Motion Prediction for Compressed Dynamic Point Cloud Attribute Enhancement,”2024AAAI Conference on Artificial Intelligence (AAAI),2024.

37.Huiming Zhang, Wei Gao*,“End-to-End RGB-D Image Compression via Exploiting Channel-Modality Redundancy,”2024AAAI Conference on Artificial Intelligence (AAAI),2024.

38.Yang Guo,Wei Gao*, Ge Li,“Interpretable Task-inspired Adaptive Filter Pruning For Neural Networks Under Multiple Constraints,”International Journal of Computer Vision (IJCV), January 2024.

开设课程:

近年来,为计算机专业研究生开设以下两门课程:

1.《三维视觉与计算摄像学》(Fall Semester,必修)

2.《现代视频处理专题》(Spring Semester,选修)

主持/参与的主要科研项目:

1.无人系统多模态大模型(科技部项目)

2.沉浸媒体智能编码(国自然项目)

3.自动驾驶世界模型(企业合作项目)

对计划招收的硕士和博士研究生的基本要求:

1.专业范围:计算机/人工智能/电子信息/自动化等信息大类专业本科和硕士毕业生。

2.外语/数学能力:英语写作和口语能力强(六级/雅思/托福),数学基础扎实。

3.研究/开发能力:工程能力强,能独立完成工作,具有很强的独立创新能力。

4.其他要求:自我驱动,主动性强,有清晰的工作目标;眼里有光,热爱从事科研工作或有强烈创业想法。