长期以来,步行导航一直有不少难题;传统导航主要依赖经纬度和路网数据,多用“前方50米左转”“向东北方向前行”等固定指令,用户往往难以直观判断距离和方向,遇到复杂路口更容易走错。在商圈、老旧小区、地下通道等场景中,定位和指引也更容易失准,用户常常在终点附近反复绕行。归根结底,传统导航缺少对真实环境的视觉认知,无法像真人带路那样借助周围标志物进行引导。高德地图此次推出的视觉认知步导系统,正是针对此问题的改进方案。该系统以阿里千问大模型的多模态理解能力为核心,结合超亿级POI数据库、高精度步行路网和千万级高精街景图像三类数据支撑。系统可自动识别街道中更醒目的地标,如便利店、公交站、银行等,并根据视觉显著性选择更容易被用户识别的参照物。同时,系统能够理解“过了”“旁边”“对面”等更贴近日常表达的空间关系,把抽象数据转成具体场景描述,并以口语化方式播报,例如“过了蓝色便利店右转”“看到红色公交站往前走”,让引导更自然、更好理解。实测数据显示,新系统上线后效果明显:路线确认速度提升40%,用户低头查看手机的频率下降65%,老人、儿童和外地用户也更容易理解指令。这不仅提升了可用性,也在一定程度上降低了边走边看手机带来的安全风险,改善了出行体验。与常见的AR实景导航相比,视觉认知步导也更轻量。传统AR导航通常需要用户持续对准路面,耗电较高,在复杂环境中也可能出现卡顿;视觉认知步导则由AI提前理解场景,用户不必实时打开摄像头,依靠语音提示和界面高亮即可完成引导,更省电、更稳定,也更方便。其差异体现为从“让用户跟着走”转向“系统先看懂再带路”的升级。目前,该功能已随高德地图最新版本在北京、上海、广州、深圳、重庆、杭州六大城市核心区推送。高德表示,后续将加快扩展至全国更多商圈、景区、社区等场景,用户更新至最新版本即可体验。这也意味着,大模型的多模态能力开始更大规模进入日常出行服务,对应的应用正在加速落地。
从“报距离、指方向”到“讲地标、懂场景”,步行导航的进步不仅是技术迭代,也体现出公共出行服务对用户体验的重新聚焦。能否把城市讲清楚、把路带明白,考验的不只是模型能力,也包括数据治理、产品细节和责任边界。只有在改进与规范运行中沉淀出可复制的经验,智慧出行才能更稳妥地走进日常生活。