毫无疑问,新款 ipad pro 仍然是阅读、游戏、观看视频及绘画等领域的最佳平板。但随着 m4 芯片、妙控键盘及 apple pencil pro 的加入,ipad 比任何时候都更接近一台笔记本电脑。
那么,是否 ipad 会在未来渐渐成为一款带有触控功能的 macbook?
答案可能是否定的。
在最新的 ios 18 中,苹果用这项「辅助功能」,为我们预言了一种关于 ipad 交互的新未来。
眼动追踪:从 vision pro 到 ipad
近期,苹果公司公布了其 ipados 18 操作系统中新加入的「眼球追踪」功能,这项看似不起眼的功能却被放在了介绍页面之首。
说起眼动追踪,可能很多人第一个想到的还是此前苹果发布的 vision pro,这款设备最突出的特征之一就是采用了眼动追踪的方式代替传统手柄。
用户可以通过眼球的移动,来控制应用程序,进行菜单导航,甚至是玩游戏,无需依赖触控或外部设备,大大提升了使用的便捷性,展示出了这种交互方式的魅力。
这主要得益于 vision pro 分布在内的数个红外摄像头及 m2、r1 双芯片的设计,使其能够利用图像处理技术提取与眼动相关的特征,并通过建立模型的方式实现眼动追踪。
vision pro 摄像头分布,图片来自苹果
而不久前发布的新款 ipad pro 在形态上的一个重要改变,就是把摄像头从窄边挪到了长边上。
摄像头模组中的点阵投影仪、泛光感应元件、前置摄像头、红外摄像头搭配全新 m4 芯片,如今看来或许就是在为后续计划铺路。
此次的更新描述中也显示,苹果的眼球追踪功能完全由设备上的机器学习实现,这意味着它不需要任何额外的硬件,并且可以立即在所有运行 ipados 18 的设备上使用,印证了这一判断。
图片来自哔哩哔哩博主:微机分 wekihome
目前业界公认的眼动追踪方法,有基于外观的眼动追踪方法与基于二维映射的眼动追踪方法两种。
前者主要以人脸图像或眼部图像为输入进行特征提取,然后通过机器学习将这些特征和视线方向关联起来。这种方法设备简单,只需要摄像头就能完成,但它需要大量的训练数据来建立准确的模型,从而正确地解读你的视线方向。
而另一种基于二位映射的眼动追踪方法,则主要通过分析眼球和角膜反射的相对位置变化来确定眼球运动。
由于眼球运动时角膜反射光斑位置不会变化,因此就可以作为瞳孔运动的参照点,根据两者相对位置的变化,计算实现方向。
校准时你需要注视屏幕上的特定点,系统会记录这些点和你的眼睛数据,建立一个映射模型。之后,当你看向其他地方时,系统就能通过这个模型准确地知道你在看哪里。
瞳孔-角膜反射向量法示意图,图片来自网络
其实如今看来,眼动追踪的原理并不十分复杂,以现有的硬件条件足以满足需求。但实际上,想要实现这一功能,苹果其实经历了很长的历程。
布局多年的最后一步
早在多年以前,苹果就开始布局眼动追踪领域,网络相关人才及技术。
2013 年,苹果收购了来自以色列的 primesense,该公司曾为微软提供 xbox 的 kinect 的动作控制技术提供支持。
primesense 创始人合影
这家公司曾推出过一款非常小巧,可嵌入手机、平板等设备的 3d 摄像头——capri。这是 pimesense 在 2013 年 google i/o 大会上展示的内容:
capri 被安装在谷歌 nexus 平板电脑上
capri 对真实场景进行 3d 建模,并获得场景内物体的长、宽、高等具体数据
通过 ar 技术模拟出椅子在真实空间中的碰撞信息
将 3d 图像传输到 3d 打印机完成 3d 打印
一同推出的还有在当时号称 “全球最小的 3d 感知芯片”,由于不错的性能和小巧的体积,使其能够部署到手机、电视等诸多电子设备上。
2017 年,苹果又收购了一家来自德国的老牌眼球追踪技术公司 sensomotoric instruments,它曾一度是全球最大的眼动设备的生产商。
凭借「钞能力」带来的一系列关于眼动追踪的硬件及软件,苹果在同年首次将眼动追踪功能用于其 face id 中,来提升解锁的安全性。
此后数年间苹果不断有眼动追踪相关的专利申请流出,苹果也在不断探索,这不仅促成了 vision pro 基于眼动追踪的交互方式,也催生出了其他苹果设备上关于的眼动追踪的无限可能。
早期关于眼动追踪及「注意力检测」专利内容
眼动追踪的未来畅想
相比传统交互方式(鼠标、键盘、触控等),眼动追踪存在这样几个优势:
- 自然直观:眼动追踪利用人眼的自然运动进行交互,不需要额外的操作设备。用户只需注视目标即可完成相应的操作,降低了学习成本,交互更符合直觉。
- 提升效率:眼部肌肉是人体反应速度最快的肌肉之一,通过眼动追踪,用户可以更快地选择和控制界面元素,还可以减少手部动作,提高操作速度和效率。
- 与其他输入方式组合:眼动追踪可以与其他输入方式结合使用,如语音控制和手势操作,提供更丰富和灵活的交互方式。
- 多任务处理:用户可以在执行其他任务(例如驾驶或行走时)或同时处理多项任务时,仅仅使用眼动追踪控制而不需要多余的动作,提高操作效率。
- 数据分析与个性化:眼动追踪可以提供关于用户注意力和兴趣的宝贵数据。这些数据可以用于优化界面设计、广告投放和用户体验个性化,使系统更加智能和用户友好。
- 增强现实(ar):在 ar 环境中,眼动追踪可以提供更加沉浸式和自然的交互体验。用户可以通过注视来选择和操作虚拟对象,提升使用体验。
也正是得益于这些优势,使其在很多具体场景中展现出了巨大潜力。
例如在很多游戏中,除了带来更加便捷的操作以外,眼动追踪也会给玩家带来更好的沉浸感,让玩家只需通过实现就能控制游戏内角色进行互动。
使用眼动追踪控制游戏,图片来自网络
此外,实现眼动追踪功能后,开发者还能根据眼动数据调整场景光照、视角变化等诸多参数,适配用户个人视觉习惯,使游戏画面更加逼真。
游戏中的社交,也可以通过虚拟人物实现随玩家面部实时变化的各种动作状态,例如实现方向、眨眼、眯眼等,丰富人物的情绪表达,从各个方面提升游戏的沉浸性。
除了游戏以外,这项技术给日常生活带来的变化或许才是更值得期待的。
vision pro 在发布后,一个重要应用场景就是教育、医疗等场景,毫无疑问这在实现眼动追踪的 ipad 上同样适用。
诸如飞行员模拟训练、手术模拟等职业训练领域,通过跟踪学员的眼球运动来评估决策速度和准确性。
眼动追踪可为教师提供关于学生学习过程中的注意力集中点和理解程度的实时反馈,有助于个性化教学策略的指定和改进课程内容。
安装在飞行驾驶模拟教学设备上的眼动追踪设备
还有一些场景非常适合眼动追踪这种交互方式,例如家居环境就是其中之一。通过眼动追踪,使 ipad 成为智能家居中控台,实现对家居的控制;或者在手上有其他事情,或手很脏的时候提供更好的交互体验等。
虽然眼动追踪应用潜力非常巨大,但也有部分业内人士对该技术的安全性提出了质疑。
数据表明,一个人的眼部数据会暗含用户的年龄、性别、种族、情绪状态、性格特征等等多种信息。
加州大学洛杉矶分校技术、法律和政策研究所的创始人和教职联席主任 john villasenor 表示:
一旦眼动追踪技术成熟,它将收集更多的信息:我们在网上阅读的内容,甚至我们的阅读过程。比如,我们是否看到了网页广告,想了一会,最后没去点击?我们在阅读整个网页的时候,眼球是怎么移动的?我们更喜欢或者避开哪些字,词语,或者主题?在未来,展示到我们眼前的广告,是否将不仅仅只是取决于我们买过什么东西,还将取决于我们眼球的运动状态?