苹果机器人新突破:赋予机器人“灵动”手势,让互动更具人性魅力
$苹果(AAPL)$ AIML 研究员 Peide Huang 在 2024 年 10 月的论文中提出 EMOTION 框架,利用大型语言模型(LLM)和视觉语言模型(VLM),让机器人生成自然、符合环境的手势动作。该研究近日获得业界广泛关注。这一突破意味着机器人不仅能做出“竖大拇指”或“挥手”等基本手势,还能在不同交流环境中展现更加丰富、流畅的动作,使人机互动更具表现力和情感温度。
据苹果发表的论文,EMOTION 主要借助LLM,利用 OpenAI GPT-4 API 进行文本补全,生成手势动作序列;和VLM,基于 Vision Transformers 技术,帮助机器人从图像中提取3D 关键点,类似人类通过视觉识别物体形状来理解信息。这两个模型共同构成机器人的“社交大脑”。当机器人观察到特定情境或接收指令时,系统会“学习”这些信息,并即时生成最契合的手势。例如,看到某人正在解题,机器人会自发地竖起大拇指,表达鼓励和支持。这一能力的核心在于:机器人能根据社交环境自行判断最合适的动作,而非依赖固定编程。
EMOTION 的工作方式可比作一个“手势工厂”,其流程包括:上下文学习,精准匹配手势;动态生成,告别“死板”手势;和人类反馈,持续优化。尽管 EMOTION 已具备丰富手势能力,但人类反馈仍是提升互动质量的关键。苹果团队推出 EMOTION++ 版本,让机器人在实际交互中不断学习、优化手势。
随着 EMOTION 框架的持续发展,机器人将在多个领域实现更自然的交互,例如家庭助手:通过手势表达指令确认、情感反馈;教育机器人:用手势鼓励学生、辅助教学互动;医疗机器人:在护理过程中,通过手势提供安慰和指引。
EMOTION 框架的进步,使机器人不再只是“执行者”,而是能与人类进行富有表现力的交流,让人与机器的互动更自然、更富有温度。
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。
