立享专属行业解决方案
立享专属行业解决方案
继「猎户星空AgentOS二次开发陪跑计划暨猎户星空机器人新一代操作系统分享会」顺利落幕后,小豹收到许多生态伙伴的问题,涵盖升级支持、交互服务体验提升、以及二开场景接入能力等方向,针对不同角度的问题,小豹整理了一份FAQ,希望能帮助大家快速找到答案!
1. 猎户星空机器人家族哪些可以升级AgentOS系统?
目前语音交互系列中的豹小秘2和豹小秘Mini可以升级,生态伙伴们如果有想要升级的机型也可以留言区告诉小豹~
2. 如何做到识别多语言,并能对应语言做回复?接入的是什么语音包,用的是哪个技术?能够识别粤语、客家话、四川话,并对以上语言回复吗?
猎户星空AgentOS融合了多语种的语音识别技术,能够支持包括中文、英文、日语、韩语、泰语、西班牙语、法语、意大利语、德语等主流语言10余种。方言方面,目前支持粤语识别与回复,但是客家话/四川话暂时还不支持,后续会逐步完善。
3. 在复杂和嘈杂环境中,如何准确识别和捕捉到主要核心人的声音和指令,而不受周围无关人等七嘴八舌的干扰,这个点非常关键,能详细回答一下吗?
猎户星空AgentOS通过多模态视觉识别、声源距离和角度,以及声纹识别算法,结合前端基于猎户星空机器人麦克风阵列的调优降噪算法,共同决策完成。
4. 关于知识库、ASR模型、大模型等三方平台如何接入?
猎户星空AgentOS内置了底层大模型等能力,由于与Agent Brain(主Agent)思考过程做深度融合,所以无法简单的替换。但在Agent应用中,开发者可以自行灵活接入第三方能力来替代系统能力。
5. 第三方设备(身高、体重测量仪)在播报身高和体重时,机器人为什么无法识别?
因为免唤醒机制限制(我们针对非真人的交互进行了过滤)的原因,如果有特殊的诉求,可以通过Agent二开的API,手动关闭免唤醒能力。
1. 猎户星空AgentOS能够让二次开发从2周缩短到2天,我很好奇这是如何做到的?
1)应用了AI Agent开发范式的架构,针对语音交互类场景的开发,简化了很多开发过程,不再需要语音后台的复杂配置,一些基础能力模块也内置到AgentOS,开发者可以更多的关注自己的业务流程逻辑。
2)开发的AgentOS SDK和AI编程工具的深度适配,AI加持赋能。
2. 原有OPK/APP开发都要安卓开发或安卓的开发环境,这对开发要求太高了,现在Agent开发是否可以简化了?
因为机器人系统底层依赖的原因,需要对安卓的基础知识有了解,但是在AI编程工具的辅助下,以及我们的AgentOS SDK针对AI编程工具的优化,这个过程会变得越来越简单。
例如:我们内部组织的黑客马拉松活动,完全不懂代码的同事在AI的帮助下,都可以在几天内基于AgentOS SDK完成一个全新Agent语音交互应用的开发。
3. 企业前台场景,机器人开门禁的需求,是全局对话还是需要进入到某个应用功能才可以执行开门禁的对话?
可以定义为全局意图,也可以定义为某一个具体业务场景内的意图。
4. 回复问题的过程中是需要针对开门禁功能的固定场景,还是用户可以随意回复?
此功能通过自然语言的约束就可以完成,比如可以在Action功能和参数描述的时候,强调并指定。
如果指定很明确,如果说的是身份证,猎户星空AgentOS会根据语义判断为不是手机号,并问询用户提供手机号,而不是身份证号。
5. 如果Agent思考回答错误,能否自定义编排流程?
以下几种方式可以干预Agent的思考过程:
1)可以在应用开发中通过自然语言来定义和编排,不断优化你的Prompt,指导AgentOS以什么逻辑和步骤去思考。
2)你也可以在应用中给出一些例子提供给Agent去参考。
3)也支持全局级别的Action强干预策略,比如说某一句话,就希望它做一个确定性的事情。
6. 能拨打电话吗?呼叫到值班人员的手机?
此项需求可以在二开的Agent应用中自行实现。
7. 如何让机器人巡逻时候拍视频,传递到服务器,有什么好的方案吗?
Agent应用自行实现,属于基础安卓的能力。
8. 猎户星空AgentOS对比Coze、Dify等平台的主要区别和优势是什么?
1)猎户星空AgentOS与机器人业务应用交互界面逻辑可以深度集成。Coze/Dify无法做到。
2)AgentOS是猎户星空机器人Agent应用的运行环境,支持Agent的运行和调度,而Coze和Dify是一个工作流搭建平台。