实时语音入口
边录边传、实时转写、VAD 状态、最终文本提交,面向客服、调度、销售、现场作业等自然交互场景。
企业 AI 多模态接入与运营中台
全模通小欧统一接入语音、图片、文件、文本和业务上下文,把多模态输入转成可治理、可编排、可收费、可回调的企业任务流。
Capabilities
边录边传、实时转写、VAD 状态、最终文本提交,面向客服、调度、销售、现场作业等自然交互场景。
统一承接单据、图片、PDF、附件等输入,沉淀标准化结果和原始服务商输出,便于排障与审计。
多服务商配置、路由、健康检查、失败分类、回退策略和死信恢复,避免业务被某一个模型或厂商锁死。
按租户套餐、用量汇总、超额计费、账单草稿与发票流程收口,让 AI 能作为正式对外服务售卖。
Use Cases
物流订单、签收回单、异常工单、合同附件、客户语音需求、现场图片上报。
销售、客服、供应链、财务、人事、政企服务等需要把非结构化输入转成业务动作的团队。
已有业务系统,但缺少统一 AI 接入层、审计层、服务商治理层和计费层的企业。
Featured Chains
先把高频链路打成可复用样板,比继续横向铺功能更值钱。
面向“怎么查订单、帮我新建客户、帮我查资料”这类高频短句场景,先用 realtime 打通输入,再叠加词库、final 修正和反馈回灌,把体验从能用拉到顺滑。
把回单、面单、签收单、异常单照片统一进多模态入口,配合上传、异步任务、结果回调和后台排障,先把物流现场数据回传做成标准化流程。
把发票、表单、合同、附件等文档入口统一接到任务流,保留原始输出、标准化结果和审计链路,适合做财务、行政和业务资料收口。
Case Playbooks
每条都先做一条硬链路,不先承诺大而全。
先让客户感受到“边说边有结果”,最快看到价值。
客服、销售、运营、调度、企业内部助手,希望减少键盘输入和重复查询。
先在开发者页跑 `Realtime Playground`,再按 `pcm16 / 16000 / mono + audioBase64 + audio.commit` 接进前端或中间层。
更快录入、更自然交互、内部知识和业务动作能通过语音触发。
先强调主链路稳定和行业词优化,不提前承诺所有噪声环境或所有口音都达到最终极致表现。
先把照片、回单和异常单从现场拉回系统,再谈更深自动化。
物流、仓配、配送履约、现场巡检、移动作业团队,需要现场图片与单据快速回传。
优先用上传 + `multimodal-entries` + task/result/callback 做标准闭环,先让相机侧、异步任务和回调稳定落库。
资料回传更快、异常更容易追、回单与任务状态能统一进入原有业务系统。
先绑定少量高频单据类型和真实 provider,可用性跑稳后再扩 documentType 和字段映射。
先把分散文档入口收成一条标准任务流,再叠加字段治理和审计。
财务、行政、法务、合同管理、表单资料流转类团队,需要稳定接入图片、PDF、附件等文档输入。
先锁定 1-2 类高频文档,走 ingestion/task/result 主链,再把标准化结果和原始 provider 输出一起回传。
减少人工录入、提高可追溯性、让外部文档进入系统时就带审计和状态管理。
不要先承诺“所有票据模板通吃”,应先按行业模板、字段集和路由策略逐步扩展。
Delivery Language
少讲平台想象力,多讲主链路、验收口径和当前边界。
Acceptance Metrics
这是当前官网、试点和实施阶段都适合引用的最小验收口径。
Commercial
适合单团队验证。含多模态入口、基础实时语音和后台运营能力。
适合正式生产。含更高实时语音分钟数、任务量和商用对接支持。
适合集团级、多租户和专属 SLA 场景,支持定制实施、私有化和专属运维。
Integration
Controlled Evidence
这套材料适合给客户、销售、实施和合作方统一对齐口径。
把主推样板、Readiness、商用门禁、部署证据、量化口径和当前边界一次性摊开,不再靠口头描述当前进度。
先跑最小可用链路,再看 Realtime Playground、curl 示例、OpenAPI 和联调验收,不要一上来就自己猜协议。
把接入顺序、正式主链路、回调规则、错误码和当前边界收成一页,适合直接发给客户技术负责人、实施和外部研发。
可以讲“公网可接、主场景证据已齐、商用门禁已通过、进入稳定放量准备阶段”;不要直接讲“所有场景都已最终成熟”。
How To Start
去官网自助开通,拿到 `tenantId` 和首个 `x-omnimodal-api-key`。这是所有联调的起点。
先到开发者页的 `Realtime Playground` 开麦,看 partial、final、ACK 和服务端诊断,不要先盲接业务前端。
确认公网主链路通后,再把 SDK 或 WebSocket 协议接到你的前端和后端,避免把错误混在一起。
当实时链路已经稳定,再补热词、词典、最终精修和错词纠正,把准确率从“可用”拉到“商用”。
优先使用 `pcm16 / 16000 / mono`,`audio.append` 用 `audioBase64`,每片 `sequenceNo` 单调递增,结束时显式发送 `audio.commit`。
不要把所有音频片都发成同一个 `sequenceNo`,不要只关 socket 不发 `commit`,也不要把 `audioBase64` 错写成其他字段。
Current Status
Release Strategy
当前仓库侧已经形成 `omnimodal-9.5-anchor-20260504` 发布锚点,release readiness 达到 `100 / ready_for_9_5_claim`。
当前线上 release 已通过 post-deploy verify,API、console、worker、MySQL、cache 和 realtime deep probe 均通过本机发布后验收。
稳定版:默认承接生产流量,对外宣传和交付应以当前稳定主链路为准。
候选版:适合少量租户、专项语料和行业场景打磨,不应直接替代稳定版全量放开。
回退目标:一旦准确率、健康分、死信或回调失败明显回落,应优先切回上一个稳定结论对应版本。
发布结论:后台已经支持记录观察结论、准入决定和回退依据,商用交付时不再靠口头判断;线上是否切到最新 tag,仍以正式部署记录为准。
Pilot Readiness
这一段就是把“愿意聊”推进到“愿意开 PoC”的最小交付清单。
Flow
FAQ
为什么我前端明明发了很多片,但服务端没结果?先看 `audio.ack.lastAckedSequenceNo` 有没有持续增长,很多时候是 `sequenceNo` 没递增或补发逻辑错了。
为什么会“能识别但不够准”?先排除弱音频和协议问题,再看热词、业务词典、最终精修和场景化纠错。
第一次接实时语音,最稳的接法是什么?`pcm16 / 16000 / mono + audioBase64 + 递增 sequenceNo + audio.commit`。
如果只想先证明能跑通怎么办?不要先写业务代码,先去开发者页联调台直接开麦验证公网主链路。
Choose Your Path
你有前后端工程师、能自己调 API、目标是 1-3 天内先跑通体验。建议直接自助开通,先用 `Realtime Playground` 验证,再按 SDK 和协议接入。
你要接 ERP、CRM、客服、订单、文档流,或者要多租户、SLA、私有化、正式商用交付。建议直接走试用申请和商务方案,不要先自己硬接。
如果你只想先证明“语音/图片/文档能不能接进业务”,建议先跑一个最小 PoC:开通租户、接 1 条实时语音、接 1 条文本入口、拿到 1 个真实业务结果。
如果你关心准确率、审计、计费、词典、精修、热词、权限和后台运营,那你需要的已经不是简单试用,而是完整实施路径。官网现在能试,但正式收口要一起做方案。
Apply
Pilot Summary
实时语音助手 / 企业助手短句场景
先联调,再进 1 条主链路试点,不要同时铺多个系统和多个输入场景。
3-7 天完成联调和首轮样本验证。
受控证据快照、接入结论、下一阶段建议。
Self Serve