技术流水线
自动化去标识流水线
面向中国 120 业务流程,系统以多阶段流水线替代人工蜂鸣脱敏,同时处理文本身份信息与语音生物特征。目标是在降低重识别风险的同时,保留分诊复盘、医师会诊交接与调度培训所需的信息价值。
证据等级 基准结果 部署估算
来源
x-vectors / ECAPA-TDNN VPC 2024(6个基线) PIPL / DSL / CSL 对齐 可逆匿名化 (Rano) 流式就绪
1. 数据摄入与预处理
FFmpeg / SoX120 原始录音常含警笛、车载噪声与链路失真。预处理通过格式统一、VAD 与语音频段增强,提升后续识别与回放分析质量。
技术栈
- FFmpeg / SoX
- WebRTC VAD
- Spectral Subtraction
- RNNoise (neural denoiser)
隐私效果
最低风险——原始音频仍在此阶段包含所有 PII。