% RFC:SCP Canonical Embedding 协议规范(中文版) % 版本 0.3.2 % 2026-02-25
RFC:SCP Canonical Embedding 协议规范 v0.3.2(中文版)
状态:标准轨(Standards Track)
类别:核心语义层协议
本规范中的"必须(MUST)"、"不得(MUST NOT)"、"应当(SHALL)"、"不应(SHALL NOT)"、"应该(SHOULD)"、"可以(MAY)"等术语按照 RFC 2119 解释。
1. 摘要
本文档定义 SCP 协议中的 Canonical Embedding(规范化语义向量)机制。
该机制用于:
- 防止属性语义碎片化\
- 支持 Local → Domain → Global 自动升级\
- 提升语义相似度判断精度\
- 保证 Registry 自动演进的确定性
Embedding 仅用于语义聚类与升级判断,不参与查询执行或 OEV 计算。
2. 设计目标
Canonical Embedding 机制必须满足:
- 协议级确定性\
- 所有节点计算结果一致\
- 不依赖外部在线模型\
- 可版本化升级\
- 与语义哈希(semantic_hash)兼容
3. 语义对象定义
语义对象定义为:
SemanticObject = { name, data_type, base_unit, allowed_range, description }
Embedding 输入为:
normalize(name) + description + domain_context
4. Embedding 生成规范
4.1 模型要求
- 模型版本必须固定\
- Tokenizer 必须固定\
- 参数必须固定\
- 量化规则必须固定
所有节点必须使用相同 embedding_model_version。
4.2 向量维度
推荐维度:256 或 384。
向量必须量化为 int16。
4.3 量化规则
浮点向量 → 乘以固定缩放因子 → 四舍五入 → 转换为 int16。
量化规则必须 deterministic。
5. Embedding 哈希
embedding_hash = SHA256(quantized_vector)
链上或 Registry 中仅存储 embedding_hash。
6. 相似度计算
相似度必须使用整数余弦相似度:
dot_product = Σ(v1_i * v2_i)
cos_sim = dot_product / (|v1| * |v2|)
必须使用整数运算以保证确定性。
7. 总相似度模型 v2
S_total_v2 = w1S_name + w2S_type + w3S_value + w4S_embedding
推荐权重:
w1 = 0.4
w2 = 0.2
w3 = 0.1
w4 = 0.3
8. 判定阈值
自动合并阈值:
S_total_v2 ≥ 0.92
冲突拒绝阈值:
0.8 ≤ S_total_v2 < 0.92
独立属性:
S_total_v2 < 0.8
9. 升级流程中的作用
Embedding 仅用于:
- Local → Domain 升级判断\
- Domain → Global 升级判断\
- 跨 Domain 语义合并
不得用于:
- 查询优化\
- AI 推理\
- OEV 计算
10. 安全要求
系统必须:
- 固定 embedding_model_version\
- 固定 semantic_version\
- 固定权重与阈值\
- 禁止节点使用不同模型
若版本不一致,必须拒绝升级。
11. 攻击模型分析
本机制可防止:
- 语义分裂攻击\
- 近似重复属性攻击\
- 属性爆炸攻击
残余风险:
- 大额 Stake 协同操纵\
- 恶意描述操纵 embedding
缓解方式:
- 权重限制\
- 类型一致性强制校验\
- 升级阈值调整
12. Registry 一致性
每个 Epoch:
RegistryEmbeddingRoot = hash(all embedding_hash)
该 Root 可写入 Settlement 层以保证全网一致。
13. 版本升级规则
Embedding 算法升级必须:
- 增加 semantic_version\
- 冻结旧规则\
- 不得 retroactively 修改已存在属性
14. 结论
Canonical Embedding 是 SCP 语义层的增强机制。
它在保证协议确定性的前提下,
提升自动语义共识能力,
防止 Registry 在大规模网络中发生碎片化。
本规范为 SCP v0.3.2 Canonical Embedding 正式协议版本。
结束。