Skip to content

% RFC:SCP Canonical Embedding 协议规范(中文版) % 版本 0.3.2 % 2026-02-25

RFC:SCP Canonical Embedding 协议规范 v0.3.2(中文版)

状态:标准轨(Standards Track)
类别:核心语义层协议

本规范中的"必须(MUST)"、"不得(MUST NOT)"、"应当(SHALL)"、"不应(SHALL NOT)"、"应该(SHOULD)"、"可以(MAY)"等术语按照 RFC 2119 解释。


1. 摘要

本文档定义 SCP 协议中的 Canonical Embedding(规范化语义向量)机制。

该机制用于:

  • 防止属性语义碎片化\
  • 支持 Local → Domain → Global 自动升级\
  • 提升语义相似度判断精度\
  • 保证 Registry 自动演进的确定性

Embedding 仅用于语义聚类与升级判断,不参与查询执行或 OEV 计算。


2. 设计目标

Canonical Embedding 机制必须满足:

  1. 协议级确定性\
  2. 所有节点计算结果一致\
  3. 不依赖外部在线模型\
  4. 可版本化升级\
  5. 与语义哈希(semantic_hash)兼容

3. 语义对象定义

语义对象定义为:

SemanticObject = { name, data_type, base_unit, allowed_range, description }

Embedding 输入为:

normalize(name) + description + domain_context


4. Embedding 生成规范

4.1 模型要求

  • 模型版本必须固定\
  • Tokenizer 必须固定\
  • 参数必须固定\
  • 量化规则必须固定

所有节点必须使用相同 embedding_model_version。

4.2 向量维度

推荐维度:256 或 384。

向量必须量化为 int16。

4.3 量化规则

浮点向量 → 乘以固定缩放因子 → 四舍五入 → 转换为 int16。

量化规则必须 deterministic。


5. Embedding 哈希

embedding_hash = SHA256(quantized_vector)

链上或 Registry 中仅存储 embedding_hash。


6. 相似度计算

相似度必须使用整数余弦相似度:

dot_product = Σ(v1_i * v2_i)

cos_sim = dot_product / (|v1| * |v2|)

必须使用整数运算以保证确定性。


7. 总相似度模型 v2

S_total_v2 = w1S_name + w2S_type + w3S_value + w4S_embedding

推荐权重:

w1 = 0.4
w2 = 0.2
w3 = 0.1
w4 = 0.3


8. 判定阈值

自动合并阈值:

S_total_v2 ≥ 0.92

冲突拒绝阈值:

0.8 ≤ S_total_v2 < 0.92

独立属性:

S_total_v2 < 0.8


9. 升级流程中的作用

Embedding 仅用于:

  • Local → Domain 升级判断\
  • Domain → Global 升级判断\
  • 跨 Domain 语义合并

不得用于:

  • 查询优化\
  • AI 推理\
  • OEV 计算

10. 安全要求

系统必须:

  • 固定 embedding_model_version\
  • 固定 semantic_version\
  • 固定权重与阈值\
  • 禁止节点使用不同模型

若版本不一致,必须拒绝升级。


11. 攻击模型分析

本机制可防止:

  • 语义分裂攻击\
  • 近似重复属性攻击\
  • 属性爆炸攻击

残余风险:

  • 大额 Stake 协同操纵\
  • 恶意描述操纵 embedding

缓解方式:

  • 权重限制\
  • 类型一致性强制校验\
  • 升级阈值调整

12. Registry 一致性

每个 Epoch:

RegistryEmbeddingRoot = hash(all embedding_hash)

该 Root 可写入 Settlement 层以保证全网一致。


13. 版本升级规则

Embedding 算法升级必须:

  • 增加 semantic_version\
  • 冻结旧规则\
  • 不得 retroactively 修改已存在属性

14. 结论

Canonical Embedding 是 SCP 语义层的增强机制。

它在保证协议确定性的前提下,

提升自动语义共识能力,

防止 Registry 在大规模网络中发生碎片化。

本规范为 SCP v0.3.2 Canonical Embedding 正式协议版本。


结束。