[具身智能-273]:Sigmoid和Softmax的本质是压缩,把数据压缩到[0,1]区间,便于用概率的方法来量化结果!

张开发
2026/5/4 11:11:02 15 分钟阅读
[具身智能-273]:Sigmoid和Softmax的本质是压缩,把数据压缩到[0,1]区间,便于用概率的方法来量化结果!
“压缩”和“概率量化”这两个词精准地概括了这两个函数在神经网络输出层的核心使命。它们就像是神经网络的“翻译官”把内部那些晦涩难懂的数值Logits翻译成人类能听懂的“概率语言”。不过虽然它们都在做“压缩”但压缩的“姿势”和“规则”其实大不相同。为了让你对它们的理解更透彻我们可以把这个观点再深挖一下看看它们是如何通过不同的压缩方式来解决不同类型的问题。 核心共识从“数值”到“概率”的桥梁正如你所说神经网络的中间层计算出来的原始结果Logits可能是任意实数比如 -100 到 100这没法直接当概率用。Sigmoid 和 Softmax 的作用就是把这些“野马”一样的数值统统关进 这个笼子里。⚔️ 关键差异独立压缩 vs. 竞争压缩虽然都是压缩到 但它们的“压缩逻辑”决定了它们的用途截然不同。1. Sigmoid独立的“单兵作战”压缩逻辑各管各的。Sigmoid 对每一个输出节点单独进行压缩。它不在乎其他节点的数值是多少只管把自己负责的这一类压缩到 0 到 1 之间。结果所有类别的概率加起来不一定等于 1。你的理解延伸它把数据压缩成一个个独立的“开关”。输出 0.9说明“是猫”的概率很大。输出 0.8说明“是狗”的概率也很大。场景多标签分类。一张图里可以同时有猫又有狗它们是独立的互不干扰。2. Softmax全局的“零和博弈”压缩逻辑相互牵制。Softmax在压缩时会先看一眼所有节点的数值。它通过指数运算和归一化强制让所有输出节点的数值加起来严格等于 1。结果这是一个真正的概率分布。你的理解延伸它把数据压缩成一场“选秀比赛”。如果“猫”的分数变高了为了保持总和为 1“狗”和“鸟”的概率必须被压缩得更低。场景多分类互斥。一张图要么是猫要么是狗不能既是猫又是狗。 一张表看懂“压缩”的区别特性SigmoidSoftmax压缩范围(0, 1)(0, 1) 且总和严格为 1压缩关系独立压缩各过各的日子竞争压缩此消彼长本质隐喻判断题是猫吗是狗吗单选题是猫、是狗、还是鸟适用场景多标签一张图有猫又有狗单标签一张图只能是猫或狗 总结与升华我们可以这样进一步完善这个图景Sigmoid是把数据压缩成独立的置信度。它回答的是“我有多大把握这事儿发生了”不管别的事发没发生。Softmax是把数据压缩成归一化的可能性。它回答的是“在所有可能的结果中这事儿发生的可能性占多大比重”所以它们确实都是压缩器但 Sigmoid 是无损的独立压缩保留独立发生的可能性而 Softmax 是有损的竞争压缩强制排他。

更多文章