的测试评估方案针对大

Josna557 · 發表於 2024-3-20 11:25:32

模型的认知学数学情感等等各个领域以评估人类心智的题目方式来对大模型进行测试评估这种方式是更加合理的。好我觉得与其我断章取义不如去看下原文////。另一层面对于大模型真实应用场景的业务指标需要像微软一样以领域专业人士测试人类的方式来构造对应的测试集合和数据指标以来评估大模型某一方面的能力当然这首先可能需要测试人员成为这一领域的入门专家了解如何以一个专家的视角来审查大模型的能力水平。四后记以另一个视角对大模型扯点别的因为最近年初对于法律领域也稍微涉猎了一些功利主义“最多数人最大善”的问题这些启发我从另一个层面的思考大

模型这件事大模型本身依旧是效率的化身效率是否总是有益 阿联酋 WhatsApp 号码 的这件问题其实很有意思比如如果我们以电商减少了线下人与人之间的社交场景来看待电商就会发现在生产大于消费的时代下电商实际上对于社会整体收入创造是减少的。那么对于大模型来说其实也会有类似的情况如果所应用的行业甚至公司个体整体是生产大于消费的阶段那么再提效其实只会降低整体的产出收入总额。大模型的高投入会带来一个问题真正可以进入的玩家数量很少普通人甚至提出一个自己的假设都没有办法去实施验证普通人总没办法买一堆每天做甚至预训练来实验自己的想法对吧。这种格局实际上很容易导致垄断现象对于

商业而言垄断的问题不在于寡头借助垄断地位赚高额利润相反过去的垄断行业巨头都倾向于不断提高产品效率和质量而降低产品的售价。借助这种方式可以让后来的玩家进入门槛越来越高对于大模型来说更是这样当你花费了相当多的投资人的钱和时间做出来一个东西但是头部玩家已经把效果提升了一倍成本压低了一倍这个事情就完全没有价值。谈一谈后续计划目前确定的一个计划是这次文章虽然写了很长但是因为过度压缩了其实真正想展开谈的内容并没有展开谈因此关于对话写作情感这些人类社会抽象问题的理解和实践思路打算拿出来虚拟人设计的一些实践经验和大家分享讨论下我对这些本质问题的一些理解。

		自動登錄	找回密碼
密碼			立即註冊