热点:

    苹果推出OpenELM高效语言模型,开放源代码、预训练模型和配置

      [  中关村在线 原创  ]   作者:海是天的倒影

    苹果推出OpenELM高效语言模型,开放源代码、预训练模型和配置

    在WWDC24之前,苹果公司发布了一款名为OpenELM的高效语言模型,这款模型是开源的,并且其源代码、预训练模型和训练配方都可以在苹果的Github库中获取。官方介绍如下:大型语言模型的可重复性和透明度对于推进开放研究、确保结果的可信度以及调查数据和模型偏差以及潜在风险至关重要。因此,我们推出了一个最先进的开源语言模型——OpenELM。

    OpenELM采用了分层缩放策略来有效地分配Transformer模型每一层的参数,从而提高了准确率。例如,在参数量约为10亿的情况下,与OLMo相比,OpenELM的准确率提升了2.36%,同时所需的预训练tokens数量仅有原来的50%。

    与以往只提供模型权重和推理代码并在私有数据集上进行预训练的做法不同,我们发布的版本包含了在公开数据集上训练和评估语言模型的完整框架,包括训练日志、多个检查点和预训练配置。

    此外,我们还发布了将模型转换为MLX库的代码,以便在苹果设备上进行推理和微调。通过全面发布这些内容,我们的目标是增强和巩固开放研究社区,并为未来的开放研究工作铺平道路。

    参考文献:

    [2404.14619] OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

    本文属于原创文章,如若转载,请注明来源:苹果推出OpenELM高效语言模型,开放源代码、预训练模型和配置https://dcdv.zol.com.cn/867/8679671.html

    dcdv.zol.com.cn true https://dcdv.zol.com.cn/867/8679671.html report 964 在WWDC24之前,苹果公司发布了一款名为OpenELM的高效语言模型,这款模型是开源的,并且其源代码、预训练模型和训练配方都可以在苹果的Github库中获取。官方介绍如下:大型语言模型的可重复性和透明度对于推进开放研究、确保结果的可信度以及调查数据和模型偏差以及潜在风...
    • 猜你喜欢
    • 最新
    • 精选
    • 相关
    推荐经销商
    投诉欺诈商家: 010-83417888-9185
    • 北京
    • 上海
    • 数码摄像机
    • 新品上市
    推荐问答
    提问
    0

    下载ZOL APP
    秒看最新热品

    内容纠错