Arxiv 上所有论文转成 Token,加起来不过 14.1GB 而已。
这是最新爆火开源计划亚历山大完成的壮举。
事实上,这还只是第一步。
他们最终是想要将整个互联网变成 Tokens,换言之全都转化成 ChatGPT 等大模型理解这个世界的方式。
一旦这样的数据集诞生,那岂不是为开发出 GPT-4 这样的大模型又新增一大利器,上知天文下知地理指日可待了?!
消息一出,瞬间引发巨大关注。
网友们赞叹,史诗般的。
而这背后仅是四个平均年龄 20 岁的少年发起,目前 Arxiv 所有论文数据集已经发布,他们将于下周发布嵌入搜索平台。
从 Arxiv 上所有论文开始
超过 400 万个项目、6 亿个 token,30.7 亿个向量维度。
这个名为亚历山大的开源计划,首先从 Arxiv 每篇论文上开始。
选择的方式是嵌入,简单来说,就是将现实世界的各种对象具象成计算机所能理解的向量。
最经典的例子就是将原始图像表示为灰度像素。
这种技术最大的特点就是能够表示出人类感知到的语义相似性。
比如,当有 10 个词表示同一事物时,很难通过关键词查找论文。但嵌入就可以完成,因此很适用于搜索、聚类、推荐和分类。
基于实用性和效率的考虑,开发团队只选择嵌入了论文的标题和摘要。
在测试各种模型之后,最终选择使用 InstructorXL 文本嵌入模型,通过简单地提供任务指令,而无需任何微调,适合于多种任务和领域(比如科学、金融、医学等)》
下周他们将发布 Arxiv 搜索。目前为止的流程是,首先对 100 篇最接近的文章进行相似性搜索,然后即时计算这些内容的嵌入,并进行第二次更复杂的搜索。
最终目标是一整个互联网嵌入计划。
20 岁少年的疯狂开源计划
之所以要开展这样一次疯狂的开源计划,主要有两方面的原因。
一方面是嵌入巨大的价值。世界上很多问题只是搜索、 聚类、推荐或分类,而这些事情嵌入都非常擅长。而且也如前所述,可以解决一些复杂的难题。
另一方面成本是一次性的且很便宜。大多数情况下无需对同个文件进行二次计算。目前每 1 亿个 Token 只需 1 美元。
但他们并没有找到任何开放的嵌入数据集,因此这样的组织应运而生。
值得一提的是,背后是一群平均年龄仅为 20 岁的少年 team 完成的。
而他们的团队名字同样也很霸气,Macrocosm联盟。
只要你放大到足够远,人类就会成为一个单一的生物。
就官方介绍,他们致力于为 ChatGPT 和其他类似产品构建插件,同时也在开发核心产品,基于大模型的个人研究助理,帮助学习、教学和科研。
感兴趣的旁友可戳下方链接了解~
参考链接:
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
28分钟送药到家,叮当健康再递交上市
最新招股书显示,2019年、2020...
浙商证券:为何不能再用盈利来预测制造
能源变革下盈利与制造业投资的关联性较...
中国太保紧急启动抗疫应急预案!确保“
3月28日是上海在全市范围内开展新一...
币安美国计划在3年内进行IPO,其四
图片来源:视觉中国3月28日,据Fo...
茅台提前披露业绩:2021年总营收1
出品丨搜狐财经作者丨李文贤3月28日...
邮储银行发布新市民专属“U+卡”助推
3月28日,中国邮政储蓄银行举办新市...
华为去年营收6368亿净利润1137
华为昨日举行2021年年度报告发布会...
迪马股份:港交所已审议旗下物业公司东
3月28日,重庆市迪马实业股份有限公...
公告精选:奥泰生物等一季度业绩大幅预
3月28日晚间公告精选:西麦食品将于...
开车省,养车更省,性价比之王优选奕炫
近期油价上涨,不少人把目光投向了新能...
汉王科技:公司控股子公司汉王鹏泰目前
每经AI快讯,有投资者在投资者互动平...
平煤股份:2021年净利同比增110
平煤股份3月28日晚间披露年报,20...
阳光城:未能按照约定筹措足额偿付“1
阳光城28日晚间发布公告称,因受宏观...
胜蓝股份:发行可转债3.30亿元申购
胜蓝股份3月28日晚间发布公告称,胜...
新冠检测订单增长奥泰生物一季度业绩预
3月28日晚间,奥泰生物公布了202...
增程技术成热门,2022中国电动汽车
3月25日-27日,“2022中国电...