消息称 4050 亿参数版 Meta Llama 3 将于 7 月 23 日发布
内部员工曝料称 Meta 公司计划 7 月 23 日发布开源 AI 模型 Llama 3 405B,在现有 80 亿和 700 亿参数两个版本之外,推出 4050 亿参数版本,号称是最强大的开源大语言模型。Meta 公司今年 4 月发布 Llama 3 AI 模型时,扎克伯格就在采访中透露正在训练 4050 亿像素的密集模型,但当时没有透露太多的信息。
H100利用率飙至75%!FlashAttention三代性能翻倍
FlashAttention v1和v2的第一作者是Mamba的共同一作,普林斯顿大学助理教授Tri Dao,他的名字也在FlashAttention-3的作者列表中。Tri Dao师从于Christopher Ré和Stefano Ermon,去年6月在斯坦福大学获得计算机博士学位,毕业后担任Together AI的首席科学家,并从今年6月开始入职普林斯顿大学。
FlashAttention-3 是针对 Hopper GPU 系列的第三代优化运算规则,它在之前版本的基础上,通过利用 Tensor Cores 和 TMA 的异步性、交替进行块状矩阵乘法和 softmax 操作以及使用 FP8 低精度非相干处理等工艺,将 H100 GPU 的 FLOP 利用率从 35% 提升到 75%,实现了在 FP16 模式下的 1.5~2 倍速度提升,达到了 740 TFLOPS 的性能。在 FP8 模式下,性能可接近 1.2 PFLOPS,且误差小于基线 FP8 注意力的一半。这些改进不仅提高了 GPU 利用率,提升了低精度性能,还增强了大型语言模型处理更长上下文的能力。论文和项目代码已发布,但目前仅支持 H100 和 H800 GPU。
项目? :https://github.com/Dao-AILab/flash-attention
6700万参数比肩万亿巨兽GPT-4!微软MIT等联手破解Transformer推理密码
该研究由微软、MIT 等机构的学者共同完成。受到了图灵奖得主Judea Pearl启发,他们提出了一种创新的训练范式 —— 公理化训练,旨在解决大模型在推理方面的缺陷。通过构建因果模型和使用简单的因果链作为训练信息,研究人员训练了一个只有 6700 万参数的微型 Transformer 模型。结果表明,这个模型在推断复杂图表中的因果关系时,其性能不仅超越了十亿级参数的大型语言模型,甚至可以与 GPT-4 相媲美。
论文? :https://arxiv.org/abs/2407.07612v1
亚马逊推出 AI 购物助手 Rufus,可回答客户各种问题
亚马逊宣布其生成式 AI 购物助手 Rufus 经过五个月的小范围测试之后现已面向所有美国客户开放。亚马逊表示,Rufus 旨在帮助客户节省时间并做出更明智的购物决策。它可以回答各种各样的购物需求和商品问题,“就像随身带了一个购物助手一样”。
谷歌将Gemini 1.5 Pro安装到机器人上,实现记忆导航能力
在近 9000 平方英尺的空间内,机器人能够执行 57 种不同的任务,成功率高达 90%。这些任务包括找到画画的地方,机器人能够理解指令并带领客户到目的地。Gemini 1.5 Pro 系统的核心优势在于其处理多模态长上下文窗口的能力,使得机器人能够记住关键位置,理解人类指令、影片导览,并且能够运用常识进行推理。DeepMind 的团队还采用了分层视觉 - 语言 - 动作工艺,让机器人能够理解书面、绘图命令和手势指令。这种系统让机器人在复杂的空间中不再需要人类的时时刻刻指导,能够记住环境,理解指令,并以自己的方式完成任务。
谷歌推通用影片模型VideoPrism 精准分类、定位、检索一网打尽
谷歌的 VideoPrism 模型是一款影片编码器,它能够在多种影片理解任务上使用一个模型达到最先进的水平,包括影片分类、定位、生成字幕和回答关于影片的问题等。该模型的训练过程包括使用大量高质量的影片 - 字幕对和带有噪声的平行文本影片片段,以及基于影片 - 文本对比训练和掩蔽影片建模的运算规则。在 33 个基准测试中,VideoPrism 在 30 个测试中都达到了最先进的水平,显示出其在影片理解领域的强大能力。
论文? :https://arxiv.org/pdf/2402.13217
Andrej Karpathy 24 小时仅用 672 美元“重现”GPT-2
Andrej Karpathy 利用 llm.c 项目和单个 8XH100 节点,将 GPT-2 的训练成本降低到每小时 28 美元,相比原先的每小时 256 美元,成本减少了近 90%。Karpathy 指出,llm.c 直接用 C / CUDA 实现 GPT 训练,无需 conda 环境、Python 解释器、pip 安装等,因此启动云 GPU 节点后几分钟即可开始训练。在 24 小时内,Karpathy 成功生成了关于 “安第斯山脉中会说英语的独角兽” 的样本。
AI原生互动侦探游戏,刚上线就爆火
AI 侦探游戏 AI Alibis 开源,该游戏由两位外国游戏爱好者开发,并在 Anthropic 的开发者竞赛中作为参赛作品。游戏中,玩家需要通过与六个性格迥异的 AI NPC 进行互动,解开一个谋杀案件。该游戏因其免费、免下载、免注册、中文友好、浏览器运行等特点而受到网友关注,并在 Hackers news 上登顶。
试玩? :https://ai-murder-mystery.onrender.com/
开源代码? :https://github.com/ironman5366/ai-murder-mystery-hackathon
Heygen推对口型工具 上传照片+音频即可说话、唱歌
只需要上传一张照片和一段音频,照片中的人物就能根据音频内容开始说话、唱歌,甚至是朗读。支持长达20秒的音频。这个工具还能识别出主要的声音,并且确保影片中的唇形和表情与音频完美同步。不过目前中国区客户既不能登录,也不能重新注册账号。
?:https://labs.heygen.com/guest/expressive-photo-avatar
OpenAI 翁丽莲提出大模型「外在幻觉」
翁丽莲提出了大模型 “外在幻觉” 的概念,将 LLM的幻觉问题具体化为模型输出内容的虚构性,即模型生成的内容既不基于提供的上下文也不基于世界知识。幻觉分为上下文内幻觉和外在幻觉,其中上下文内幻觉指的是模型输出与上下文中的源内容不一致,而外在幻觉则是模型输出的内容虽然与上下文相符,但并非基于预训练信息集,即不能通过外部世界知识进行验证。翁荔还提出了 Agent 公式,即 Agent = 大模型 + 记忆 + 主动规划 + 工具使用。
吴恩达抵制美国SB 1047法案,称对开源大模型是毁灭性打击
全球著名AI科学家吴恩达在社交平台发表深度长文,再次抵制并吐槽美国加州拟定的SB-1047法案。他表示,仍然对美国加州拟定的SB 1047法案,对开源大模型带来的巨大伤害感到震惊。这个法案犯了一个严重根本性错误,应该监管的是通过大模型开发的生成式AI产物,而不是开源大模型本身。
欧盟《机器智能法案》8 月 1 日生效,学校 / 工作场所不得使用实时情绪识别系统
AI 法案生效后 6 个月内,将禁止使用人脸识别信息进行信息库集合,以及在学校和工作场所使用实时情绪识别系统。9 个月后,将对 AI 开发者实施 “行为准则”,并与一些 “一般用途” 的模型公司合作,这些公司被认为具有 “系统性风险”。一年后,公司如 OpenAI 必须遵守新的 “透明度” 要求,并确保其系统对客户保障且易解释。此外,AI 法案还包括用于生成式 AI 的规则,要求生成的图像、影音内容必须被明确标记。对于训练 AI 大模型的公司,还必须遵守《版权法》,除非其模型的用途纯粹只是研究、开发。
今日产物动态
Product Hunt 热榜,AI 助手电子表格 SUPERGPT
Superjoin 最新推出的 SUPERGPT 功能将 ChatGPT 引入 Google Sheets,为客户提供智能内容生成、信息提取和自动填充等多项功能。并提供代码 MEOW3 供客户免费试用 3 个月。除了核心功能外,该工具还支持实时翻译、信息总结,以及自动信息拉取和警报设置等增强功能,无需信用卡即可安装试用。
? https://www.superjoin.ai/producthunt?ref=producthunt
GitHub Trending 热榜,开源自主 AI 编程助手Tabby
Tabby 是一款开源的自主托管 AI 编程助手,为团队提供了替代 GitHub Copilot 的本地化选择。这款工具允许每个团队轻松搭建自己的基于 LLM 的代码补全支持器,无需信息库运营系统或云支持即可独立运行。
Tabby 的特点包括提供 OpenAPI 接口,便于与现有基础设施(如云端 IDE)集成,并支持消费级 GPU。这使得 Tabby 成为追求自主可控、注重信息隐私的开发团队的理想选择,为 AI 辅助编程领域带来了更多可能性。
?https://tabby.tabbyml.com/
开发者推荐
1.AI 会议助手 Fathom 荣获 2024 年 G2 最高满意度奖
Fathom 作为一款领先的 AI 会议助手,凭借其出色的性能和客户体验获得了 2024 年 G2 最高满意度产物奖。这款工具能够自动记录、转录和总结会议内容,支持 28 种语言,并可与多种 CRM 系统和常用工具无缝集成。客户反馈显示,Fathom 极大地提高了会议效率,每次会议可节省约 20 分钟,年度累计可节省 1.5 周时间。
?https://fathom.video/
2.Riffo 助力高效文件命名
Riffo 是一款创新的 AI 驱动文件运营工具,旨在解决客户在文件命名和组织方面的常见困扰。这款工具集成于菜单栏,支持多种文件格式的批量重命名,利用 AI 工艺为客户提供智能化的命名建议,大大简化了文件运营流程。Riffo 的设计注重客户体验和效率,它能快速处理大量文件,支持自定义命名规则,并提供高速的并行处理能力
?https://riffo.ai/
3.AI 驱动的函数调用革新:APIGen 助力开发者提效
APIGen 作为一款创新的自动化信息生成工具,正在为函数调用应用程序开发带来重大变革。这个智能系统能够通过自然语言指令自动生成并执行多样化的 API 调用,大幅简化了开发流程,使得复杂的功能实现变得轻而易举。
APIGen 不仅生成高质量、可验证的信息集,还通过严格的三层验证确保信息的可靠性。其训练出的模型在性能上甚至超越了一些知名的大型语言模型。
?https://github.com/ApiGen/ApiGen
4.AI 赋能文字编辑:AiEditor 开源富文本编辑器问世
AiEditor 的开源 AI 驱动富文本编辑器,为文本编辑领域带来新的变化。这款工具融合了机器智能工艺,为客户提供智能化的编辑体验,包括实时推荐和修改建议,大幅提升了文字处理的效率和精准度。作为开源项目,AiEditor 不仅为客户带来了先进的编辑功能,还为开发者社区提供了持续优化和定制的机会。这种开放的特性使得 AiEditor 有望在未来得到更广泛的应用和增长,为各类文字工作者带来更多便利。
?https://www.producthunt.com/posts/aieditor?utm_source=uwl.me
5.AI 助手 Cradle 突破通用计算机控制领域
昆仑万维联合多家研究机构推出了一款突破性的 AI 框架 Cradle。这个开源框架能够像人类一样通过键盘和鼠标直接操控计算机,无需依赖内部 API 即可与各种软件交互。Cradle 采用六大核心模块,包括信息收集、自我反思等,实现了高度的通用性和自主决策能力。在实际测试中,Cradle 展现出令人印象深刻的多样化能力。它不仅能在复杂的游戏环境中完成任务,如在《荒野大镖客 2》中骑马作战,还能熟练操作日常办公软件,执行发送邮件、修图剪辑等工作。
论文? :https://arxiv.org/abs/2403.03186
项目? :https://baai-agents.github.io/Cradle
代码? :https://github.com/BAAI-Agents/Cradle
敬请期待明日的最新动态!
AI情报局征集情报合伙人,汇集独家价值线索!如果您可以提供有关AI最新融资&行业内幕&独特产物,请添加运营微信号:AIyanxishe2备注行业岗位。
雷峰网(公众号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
文章版权声明:除非注明,否则均为本站原创文章,转载或复制请以超链接形式并注明出处