JN江南·体育最新官网入口四月下半月的 78 个 AI 新产品都在这里了!四月下半月,AI 领域的新产品仍然层出不穷。越来越多有实力的选手加入开源战斗,通用场景与垂直场景都涌现出许多有用的新产品。大公司中,之前鲜少出现的苹果、Palantir、Sberbank 也都加入了这次浪潮。
真格投资团队继续梳理了这半个月以来的 78 个 AI 新产品。希望能带给你一些启发,也欢迎在评论区和我们交流你的想法~
- 15个初创企业的新产品-这次我们从「开源」和「闭源」的角度对这些产品进行了划分,其中开源产品有 8 个,闭源有 7 个——很开心看到越来越多有实力的选手加入开源战斗, may the source be with you ❤️
在「有用的」部分,我们从「通用场景」及「垂直场景」对产品进行了划分,也额外单列了诸如「模型训练」、「AI 安全」、「代码学习」和「AI 代理」等关注度较高的类别;
而「好玩的」部分,本次推荐的产品可谓各有特色,例如 Andrej Karpathy 本人开发的电影搜索工具,再比如梦境生成与存储器,还有迎着最近在大洋彼岸闹得沸沸扬扬的「真假 Drake 案」而上的虚拟音乐电台……
- 14 个大公司的新产品 -除了微软、谷歌、英伟达等熟悉的老面孔,还有苹果、Palantir 这样鲜少出现的朋友,更有来自俄罗斯的新晋玩家 Sberbank。
Stability AI 真的是不断给予人们惊喜的初创公司——他们在图像生成领域已经声名鹊起,现在又在用语言模型稳固自己在 Gen AI 领域的领先地位。
目前,StableLM 有 3B 到 7B 个参数,未来计划发布的模型将拥有高达 650 亿个参数,并使用 1.5 万亿个 token 进行训练——如果我没搞错的话,这将是目前最大的开源语言模型,对吗?
DeepFloyd IF 的发布是我们一直在等待的时刻 ——在生成图像中渲染文本(虽然还是没有关于手指生成进步的消息)!
如果我们呼吁开源发展,那么 Hugging Face 应该是另一个引领者 ——他们是当之无愧的社区积极推动者!
对于程序员来说,这真的非常令人兴奋,HuggingFace 甚至声称它的性能超过了用于训练 OpenAI 的 GitHub Copilot 的模型。
从数据道德的角度来看,StarCoder 是在一个名为 The Stack 的开放数据集上进行训练的,该数据集具有 1900 万个完全开放的代码库和 6TB 代码 —— 但最好的一点是它可以与 VSCode 集成。
他们发布了名为 HuggingChat 的开源聊天机器人,拥有 Web 界面和 API—— 虽然还没有达到大厂的水平,但毕竟它是免费的。
当前,开源社区与科技巨头一决高下的决心真的令人振奋,RedPajama 是 Together 最新的倡议,他们设定了大胆的目标来推动开源模型的进步,旨在通过完全开源、可重现的领先语言模型与大公司竞争,这个目标整体分为三步:
他们宣布已经完成了第一阶段与第二阶段的一部分 ——制作了一个用于训练类似 LLaMA 的模型的 1.2 万亿词语数据集,发布了 RedPajama 3B 与 7B 模型,并在 OpenChatKit 上实现指令调整 —— 我感觉某个大事件正在酝酿之中!
类似 Chatbots 和 AI Agents 这样的东西无疑是大趋势,但也都只是我们在 AI 道路上前行的一小步,我们可以期待更多的「一小步」 ——在我看来,让 AI 模型在本地和浏览器中运行也是其中的一步。
由华人学者陈天奇领衔开发的 WebLLM 便是其中的一个优秀尝试,它让我们可以在没有服务器支持的情况下在浏览器中运行 LLM,目前选用的模型是 vicuna-7b-delta-v0。
- Web LLM 的运行速度非常快,每秒可处理约 15 个 token,性能优于此前 Simon 在个人设备上运行过的其他模型;
- Simon 还通过一系列问题测试了模型的问答能力,包括事实查询、列表生成、文本摘要、生成双关语以及编写代码等,虽然有些回答存在错误,但整体表现很好;
- 尽管模型整体还存在缺陷,但 Simon 认为它已经达到了他的预期,并且可以作为各种实用工具构建模块。
Arize AI 推出了 Phoenix,一个用于监控 LLM 幻觉的开源库,也是第一个旨在帮助数据科学家将 LLMs 决策过程可视化,监视其生成内容并在出现类似虚假或误导性结果时提出修复措施的软件。
—— 没错,又是聊天机器人,但这个聊天机器人真的非常特别,从 UI 到表达方式(还可以同步以四种不同的声音输出语音),让人眼前一亮!
- 长时记忆带来的个性化潜力 -Pi 旨在成为一个私人聊天机器人,同时随着时间的推移,可以成长为个性化的虚拟陪伴。据 Forbes 报道,Pi 可以扮演积极的倾听者,通过不断对话,与用户一起讨论或解决问题,同时它会记住这些对话,逐渐了解用户;
- 跨平台互动与记忆 -但真正酷的功能是,用户可以在各种平台上与自己的机器人交谈,它会记住与用户的互动!
在 5 月 2 日的 TED 演讲中,Khan Academy 的创始人 Sal Khan 演示了他们最新的 AI 工具Khanmigo,一位既面向学生的导师又面向老师的教学助手。从演示中看,这是一款态度正向且具有变个性的教育产品,可以帮助学生找错误,引导他们用更好的解题思路与学习方法,通过角色扮演教授历史知识,甚至还可以成为强有力的辩论对手,能力很是全面,是一款符合我的个人预期的教育产品 ——还记得 Greg Brockman 在 TED 2023 中提到的为 ChatGPT 在教育领域的能力提出问题又慷慨地提供垂直训练帮助的 Sal 吗?
Jasper 推出了新功能 Jasper Brand Voice,用户可以向 AI 提供公司事实性信息、产品目录、受众/客户、品牌基调及风格等数据,以确保生成的内容始终符合品牌调性。Jasper 也可以直接访问用户的网站以直接了解品牌并匹配符合品牌调性的不同风格。此外,Jasper Brand Voice 还会保留用户上传的上述信息的历史记录(Memory),以确保 AI 可以始终准确撰写关于企业的具有一致性的内容。
该模型拥有强大的文本理解能力与丰富的情感表现力,目前支持八种语言:英语、法语、德语、印地语、意大利语、波兰语、葡萄牙语和西班牙语。此外,模型还具有识别多语言文本并转换为语音的能力,用户可以使用单条提示词生成多语种语音,同时保持每个发音者的独特声音特征。
新模型已经在 ElevenLabs Beta 平台上提供,用户可以通过语音合成界面中的下拉菜单选择使用。
无独有偶,Play.ht 也推出了他们支持多语言合成和跨语言语音克隆的模型 Parrot。与Multilingual v1 相同,Parrot 也允许用户跨越不同语言克隆语音,同时保留原始口音和语言的细微差别。例如,用户可以使用 Play.ht 的语音克隆服务上传 30 分钟的西班牙语音频,模型随后克隆语音和语言,使这位说西班牙语的用户能够用 Play.ht 的 TTS 软件说英语,软件会以初始音频的声音(只是换成英语)朗读文本,并保留西班牙语口音和说话习惯 ——但与 Multilingual v1 不同的是,Parrot 支持 130 多种语言的相互转换却不支持多语言混合文本的语音转换。
此外,Parrot 是此前 Play.ht 于 2022 年 9 月发布的语音模型 Peregrine 的升级版本,相比 Peregrine,Parrot 具有更相似的音高、节奏控制以及零样本克隆能力,能够捕捉并模仿原始音频语言的语调和细微差别,并将其应用到克隆语言中,从而实现无缝的跨语言克隆。
RunwayML 发布了同名 iOS 应用程序,这可以被视为 RunwayML 商业化的基础,用户可以基于 Gen-1 模型生成视频并进行编辑—— 目前只能在已有视频的基础上创建一些时髦但也有点诡异的视频,之后文本转视频功能也将会上线。
由李飞飞和 Scale AI 创始人 Alexandr Wang 参与投资的视频搜索工具,通过描述,在数小时的视频里寻找最想要的那一瞬间!
自 ChatGPT Plugin 发布后,让工具成为「决策中心」成为了开发者们的探索热点方向之一,这里介绍 Klu,用于连接各种常用的应用程序,例如 Gmail、Dropbox、Notion、Slack 等等,以问答形式实现无缝、统一的企业内信息搜索。
为 OpenAPI 文件创建一个完全开源的包管理器 —— 这意味着任何具有 API 的应用/网站(AI 工具)都可以从该平台获取并即时使用,这基本上可以算作Plugin 协议的免费版本—— 让我们拭目以待 OpenAI 的反应。
CodeDesign 是一款 AI 驱动的网站构建工具,可以使用 AI 生成的 UI 元素在几秒钟内创建网站,在完全个性化定制的同时还可以全程获得来自 AI 的智能化建议。
目前,产品提供云托管、SEO 和数据库功能,并允许发布到自己的域或导出到代码。除此之外,还有一个生成营销文案的边缘功能。
生成式 AI 真的可以用来设计硬件吗?PCB 设计软件公司 Flux.ai 给了我们一个答案。
Flux.ai 将 Flux copilot 定位为「AI 硬件设计助手」,用以辅助进行图纸设计、新方案探索、物料清单生成以及审查和验证,可通过设计优化、效率提升、社区数据/经验查询、采购简化、创新设计探索与协作优化方面帮助 PCB 设计师们提升效率。
但公司也一再强调,Flux copilot 与 LLM 一样,「不完全可信」,只能被视为设计师的「指南」绝非「专业知识替代品」。
Pharma Bro 的 Martin Shkreli 重获自由后正在尝试新业务,这次,他开发了一款医疗聊天机器人 Dr Gupta,称其为「世界上第一个医生聊天机器人」,并期待它有朝一日成为「所有医疗保健信息的替代品」——目前看,不是性的产品,但势必会不可避免地引起一场关于安全、道德与隐私的讨论。
LMSYS 推出了 Chatbot Arena,顾名思义,「模型竞技场」,其功能非常简单,用户与两个匿名的模型同时聊天,并投票选出哪个更好。
原本我以为是一个有趣的小实验,没想到 5 月 3 日,团队发布了一份认真又专业的报告,解释了以这样的系统测评 LLM 的原因:
- 可扩展性(Scalability)-当收集足够数据来评估所有可能的模型对是不可行的时候,系统应该能够扩展到大量的模型。
- 唯一顺序(Unique order)-系统应该为所有模型提供唯一的顺序。给定任意两个模型,应该能够确定哪个排名更高或它们是否并列。
Lamini 旨在简化工程团队的 LLM 训练流程,同时提高所训 LLM 的性能。使用 Lamini 库中的几行代码,任何开发人员(不仅限于熟练掌握机器学习的开发人员)都可以在庞大的数据集上训练出与 ChatGPT 同等性能的高效 LLM。
- ChatGPT 的提示词优化及模型切换。首先,团队提供了不同模型的最佳的提示词,以便用户使用;其次,使用 Lamini 库的 API 可以快速调整不同模型的提示词;最后,通过一行代码,便可以在 OpenAI 和开源模型之间切换。
- 生成大量的输入输出数据。这些数据将展示 LLM 对它所接收的数据的反应,无论是自然语言(英文)还是 JSON 格式。团队发布了一个用 Lamini 库的几行代码生成的 50,000 个数据点的仓库 —— 只用了 100 个数据点生成。
- 用生成数据调整原始模型。除了数据生成器外,他们还分享了一个在生成数据上训练的,由 Lamini 调整过的 LLM 模型。
- 把经过微调的模型进行 RLHF。Lamini 避免了进行 RLHF 所需的大规模机器学习(ML)和人类标注(HL)工作人员的需求。
Trustible 是一家位于美国的初创公司,他们率先提供面向企业的服务,帮助公司在实施和部署 AI 模型时践行合规且负责任的 AI 实践,该产品旨在将企业 AI 产品与相关法规对齐以实现合规性,同时也会即时更新新出台的关键法规。
顾名思义,SafeGPT 是为 LLMs 的安全而生,用于识别和解决 LLMs 中的错误、偏见和隐私问题,其主要特点如下:
- SafeGPT 适用于所有类型的 LLMs,包括 ChatGPT,并使用实时数据与外部数据库进行交叉检查,从而比较答案以检查其准确性;
- SafeGPT 还提供企业级功能,以确保 LLMs 的安全性,灵活的无服务器后端架构可以从每天处理数十亿个请求;
确保 LLMs 的安全不仅需要我们从开发侧进行防范,还需要及时了解他们的负面案例,在前面的 Newsletter 中,我们介绍过 ChaosGPT 以及 Cards Against AI 等产品,这里,我们再介绍一个系统收集 AI 在现实世界中造成的伤害/接近伤害的案例的产品 The AI incident database。
相信不少人已经见识过了以 GPT 为代表的 LLMs 的强大的编程能力,结合问答形式与教育场景的高适配度,也许我们是时候期待一些新的编程教育产品的出现了。以下是两个新发布的面向 C 端用户的编程教育产品:
Codeamigo 是一个交互式编程教育产品,用 AI 帮助用户学习如何利用 AI 工具进行编程(有点儿拗口)。
Codeamigo 所教授的内容非常基础,课程呈现格式简单明了,适合初学者入门使用,除了课程,平台还提供了基于 HTML 的沙盒环境 Codesandbox,用户可以在其中即时实践他们所学的内容。但 Codeamigo不提供任何自动反馈或评分系统,用户必须通过自我评价确定自己的进度。
除了面向 C 端的产品,在上周发布的产品中,我还发现了一款有趣的旨在教会模型「编程」的产品。
LlamaAcademy 是一个实验项目,目标是教 GPT 使用 LLaMA、LoRA 和 Langchain 阅读 API 文档——但,「实验项目」意味着当前生成的代码质量并不稳定江南体育官方网站。
用户可以根据他们的 API 文档创建一个 Llama 模型,然后可以将其托管在服务器上并用它来编写 API 胶水,具体运行原理如下:
今年 2 月,我开始使用 MULTI·ON ——在插件和代理之前,这个由 AI 驱动的工具已经实现了在笔记本电脑上自动执行许多任务,非常酷(当然也有点可怕)。
现在 MULTI·ON 宣布开发了一个 ChatGPT 插件,根据演示,它的功能看起来非常强大 —— 如果 OpenAI 批准了这个应用(现在可以称这些插件为应用程序了吧?!),那么它可能会成为能力超群的个人网络浏览器/任务执行器,如果与目前的一些 AI 代理结合,还可能会更酷!
由 Yohei 本人开发的一个有缺陷、速度较慢但功能更强大的 BabyAGI mod。具体来说,拥有更强的任务管理、依赖任务、工具、适应性和集成能力,适合处理更多更复杂的任务,但需要更高的计算能力。
基于 GPT-3.5-Turbo/4 的最小通用自主代理,只保留了最简单实用的功能,但缺点是没有长时记忆(即不能通过长时间使用成为更个性化的工具),目前可以执行的任务包括但不限于创建游戏、分析股票价格、进行网络安全测试、创作艺术品、总结文档和...订比萨。
另外,MiniAGI 还可以开启批评(critic)模式,额外请求 API 以提高任务完成的准确性。
面向企业和个人的,也是首个可以通过 Mac App 访问的 AI 代理中心,随时随地创建和访问 AI 代理。
Height 本身是一家项目管理 SaaS 初创公司,上周,他们推出了新的产品 Height Copilot,通过 AI 代理,使工作流的管理更加自动化,帮助团队构建更好的产品。
一个专用于信息检索而非内容生成的 AI 代理,能够在互联网上找到、提取和处理数据,无需 API。Aomni 采用了 AutoGPT 架构来智能规划查询,并确保正确的数据来源和多样化的结果。
自主编写拉取请求以响应 ChatGPT 的问题——作者为产品规划了九步路线图,但目前只实现了两步「根据标记的问题自动编写拉取请求」以及「通过迭代和自适应规划自主生成代码」。
让 LLM 拥有更强的推理与执行能力的 AI 代理,来自中国创业团队 Jina AI(作者来自德国)。
过去两周,冒出了许多 AI 驱动的网页信息自动抓取工具,虽然当前用 Gen AI 做网页抓取并非主流技术方案,但其优势也是显而易见的,例如,可以更好地理解分析非结构化数据,实现更精准的抓取。
Dreamkeeper 使用多个 Gen AI 模型,使得记住、想象并保留梦成为可能。以下是官方的简要概述:
- 为了记住用户的梦,一个由 ChatGPT 驱动的助手会问用户一些具体的问题,并根据回答做出相应的内容调整;
- 一个 Stable Diffusion 模型通过提取 ChatGPT 生成的关于用户梦境的摘要描述中的关键词来生成一幅图像;
从维基百科上抓取了每部电影的简介和情节,并使用 OpenAI API (ada-002) 进行了嵌入处理
GPT-4 驱动的角色扮演冒险游戏,主题是关于 16 世纪的东南亚的恐怖幻想——这里有两个难点,一是让 AI 解决冲突(它总是倾向于顺从人类观点),二是营造恐怖主题或战斗场景(由于安全限制,LLMs 通常拒绝输出暴力与恐怖的场景)。
不过 GPT-4 的益处也是显而易见的,作者在开发日记中写道,他自己本身不了解 16 世纪的东南亚故事,但又十分感兴趣 —— 还好 GPT-4 学过相关的知识。于是,作者用 RPG 引擎处理细节、解决冲突,将 GPT 用作「渲染器」,花费 2 天的时间就完成了游戏的搭建,效果很不错!
Artificial Intelligence Radio先说说音乐行业:在第三方制作的仿冒 Drake 作品和 Grimes 自己制作的 AI 生成作品发布后,音乐行业掀起了关于 AI 的站队行动,但更多的是引发了一波音乐制造热潮 —— 现在,出现了一个纯由 AI 生成的歌曲的 AI 广播,它们听起来实在是太真实了!
不过有一点值得注意:到目前为止,似乎全部歌曲都是现代嘻哈风格的音乐 —— 这是当前趋势的反映,还是 AI 能力的局限?
一个有意思的小游戏,由 AI21 labs 发布 —— 聊天两分钟,猜猜对方是人类还是 AI。
自动检测并高亮 Twitter 中的逻辑错误的 Chrome 插件 —— 再也不怕被网友带着走了!
伴随全面开放的,还有功能的全面提升,例如,能够处理图像和视频,具有插件功能(因此用户可能能够让它预订餐厅或购物),并且与聊天机器人对话将会被存储在用户自己的历史记录中。
Microsoft 正在通过 Designer 向 Adobe 发起挑战,Designer 是一个类似 Canva 的画布类 Web 应用,用户可以在其中使用 Gen AI 进行各类设计,从海报和演示文稿到社交媒体帖子的任何内容,还可以调整生成作品尺寸以匹配一些特定平台的风格,例如 Instagram 的正方形。试用体验:可以用,但没有太大的生产效率提升。
备受冷落的 Edge 浏览器也在默默不断改进 —— 当前浏览器界面新增了一个边栏,用户可以在 AI 的指导下完成 Web 端操作,例如在社交媒体上发布帖子或编写电子邮件。
自 2019 年以来,Microsoft 一直在秘密地设计一款 LLM 专用芯片 Athena,目前该芯片只提供给了 Microsoft 和 OpenAI 的少数员工进行测试,预计明年正式向这两家公司供应 —— 但抱歉,其他人就没戏了!
「没有人可以杀死 Google 搜索,因为我们正在自我颠覆。」以下是最近有些英雄色彩的 Google 的新动作:
- 4 月 21 日,Bard 终于学会了写代码,支持 20 多种编程语言,如果生成的是 Python 代码,还可以直接在 Colab 中导出测试,虽然当前还不能完全投入生产,但我们可以期待它的进步!
Google DeepMind 的成立无疑是近期最受瞩目的大事件之一(不确定 Google Brain 团队对新部门的名称是否满意),这无疑是 Google 向 Microsoft+OpenAI 组合发起的又一次强有力的正面竞争,也许团队会着重将语言模型集成到他们的搜索引擎中。
Google 也有其他团队在努力为传统搜索引擎添加更多功能,并发起了一个名为 Magi 的项目,其中包括图片生成、搜索内的直接金融交易、明晰准确的答案和新广告列表等产品。以下是一份 Google 正在考虑发布的产品的简要列表,当然团队表示,并不是所有的产品都会被推出(一...