生成式AI产品及服务推荐

之前零星给朋友们推荐过一些AI产品,不过之前大多是国外的产品,需要科学上网才能使用;很多人也只是体验一下,后续使用的也不多。经过2年的发展,AI产品越来越多,越来越好用,不少人已经离不开了,而更多的人却还没用起来。根据一些机构的统计,AI在某些领域可以提升50%的效率,平均下来,也可以提高20%的效率。因此整理此文,给朋友们做个参考,建议大家都尽快用起来。

个人能力有限,推荐的产品可能不全面、准确,请多担待。

以生成式AI为代表的本轮AI浪潮发展简史

自2022年11月30日OpenAI发布ChatGPT起,人工智能大模型(LLM)开始出圈,并逐步得到广泛的应用。

OpenAI的服务国内无法访问,虽然有各种办法,但是大部分人使用不便。2023年3月16日,百度发布了文心一言,但是口碑很一般,我看了一下评价就没去使用了。

在整个2023年,国际和国内都发布了一大堆大模型,有直接提供服务的,也有开源的模型。但是首发效应非常明显,除了ChatGPT,其他的用户数少很多,差距可能是数量级的。在这一年中,Google发布了BARD,但是藏着掖着,让人失望;POE(Quara)发布了聚合大模型产品,方便了限制地区(包括中国)的人使用gpt;Anthropic发布了Claude,在某些方面保持领先;还是在这一年的某个时间,Midjourney在Discord上发布了文生图大模型,具有很强的可玩性,很快就火了起来,不久之后,就传来美术设计领域开始裁员的消息;2023年8月,字节旗下的AI对话产品更名为豆包,字节还在国外提供了coze、cici等产品。

2024年2月,OpenAI 发布了一段Sora生成的视频,也掀起了一段文生视频的浪潮。2024年6月,快手旗下的可灵视频生成大模型官网上线,在很长的一段时间里,占据了领先的地位(至今还是)。

2024年3月,月之暗面发布了支持200万上下文支持的聊天AI机器人服务Kimi,并且支持实时的互联网搜索,成功出圈,现在已经成为我主用的AI服务,日常有什么问题就会先去问问Kimi。

2024年8月,豆包支持实时语音通话,我女儿有两天跟豆包聊的不亦乐乎,引起了我的警惕,我叫停了。

2024年12月,Google终于发力了,旗下Gemini产品开放给所有人访问,支持语音,支持实时搜索;同时,aistudio也开放了gemini2.0,支持实时视频流;还有深度思考模型(think),解题能力据说已达博士水平,国外有人测试了几个博士水平的问题,一道题消耗5000美金的tokens,@安替说还是请博士解决吧;我用英文跟手机上的Gemini聊了一下天,非常自然,Gemini可以很容易成为一个免费的陪聊英文老师。

国内生成式AI产品/服务推荐

文本类(问题,搜索,写作)

推荐使用 Kimi.ai - 会推理解析,能深度思考的AI助手 ,支持实时搜索网络(联网搜索);支持图片、文档类附件,也就是说你可以传个图片/文档给她,问她关于图片、文档中相关信息的内容。现在我对搜索的使用减少了,有什么问题先问Kimi,往往可以更快的获得答案。(不过,对包括Kimi在内的所有大模型的答案都要慎重,大模型有可能胡说乱说,这也是不建议儿童在没有大人的监管下滥用大模型的原因)
豆包 - 字节跳动旗下 AI 智能助手 豆包也很不错的,随着字节的大力投入,其AI能力目前飞速进步。豆包还支持文生图和学术搜索(严谨问答,可靠来源)、音乐生成等。
其他可用的还包括:
讯飞星火大模型-AI大语言模型-星火大模型-科大讯飞。讯飞这家公司可能2B的基因比较重吧,搞什么都喜欢收费,之前想用他家的讯飞听说,发现费用还挺贵,就放弃了,今年手机自带的TTS都很好用了,免费。讯飞是靠语音智能起家的,主要是语音识别和语音生成,2015年左右有次在深交所技术大会上展示语音识别和生成功能,让我非常惊艳。但是大模型时代,这两块成了大模型的基本能力,开源的wishper效果都很好了,讯飞的领先优势没有了。他们家的AI服务没怎么用过,不评价了。
跃问 没怎么用过,看起来跟kimi差不多,支持联网搜索、图片和文档识别,支持文生视频。公司拿了腾讯的投资。
DeepSeek | 深度求索 开源模型,官网也提供对话服务,tokens比较便宜(适合开发者)。update@2024-12-28 DeepSeek是幻方量化搞出来的,就是那个做量化吞了上万张卡的公司。这两天出了一个v3的模型,测试成绩很好,@九原客评价仅次于Claude Sonet 、Gemini Flash 2.0、 GPT-4o,在第二梯队里排第一。
通义tongyi.ai_你的全能AI助手-通义千问 阿里的通义千问,看起来也不错,但是没有惊艳的感觉。可能人们对大厂的要求高,感觉也是不温不火。有小作文表示通义条线今年拿了3.25的考评,领导很不满意。不过阿里也投资了Kimi,根据《不要攒局》程苓峰的说法,大公司在创新领域一般做不过创业者。
智谱清言 清华团队创业,可能在技术上很强,但是大模型这个行业现在是靠推资源,小作文说字节明年的投资900亿在AI领域上,恐怕对国内其他大模型公司都是显著的威胁。智普也拿了阿里的投资,但似乎暂时也没看到什么亮点。

文生图

文生海报:即梦AI - 一站式AI创作平台,推上的大V 小互 @imxiaohu 在2024年12月9日 发推评价:字节即梦的图像中文字幕能力牛掰,海报设计师基本可以宣告失业了
简单教程:【教程_文生图】最简单的!AI毛绒美食教程 - 小红书

豆包:AI布道师宝玉@dotey 说(20241206),豆包App文生图支持中文文字,并且非常不错。

文生视频

可灵 AI - 新一代 AI 创意生产力平台 快手旗下的可灵目前(@2024年12月26日)是评价最好的。AI设计布道师歸藏(@guizang.ai) 对可灵赞不绝口。

给可灵 1.6 做了一个详细的测试,它就是现在最强的图生视频模型!写实图片生成视频居然可以完成 Veo 2 的牛排测试 。 风格化更是断档领先,我都怀疑 Veo2 有没有这么强 无论是 3D、动漫还是艺术画都不在话下 @20241219

腾讯混元文生视频 很受 @歸藏的好评,他在 2024.12.03发推评价:

混元视频生成模型整体效果非常厉害,在美学表现、稳定性、运动幅度的品质上都是一流的。中国风格特色内容的表现非常强,不只是古装内容,中国现代的内容也很符合现实。原生支持通过提示词实现镜头切换以及切换后 ID 保持一致的能力。在一些激烈运动场景的运动幅度非常大而且还能保证肢体和物理特性的稳定。非常佩服在这个阶段开源大规模模型的团队和公司,训练成本和人员成本真的很高。 很幸运在 Meta 拉跨的情况下,腾讯扛起了这个大旗。

因为是开源大模型,目前官网的服务应该主要是用于体验,在使用次数和性能上可能有较多限制,如果企业使用,可能还是首选可灵。

图生视频

文生视频是根据文本描述来生成视频,但是有时候希望基于一张或几张图片来生成视频,这样视频的生成可以通过图片来控制。

图生视频还是推荐可灵

辅助编程

国内产品暂时无法给出建议,因为我很少编程,偶尔写点小代码,上述任何一个文本类的大模型都可以胜任,一般我都用kimi。国内未见特别优秀的,海外倒是有非常不错的。

海外生成式AI产品推荐

文本类

首屈一指的当然是OpenAI家的chatgpt了,综合能力还是领先。不过国内访问有点麻烦,即使是使用梯子,也挑梯子,很多梯子所在的机房ip都被他封了。

随着Google在2024年12月发力,Gemini现在是我用的最多的国外AI服务了。有些问题国内的大模型不好好回答,有些问题是英文原生问题,这些场景下我会使用Gemini。相比chatgpt,基本能访问google的梯子就可以访问Gemini,并且我一台多年前的海外版手机自动就安装了Gemini,替代了原来的google assitant,可以随时跟他来一段语音对话,练习一下英语。

文生图

Midjourney 是之前最知名的。最近在国内的讨论似乎少了,因为国内的产品已经赶上来甚至赶超了。

文生视频/图生视频

OpenAI家的Sora亮相的时候非常惊人,本来也被寄予厚望,但是似乎被可灵比下去了。

辅助编程

编程类目前还是海外大模型的天下,推上宝玉结合他的使用情况,对大模型辅助编程做了一个简单的总结(20241212),如下:

Claude 写代码能力非常强、出活快,并且上下文很长,但是算法还不够好,有时候写程序的思路并不是很清晰,但是在 o1 的指导下可以发挥的更好。比如我就会让 o1 给出思路或者设计方案,让 Claude 去生成代码。IDE 我还是喜欢用 Cursor 一点,主要是它上下文控制比较好,当然很多人喜欢的 Windsurf 也是很不错的,至于 GitHub Copilot,已经由一个领先者变成了追赶者了,但用来写单元测试还是不错的。要做前端网页的话,v0.dev 是很有优势的,直接浏览器可以预览,把设计稿截图发过去就能生成个类似的网页。但如果从无到有设计个网页或者网站,Claude 的网页版我觉得比 v0 效果还好,你把一些基本的想法告诉它,它就能给你做出来个不错的网页。持续提要求甚至一个简单的网站都可以搭出来了

结语

自2022年11月OpenAI发布chatgpt以来,以大模型为基础的人工智能领域获得了大量的投资和关注,相关产品也大量涌现和快速迭代,很多原来优秀的产品不是自己更新换代,就是被别人超越,AI对人类社会的影响已经显著扩散,并将在接下来的若干年内,对人类社会有更深刻的影响。@歸藏 总结了AI搜索公司Exa CEO @WilliamBryk 在20241225日发表的长文:

  1. AI 发展迅速且影响深远
    • OpenAI 的 o3 模型标志着 AI 从大学水平迅速提升至博士水平
    • 这种转变速度之快令人震惊,但趋势是不可逆的
  2. 近期预测(1-3年)
    • 2025年将出现真正的 AI 代理,能够自动执行各种计算机任务
    • 数学和编程领域将首先被 AI 重度改变
    • 软件工程师短期内会获益(效率提升10倍),但角色会发生根本变化
    • 物理领域的改变会相对较慢,因为需要处理现实世界的限制
  3. 主要挑战和风险
    • 最大的障碍不是技术本身,而是人类因素(监管、社会稳定等)
    • 主要风险来自人类滥用 AI,而不是 AI 失控
    • 可能出现社会混乱、失业等问题
  4. 长期影响
    • AI 将根本改变科学研究方式
    • 可能带来突破性的科学发现
    • 最终可能导致人类社会的彻底转型
  5. 建议
    • 年轻人需要适应快速变化的世界
    • 重点发展问题解决能力和团队协作能力
    • 从个人成功转向追求集体成功来获得人生意义
  6. 总体态度
    • 对发展持谨慎乐观态度
    • 认为这是人类历史上最重要的时期之一
    • 呼吁大家共同努力确保 AI 转型朝积极方向发展

因此,本文所推荐的AI产品和服务也具有显著的时效性,如果有精力,后续我会定期更新和补充,如果3个月内无更新,其参考可能就要大打折扣了。

在文章的最后,向本轮生成式AI发展浪潮的原动力,Transformer的七位作者 致敬。