AI工具实用指南:免费版GPT4o

AI大家一定要先用起来,整个市场目前还处于争抢用户的增量环节,现在免费好用的大模型未来就不一定能白嫖了,且用且珍惜。无论是国外OpenAI的ChatGPT,还是微软Bing(必应)AI:copilot以及Anthropic Claude,这些顶级模型都有一定门槛,然而国内有没有平替好用的大模型?以及这些大模型能力方面有何差异该如何取舍?下面我将逐一分析。

国内

鉴于国内特殊网络环境,我就先介绍国内低门槛好用的一批AI大模型,也符合大多数人日常使用。

豆包:免费版GPT4o

豆包

虽说卷面分数不代表其真实能力,但就我个人使用体验而言,豆包的分数能够赶上GPT-4o是没有水分的,是有一定实力的。

强烈推荐使用其官方谷歌插件,以翻译作为切入点,不像OpenAI还在整的GPTs商店仍旧是个网页,我比较认可这种开发思路,要尽可能让AI进入人们的日常生活,去感受AI的便利,而不是让生活嵌入AI,变得僵化。

其中有个优化提示次功能,可以直接一键优化快速填充,降低不熟悉prompt的用户使用门槛。

搜索引擎卡,像一把尖刀直插搜索引擎腹地,用起来极为丝滑。举例来说,有一次当我用搜索引擎海底捞针般找答案,豆包直接给我总结出方法,我按照其操作,果然把问题解决了,刷新了我对它的认知。

image-20240711130545804

最牛的一点是,针对视频网站(B站,youtube)带字幕的视频,能够生成总结和每一小段带标题时间戳,点击即可跳转对应时间节点,这对于长视频来说简直是神器。

bilibili

youtube

秘塔AI搜索

秘塔AI搜索

image-20240711144537903

秘塔具有非常强结构化文本输出能力,思路非常清晰输入——输出,输入信息源从全网、文库、学术到播客,输出结果多样性展示,支持导出Word、PDF,脑图,大纲,生成演示文稿(PPT)。

重点讲信息源:

  • 全网:互联网资料,覆盖范围广,专业性弱。
  • 文库:研究报告文件,具有一定规范性,专业性不强,相较互联网更为严谨。
  • 学术:论文学术文献,专业性最强,具有一定阅读门槛。
  • 播客:各行各业的人,行业领域性区分更细致,不错的信息源。

image-20240711152653289

在使用过程中有待改进的地方,同时也是其他任何AI都要处理的问题:

  1. 信息源筛选:目前AI只能通过问题相关性来筛选出信息源A、B,问题是B会极大干扰最终输出的内容质量,对用户来说增加了筛选成本,也削弱了可信度,好比一粒老鼠屎坏了一锅粥。能满足用户需求的其实A、C,可以先通过相关性抓取排序,再对每个信息源进行打分,内容分数达到一定阈值才被引用,通过两个维度来筛选出A、C。

  2. 问题优化:信息传递是不断失真的,想办法在信息产生的源头减小失真度,就能削减每一级信息传递的偏移程度,提高最终输出的内容质量。问题无疑是信息产生的源头,好问题才能有好内容,如何让用户提好问题?

    • 明确模糊的概念,大多数时候我们脑海中只有一个朦胧的问题,对于我们究竟想要什么我们并不知道,把初始问题抛给AI大模型,大模型是无法给出我们想要的答案,即时我们反复修改问题,甚至把问题归为大模型能力不行。这时候让大模型不断去追问用户,同时不断预测用户真正想要问的问题,直到用户产生这就是我想问的问题茅塞顿开之感,问题之所以是问题,是因为问题没有被明确,有时问题一旦被明确就不存在了。

    如果能够让用户提出好问题,就能够极大提升用户体验,也能减少反复修改问题,导致生成答案的算力资源的浪费。

Kimi

长文本特性,书籍、文献、大段文本统统扔给它,它主要解决海量信息的保真性,AI最强记忆大脑,大模型由于其底层运行架构transformer,输入越多消耗的算力资源也会指数级上升,说实话我挺好奇月之暗面怎么解决这个技术问题的。

国外

ChatGPT

ChatGPT使用技巧

版本T0是目前最强大的模型,具有处理文字、图片和语音的多模态能力。在性能上,它遥遥领先于其他AI模型,同时也是性价比很高的选择,因此成为AI应用的首选。

作为一个经常使用AI的用户,我最常用的也是ChatGPT,因为它的优点确实很多。

关于GPT-4与GPT-4.0的对比,我发现GPT-4.0并未比GPT-4表现更好。推测OpenAI可能为了提高响应速度、减少等待时间和用户流失,在某种程度上牺牲了部分输出质量和性能。结果是GPT-4能解决的一些问题,GPT-4.0反而无法解决。如果你想获得更优质的结果,我建议使用经典的GPT-4插件,以获得更高质量的输出。

尽管存在一些限制,ChatGPT仍然非常强大。例如,我的这个博客的整体样式基本上是由ChatGPT-4修改而来的,最终成功运行。

我对OpenAI追求AGI(通用人工智能)的方向有些质疑。如果未来的GPT-5没有达到远超预期的效果,可能会导致AI领域泡沫破裂。

Bing AI:copilot

copilot和ChatGPT师出同门,但Altman还是对微软老大哥藏了一手,不给用最新大模型,防止教会徒弟饿死师傅。但不管其能不能匹敌GPT4o,就冲着免费门槛低,都得叫一声大哥不为过。能力相对GPT打7折,同时我前面说的两个问题(信息源筛选和问题优化)在copilot这里体现尤为明显,所以一般我的用法是先把初始问题扔给copilot,然后不断去问,最后找出我真正想问的问题输入GPT,因为现在GPT有一定免费额度,最大程度化利用。

Claude

Claude再进化,敲响文科专业丧钟「Claude 3.5 Sonnet vs GPT4o」

逻辑概念图像化表示

唯一能够和ChatGPT同台竞技的大模型,其他AI来了都得去小孩那桌,唯有Claude能和ChatGPT坐一桌。Claude拥有极为出色的代码能力和推理能力,远远超越其他大模型。

虽然Claude之前可能略逊GPT-4一筹,但相比后来经过暗中削弱的GPT-4o,Claude反而在多个方面取得了领先。有些GPT-4o无法解决的问题,Claude却能够解决。

在文学写作方面,Claude展现出更加人性化的一面。与GPT相对中立客观、不参杂情感的风格不同,Claude生成的文章更像是人类所写,具有丰富的情感表达。缺点是写文章时总是会在结尾莫名其妙升华主题,看来Anthropic怕像谷歌一样搞出舆论危机,承担风险。

Claude 3.5 Sonnet是其最新发布的模型。相比之前的版本,它运行速度更快,价格更便宜,输出文本质量更好。订阅用户还能享受额外功能,如右侧多出一个预览小窗,可以预览简单代码实现后的效果,省去了复制粘贴的麻烦。

如果您使用电脑查看本博客,就可以看到右侧的目录。这个目录完全是由Claude 3.5 Sonnet根据我的博客已有代码生成而来。

然而,Claude也有其缺点。最显著的问题是严重的封号现象和较高的注册门槛。我在注册过程中耗尽了所有已有邮箱,最后不得不采用较为复杂的方法:先用国外实体电话卡注册谷歌邮箱,再用这个谷歌邮箱注册Claude,才最终避免被封号。

Perplexity

和国内的秘塔AI搜索类似,都是基于RAG(搜索引擎增强)的AI搜索,只不过Perplexity可以采集全球信息源,目前用的少。值得一提的是,其会员可以使用游乐场来体验GPT4o、Claude3等最新其他大模型,感觉这点超值,特别是对于喜欢探索新模型新功能的人来说。

视频

没拿到内测资格,也不好描述使用感受,直接看视频胜过描述。

可灵

image-20240711235247727

致富经:异形养殖,赋能乡村旅游,科技与乡村的融合,有种奇特感受,在生成吃东西视频可灵确有独到之处。

Runway

image-20240711235044839

AI艺术时装秀,物体一致性比较好,但认真看还是有不少瑕疵,不过AI确实远超现实想象。

音乐

AI制作音乐还是要具有音乐审美,否则做出来只能自娱自乐,不过那也够了。

Suno

image-20240711234055419

Suno AI热唱【萨菲罗斯男人中的男人】,AI音乐比较出圈视频,特别洗脑。以后听到的歌会不会都是AI生成的?

网易天音

image-20240711233806880

【宝次郎の夏天?】,基本还原了原曲的腔调,让我一度很好奇是怎样生成的,看评论才知道用网易天音做的。

语音

Whisper

OpenAI开源的语音识别大模型,能将多种语言的语音转换文字,超强,缺点是吃本地配置,转换特别慢。

CapsWriter

image_30

阿里开源的语音识别大模型,能识别中英文语音并将其转换成文字,速度特别快,基本不怎么吃配置。

总结

国内使用首推豆包,国外首推ChatGPT,当然可以根据自身实际需求配合其他AI工具一起使用,不要高估目前AI大模型的水平,没有一个AI能解决所有问题。其次为什么没有文心一言,我的回答是我对百度抱有偏见,通义千问还没达到我评测的及格水平。目前AI发展日新月异,后续我也会不断更新本文,可以通过文章最下方的RSS链接订阅博客,或者通过我之前提到的RSS工具

目录

签名
天地生日月,神明寄乾坤
RSS