AI工具实用指南：免费版GPT4o

AI大家一定要先用起来，整个市场目前还处于争抢用户的增量环节，现在免费好用的大模型未来就不一定能白嫖了，且用且珍惜。无论是国外OpenAI的ChatGPT，还是微软Bing（必应）AI:copilot以及Anthropic Claude，这些顶级模型都有一定门槛，然而国内有没有平替好用的大模型？以及这些大模型能力方面有何差异该如何取舍？下面我将逐一分析。

国内

鉴于国内特殊网络环境，我就先介绍国内低门槛好用的一批AI大模型，也符合大多数人日常使用。

豆包：免费版GPT4o

虽说卷面分数不代表其真实能力，但就我个人使用体验而言，豆包的分数能够赶上GPT-4o是没有水分的，是有一定实力的。

强烈推荐使用其官方谷歌插件，以翻译作为切入点，不像OpenAI还在整的GPTs商店仍旧是个网页，我比较认可这种开发思路，要尽可能让AI进入人们的日常生活，去感受AI的便利，而不是让生活嵌入AI，变得僵化。

其中有个优化提示次功能，可以直接一键优化快速填充，降低不熟悉prompt的用户使用门槛。

搜索引擎卡，像一把尖刀直插搜索引擎腹地，用起来极为丝滑。举例来说，有一次当我用搜索引擎海底捞针般找答案，豆包直接给我总结出方法，我按照其操作，果然把问题解决了，刷新了我对它的认知。

最牛的一点是，针对视频网站（B站，youtube）带字幕的视频，能够生成总结和每一小段带标题时间戳，点击即可跳转对应时间节点，这对于长视频来说简直是神器。

bilibili

youtube

秘塔AI搜索

秘塔具有非常强结构化文本输出能力，思路非常清晰输入——输出，输入信息源从全网、文库、学术到播客，输出结果多样性展示，支持导出Word、PDF，脑图，大纲，生成演示文稿（PPT）。

重点讲信息源：

全网：互联网资料，覆盖范围广，专业性弱。
文库：研究报告文件，具有一定规范性，专业性不强，相较互联网更为严谨。
学术：论文学术文献，专业性最强，具有一定阅读门槛。
播客：各行各业的人，行业领域性区分更细致，不错的信息源。

在使用过程中有待改进的地方，同时也是其他任何AI都要处理的问题：

信息源筛选：目前AI只能通过问题相关性来筛选出信息源A、B，问题是B会极大干扰最终输出的内容质量，对用户来说增加了筛选成本，也削弱了可信度，好比一粒老鼠屎坏了一锅粥。能满足用户需求的其实A、C，可以先通过相关性抓取排序，再对每个信息源进行打分，内容分数达到一定阈值才被引用，通过两个维度来筛选出A、C。
问题优化：信息传递是不断失真的，想办法在信息产生的源头减小失真度，就能削减每一级信息传递的偏移程度，提高最终输出的内容质量。问题无疑是信息产生的源头，好问题才能有好内容，如何让用户提好问题？
- 明确模糊的概念，大多数时候我们脑海中只有一个朦胧的问题，对于我们究竟想要什么我们并不知道，把初始问题抛给AI大模型，大模型是无法给出我们想要的答案，即时我们反复修改问题，甚至把问题归为大模型能力不行。这时候让大模型不断去追问用户，同时不断预测用户真正想要问的问题，直到用户产生这就是我想问的问题茅塞顿开之感，问题之所以是问题，是因为问题没有被明确，有时问题一旦被明确就不存在了。
如果能够让用户提出好问题，就能够极大提升用户体验，也能减少反复修改问题，导致生成答案的算力资源的浪费。

Kimi

长文本特性，书籍、文献、大段文本统统扔给它，它主要解决海量信息的保真性，AI最强记忆大脑，大模型由于其底层运行架构transformer，输入越多消耗的算力资源也会指数级上升，说实话我挺好奇月之暗面怎么解决这个技术问题的。

国外

ChatGPT

ChatGPT使用技巧

版本T0是目前最强大的模型，具有处理文字、图片和语音的多模态能力。在性能上，它遥遥领先于其他AI模型，同时也是性价比很高的选择，因此成为AI应用的首选。

作为一个经常使用AI的用户，我最常用的也是ChatGPT，因为它的优点确实很多。

关于GPT-4与GPT-4.0的对比，我发现GPT-4.0并未比GPT-4表现更好。推测OpenAI可能为了提高响应速度、减少等待时间和用户流失，在某种程度上牺牲了部分输出质量和性能。结果是GPT-4能解决的一些问题，GPT-4.0反而无法解决。如果你想获得更优质的结果，我建议使用经典的GPT-4插件，以获得更高质量的输出。

尽管存在一些限制，ChatGPT仍然非常强大。例如，我的这个博客的整体样式基本上是由ChatGPT-4修改而来的，最终成功运行。

我对OpenAI追求AGI（通用人工智能）的方向有些质疑。如果未来的GPT-5没有达到远超预期的效果，可能会导致AI领域泡沫破裂。

Bing AI：copilot

copilot和ChatGPT师出同门，但Altman还是对微软老大哥藏了一手，不给用最新大模型，防止教会徒弟饿死师傅。但不管其能不能匹敌GPT4o，就冲着免费门槛低，都得叫一声大哥不为过。能力相对GPT打7折，同时我前面说的两个问题（信息源筛选和问题优化）在copilot这里体现尤为明显，所以一般我的用法是先把初始问题扔给copilot，然后不断去问，最后找出我真正想问的问题输入GPT，因为现在GPT有一定免费额度，最大程度化利用。

Claude

Claude再进化，敲响文科专业丧钟「Claude 3.5 Sonnet vs GPT4o」

逻辑概念图像化表示

唯一能够和ChatGPT同台竞技的大模型，其他AI来了都得去小孩那桌，唯有Claude能和ChatGPT坐一桌。Claude拥有极为出色的代码能力和推理能力，远远超越其他大模型。

虽然Claude之前可能略逊GPT-4一筹，但相比后来经过暗中削弱的GPT-4o，Claude反而在多个方面取得了领先。有些GPT-4o无法解决的问题，Claude却能够解决。

在文学写作方面，Claude展现出更加人性化的一面。与GPT相对中立客观、不参杂情感的风格不同，Claude生成的文章更像是人类所写，具有丰富的情感表达。缺点是写文章时总是会在结尾莫名其妙升华主题，看来Anthropic怕像谷歌一样搞出舆论危机，承担风险。

Claude 3.5 Sonnet是其最新发布的模型。相比之前的版本，它运行速度更快，价格更便宜，输出文本质量更好。订阅用户还能享受额外功能，如右侧多出一个预览小窗，可以预览简单代码实现后的效果，省去了复制粘贴的麻烦。

如果您使用电脑查看本博客，就可以看到右侧的目录。这个目录完全是由Claude 3.5 Sonnet根据我的博客已有代码生成而来。

然而，Claude也有其缺点。最显著的问题是严重的封号现象和较高的注册门槛。我在注册过程中耗尽了所有已有邮箱，最后不得不采用较为复杂的方法：先用国外实体电话卡注册谷歌邮箱，再用这个谷歌邮箱注册Claude，才最终避免被封号。

Perplexity

和国内的秘塔AI搜索类似，都是基于RAG（搜索引擎增强）的AI搜索，只不过Perplexity可以采集全球信息源，目前用的少。值得一提的是，其会员可以使用游乐场来体验GPT4o、Claude3等最新其他大模型，感觉这点超值，特别是对于喜欢探索新模型新功能的人来说。

视频

没拿到内测资格，也不好描述使用感受，直接看视频胜过描述。

可灵

致富经：异形养殖，赋能乡村旅游，科技与乡村的融合，有种奇特感受，在生成吃东西视频可灵确有独到之处。

Runway

AI艺术时装秀，物体一致性比较好，但认真看还是有不少瑕疵，不过AI确实远超现实想象。

音乐

AI制作音乐还是要具有音乐审美，否则做出来只能自娱自乐，不过那也够了。

Suno

Suno AI热唱【萨菲罗斯男人中的男人】，AI音乐比较出圈视频，特别洗脑。以后听到的歌会不会都是AI生成的？

网易天音

【宝次郎の夏天？】，基本还原了原曲的腔调，让我一度很好奇是怎样生成的，看评论才知道用网易天音做的。

语音

Whisper

OpenAI开源的语音识别大模型，能将多种语言的语音转换文字，超强，缺点是吃本地配置，转换特别慢。

CapsWriter

阿里开源的语音识别大模型，能识别中英文语音并将其转换成文字，速度特别快，基本不怎么吃配置。

总结

国内使用首推豆包，国外首推ChatGPT，当然可以根据自身实际需求配合其他AI工具一起使用，不要高估目前AI大模型的水平，没有一个AI能解决所有问题。其次为什么没有文心一言，我的回答是我对百度抱有偏见，通义千问还没达到我评测的及格水平。目前AI发展日新月异，后续我也会不断更新本文，可以通过文章最下方的RSS链接订阅博客，或者通过我之前提到的RSS工具。