最近总想写点东西,那就聊聊AI吧。

 

引言:风口之下的群体焦虑

最近两三年,AI或者AIGC的讨论太多了。无论是一线大城市还是十八线小县城,上到九十九,下到刚会走,只要通网的地方,都能听到AI这个词。特别是之前国产大模型(比如DeepSeek)的爆发,让这把火烧得更旺了。😅

加上现在的网络环境,很多人为了流量什么都说得出来,而贩卖焦虑就是涨流量的最好办法。动不动就“沸腾”“封神”“碾压”“完爆”“变天”等等等等….

看得多了听得多了,很多人开始迷茫焦虑了: “我是不是得学AI了?” “学了这个能涨工资吗?” “XX职业会不会被淘汰”“如果不学,我是不是马上就要失业了?” “外面几千块的AI课,到底要不要报?”

作为一个比较喜欢“折腾”的人,我算是相对较早开始体验和观望的一批人(虽然没啥成就)。从最早的ChatGPT文本对话,到后来的AI生图(Midjourney, Stable Diffusion)、AI克隆音频、AI生视频(runway,Sora, 可灵,即梦),再到现在的AI编程/工作流(Cursor,dify,扣子,N8N),我都深度体验过。

今天就抛开那些高大上的术语,用大白话跟大家聊聊我的一些拙见和想法。

 

一、 祛魅:AI到底是个啥?

很多人一听到大模型、多模态、Agent、MCP……脑子就大了。

腾讯视频】 王宝强看借条:啥啥啥这写的都是啥

其实完全没必要被这些词吓倒。我们换个角度,别把它当成一个冷冰冰的软件,把它想象成一个云端的全能创意工作室

  1. AI基座模型 = 工作室里的专家团以前的AI,工作室里只有一个老学究(语言模型)他只懂文字,只能陪你聊天、写文章。 现在的AI厉害了,工作室扩招了,设置了更多的岗位,扩招了一些不同领域的牛人。大家在一起办公,这就是所谓的多模态
  • 老学究:负责查资料、写文案(文本能力)。
  • 大画家:负责看图、修图、画图(视觉能力)。
  • 剪辑师:负责看视频、做视频(视频能力)。
  • 摄影师/特效师:负责出视频做效果(生视频能力)。
  • 声优:负责模仿声音(音频能力)。
  1. 我们平时用的APP = 工作室的业务经理手机里的豆包、Kimi等APP,其实就是这个工作室对外接待的“业务经理”(或者是前台接待)。 你并没有直接跟里面的画家或学究对话,你是把需求告诉了经理:
  • 你说“帮我写个周报”,经理就转头找“老学究”要把稿子给你。
  • 你说“帮我画个头像”,经理就转头找“大画家”画好给你。
  • 你说“帮我总结这段录音”,经理就找人听完告诉你内容。

至于那些帮你做PPT、写公文的所谓“神器”,本质上就是这个工作室推出的“套餐服务”。本来你需要跟经理废话半天描述需求,现在他们把流程打包好了,你点个“PPT套餐”的按钮,里面的专家团就按标准流程给你出活儿。

AI现在的使用门槛已经极低了。你不需要懂背后的专家是怎么工作的,你只需要找到对应的入口,学会像甲方一样,清楚地告诉业务经理你的需求就行了。

 

二、 核心:关键在你的脑子

现在市面上很多AI课,都是割韭菜。为什么?因为他们教的是“说明书”,而你需要的是“想法”。(叠甲:也有少数有价值的,肯定不能一棒子打死。)

不知道你有没有意识到一个问题,不管什么东西突然火了之后,卖课的人永远都能赚到第一笔钱。主要就是打的信息差。

目前AI的发展已经很牛了,对于普通人来说,如何清晰地描述自己的想法,才是重点,才是最需要学习。比如和AI交流的时候的Prompt 提示词,它的本质就是:说人话,说清楚话。

只有你自己条理清晰、逻辑严密,AI才会给你更好的结果。如果你自己脑子一片浆糊,AI给你返回的也只能是一坨浆糊。就像刚才的举例,这是一个团队,你的需求不明确的时候,对接的人根本不知道派哪个人处理你的任务,这怎么行呢。让语文老师帮你做数学题可不行。

举个最直观的例子(审美与积累):

场景:AI生图

  • 小白用户对AI:“给我画一个好看的风景画。”
    • AI反应:两手一摊,给你随机生成了完全不一样的东西。
  • 有积累的高手对AI:“给我画一张带有宫崎骏动画风格的风景画,画面要治愈,要有蓝天白云和草地,远处有一辆复古的火车经过,构图要开阔。”
    • AI反应:精准输出你想要的画面。

看到了吗?差距不在于你有没有学AI课,而在于你知不知道宫崎骏风格这个概念,懂不懂描述画面。

如果你平时没有这方面的知识积累,你很难向AI描述出那种感觉。生视频、生音乐也是同理。你得知道什么是“运镜推拉摇移”,你得知道什么是“摇滚风”还是“中国风”,才能引导AI去生成。

所以提示词才是AI的上限,并不是看几个教程就能提高的,它取决于你日常知识积累和逻辑思维的上限。

 

三、 实操:不同领域的心法

不同类型的AI工具,虽然界面不一样,但使用起来的逻辑万变不离其宗。按类别给大家拆解一下,所谓的“门槛”到底在哪儿:

  1. 文字与多模态大模型(最基础)现在的主流大模型(像DeepSeek,豆包,ChatGPT,Gemini等)基本是六边形战士,什么都能干。
  • 直接丢文件,明确要格式。 这里的关键在于你对“输出格式”的控制。
    • 如果你想要一个表格,别只说“帮我整理”,要说:“请用表格格式输出,包含XX、XX几列”。
    • 如果你想要程序能读取的数据(比如JSON),最好直接给它一个演示样例,告诉它:“就像这样:{key: value},照葫芦画瓢给我”。
  1. 生图(文生图、图生图)这一块最考验审美脑子里的词汇量
  • 文生图:AI不知道你脑子里的画面,你得告诉它。
    • 这就是平时知识积累的作用。如果你不知道那叫“宫崎骏风格”,你可能需要费劲巴拉地描述“线条要简单、颜色要鲜艳、云彩要大块……”,但如果你知道这个词,直接喂给AI就行。
  • 图生图:比如做照片转绘、装修风格修改。这考验的是你找参考图的能力。参考图找得对,AI干活才不累。
  1. 生视频(文生视频、视频转画风)跟生图很像,但多了一个维度:时间与运动
  • 你得懂一点导演的黑话。 除了画面描述,你必须得描述镜头怎么动。是推拉摇移?是从左到右?是特写变全景?如果你只会说“让它动起来”,AI就会乱动。你需要明确:“镜头缓慢向前推进,人物向右转头。”
  1. 生音乐:懂分类,懂描述。 这取决于你对音乐类型的了解。是流行?摇滚?还是中国风?R&B? 前提是你自己得知道这些风格听起来是什么样,才能准确描述。不然你想要个激昂的,结果描述偏差生成了个悲伤的。
  1. 声音克隆与生成 。这一块更多是考验对工具的调教取巧
  • 声音生成 (TTS):想让AI读得有感情,不能光给文字。你得学会用标点符号、断句来控制它的呼吸感。甚至有时候要用同音字(比如用“得”代替“地”)来强行纠正它的读音和语气。
  • 声音克隆素材决定生死。 想克隆一个好声音,你必须提供干净、无回声、高保真的录音素材(干音)。如果你在嘈杂的马路边录一段音给AI,神仙也克隆不出好效果。严格按照步骤训练,素材好,结果才好。
  1. 工作流整合与自动化(Agent, Dify, Coze等)这是高阶玩法,不考验技术,考验逻辑性
  • Dify/扣子/n8n:用可视化的方式把一堆功能串起来。 比如你想做一个“全自动发视频机器人”,你的脑子里得先有流程图: 大模型写脚本 -> 根据脚本生成语音 -> 根据脚本提取关键词生图 -> 图片+语音合成视频。 然后在画布上加上对应的API串起来即可,这本质上是在搭积木。
  • Agent/MCP:让AI拥有“手和脚”,自动化运行一些内容,比如自动去网页抓取数据,自动整理发邮件,主打一个方便快捷。
  1. AI编程(对我改变最大的领域)这一点必须单独拿出来细说。
  • 过去没AI的时候:我想写个小工具,得去百度搜代码,复制粘贴,报错了再复制错误去搜,效率极低,稍微复杂点就放弃了。
  • 后来AI刚出的时候:依旧需要复制粘贴,但是快了很多,可以直接针对性的复制了。
  • 现在:使用像Cursortraeqoder这样的新型编辑器。你不需要自己写代码,你只需要在对话框里做“产品经理”,输入需求就行,AI就会自动创建文件,自动写代码,自动帮你运行。

核心就是 清晰描述需求,能看懂一点点报错。

比如:“我想做一个网页版的倒计时器,背景是黑色的,数字是红色的,到时间了要弹窗提醒”。编辑器能直接读取你的本地文件,帮你修改代码甚至安装环境。 注意:虽然AI能写,但你最好能看懂基础的报错信息(比如“变量未定义”),这样才能把错误喂回给AI,让它高效修正。不要指望一次描述就完美,得像这就跟人沟通一样,多来几轮。

举个我最近做的例子:AI音乐分析网站

这个看起来神奇,其实拆解开来很简单:

  1. 用户上传音乐文件。
  2. 代码调用一个多模态大模型。
  3. 告诉大模型:“分析这个音频,把风格、BPM、乐器分析出来,并以JSON格式返回给我。”
  4. 拿到这个JSON数据,展示在网页上。

这个场景就很像那些APP,对大模型做了一些封装,预设了一些内容。对于用户来说,他只是“上传->等待->看结果”。

四、 现实:AI是放大器,差距在拉大

说了这么多技术,其实核心就一个事: AI只是工具,决定产出质量的,永远是使用AI的那个人。

强者在哪里都是强者,因为他们知道得多,想法多。AI对于他们来说,是如虎添翼,是效率倍增器。 而对于缺乏基础认知的人来说,AI可能只是一个更高级的聊天窗口。

  1. 扎心的数字鸿沟

这里有个很扎心的现实: 有些人原本连搜索引擎都不会用,遇到问题不知道怎么提问,在AI时代,他们大概率也用不好AI。 有些人连Steam官网都找不到,都要去淘宝花钱买,估计现在连DeepSeek的官网在哪都不知道。 还有一些人,明明教程和截图里都写得明明白白,他还是找不到去哪儿下载。 这已经不是AI技术的问题了,这是基础的学习能力问题。还有一些网络原因没办法访问的网站,更是难上加难。

  1. 抽卡后期的真相

别指望AI是一键生成的魔法。

  • AI生成就像抽卡:在项目实战中,AI再好,也不是一次就能成功的。你需要不断地尝试,像游戏抽卡一样,直到“抽”到最合适的那一张。
  • 不能完全依赖:所有用AI生成的内容,无论是图片、视频还是代码,都需要搭配后期的流程处理。AI负责从0到80分,剩下的20分精品化,必须得靠人来修饰和整合。
  • 团队的认知:如果项目赶鸭子上架,指望AI救火,那通常不会有好结果。特别是如果团队里其他人还是用传统眼光看待AI,配合起来会非常痛苦。

不会描述也是一种无奈,比如我,有时候脑子里的画面很清晰,但描述能力有限,没办法精准地转化成文字告诉AI,这种“由于自己表达能力不足而无法发挥AI全力”的感觉,也是一种痛苦。

 

五、 如何学习:打破信息差与付费思维

很多人问怎么学,其实完全不需要报班。重点在于打破“信息差”和建立正确的“付费观”。

  1. 保持敏感,多刷多看 只要多关注几个AI相关的博主或资讯,你总能发现新的工具。只要看到新的,别犹豫,立刻去官网注册账号试一试。很多时候,谁先试了,谁就先掌握了先机。
  2. 看官方文档(最快路径) 每个AI平台(如Midjourney, DeepSeek,即梦,可灵等)都有官方的文档或案例库。别去听二道贩子瞎讲,直接看官方给出的优秀案例和提示词,了解不同平台的侧重点,这是最正统的学习路子。
  3. 模仿是最好的老师 看到别人做出的好效果,去思考他是怎么描述的,甚至直接把他的图丢给AI反推提示词。一定要利用好AI,什么都可以发给他,不懂的就发给他。
  4. 关键建议:要舍得花钱(特别是音视频) AI时代,特别是在音视频生成领域,短期内是很难完全免费的。 这一点必须得认清。背后的算力成本极高,好的模型都是要烧钱的。
  • 不要只盯着免费版:免费版往往生成慢、效果差、不仅浪费时间,还会让你误以为“AI也就这水平”。
  • 花小钱办大事:一定要舍得花几十块钱开个会员试一试。当你用上“满血版”的工具,你会发现效率和质量的提升是巨大的,获得的收获远超那点订阅费。这也是拉开差距的一个原因。实在不行就去某宝某鱼租个临时的账号用一下,完全不需要折腾复杂的注册扣费。

 

六、 个人感悟:想法永远大于工具

这两年,我通过AI折腾了各种各样的项目,做成的少,烂尾的多。

  1. 编程方式的进化:从“搬运工”到“产品经理”, 对我个人而言,AI带来最大的改变就是编程。
  • 最早用ChatGPT写脚本,我是“搬运工”。一个文件一个文件地复制,运行报错了,再把错误复制回去,反复粘贴。虽然笨,但能解决比如“PR降级”这种简单的小工具问题。
  • 现在用Cursor,我是“产品经理”。只需要清晰描述需求,编辑器直接读取本地代码,修改、安装环境一气呵成。用得多了,我对编程语言的理解也加深了,越用越顺手。
  • 但是后果就是:知道的越多,能做的越多,想法就越杂,什么都想做,最后反而什么都做不好。
  1. 以前觉得做一个带数据库的网站难如登天,现在AI加持下,做APP、做桌面程序、做嵌入式仿佛触手可及。于是我开始了疯狂的“挖坑”之旅:
  • 做成的(工具类居多):跨平台文件对比工具、AI音乐分析网站、音效名称翻译插件、简单的格式转换网页。这些逻辑相对单一,AI能很好地胜任。
  • 烂尾的(复杂需求)
    • 音视频审阅网站:核心功能写出来了,也实现了分享和评论,但精力有限,细节打磨不下去,搁置中。
    • 文件拷贝工具:跑起来容易,但要跑得稳、跑得快(高性能),发现极其复杂,作罢。
    • 脚本自动生成分镜:流程实现了,但是受限于API的价格成本太高,搁置。
    • 分镜还原:技术能实现,整个流程也跑通了,代码都写好了,但找不到应用渠道和变现路径,搁置。
  1. 技术产品 最近我想做一个私人的菜谱小程序,跟AI磨了半天,终于做出了一个能用的版本。结果打开小红书一搜,别人做的界面比我漂亮一百倍,功能还丰富实用。😅

这件事让我深刻体会到:做工具简单,但做一个好用的产品很难。

  • 技术门槛低了:AI能帮你把代码跑通。
  • 产品门槛高了:用户的需求千奇百怪,审美要求越来越高。你不仅要懂代码,还得懂UI、懂交互、懂痛点。还要做出差异化。
  1. 核心感悟 偶尔在网上刷到一些博主,用很简单的AI功能(比如简单的利用AI记录笔记),但是无论是界面还是功能都极具个性和创意。 那种灵光一现的想法,是任何教程都带不来的。

不要觉得技术是壁垒。现在技术已经不是壁垒了,你的脑洞、审美、对生活的观察,才是真正的壁垒。AI能帮你解决代码报错,但解决不了产品逻辑的硬伤。 至于那些连基本搜索都不会、连正版软件官网都找不到的人,在AI时代被拉开差距是必然的。因为AI本质上是知识的放大器,0乘以任何数,依然是0

 

七、 常用AI工具

抽时间单独开一篇文章做整理吧,这篇暂时就先不写了。

 

八、 总结

所以,别再焦虑AI了。你真正需要做的,是回到你的专业领域去深耕,其他事件去提升你的审美,去积累更多的知识,去锻炼你的逻辑思维。当你的脑子里有足够的“货”,再拿起AI这把绝世好剑时,你自然就知道该怎么挥舞它了。

愿我们都能做驾驭工具的人,而不是被工具吓倒的人。

 

由于篇幅有限,有些内容可能没有涉及,欢迎评论区讨论。

之前建了一个剪辑迷的微信群,欢迎加入,人数超了没办法扫码添加,可以加我好友拉你。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。