你现在的位置: 首页 - 综合 - 正文

新 ,字节持续卷性价比豆包模型上

作者 : | 分类 : 知识 | 2025-07-04 08:25:28

这两天,豆包字节又出手了 ,模型一口气放出一堆大货 。上新

豆包大模型1.6、字节豆包·视频生成模型 Seedance 1.0 pro 、持续豆包·语音播客模型 ,卷性价比豆包·实时语音模型...全家桶式上新,豆包看着热烈。模型

假如你仅仅扫一眼上述产品 ,上新或许觉得便是字节大厂又来了一波例行晋级 ,没什么特其他 。持续现在AI圈更新节奏这么快  ,卷性价比新模型 、豆包版别号、模型榜单名次一大堆  ,上新的确不太简单提起爱好 。

但略微往下看一看 ,会发现这次字节的做法不太相同。它并没有靠一两个参数或许演示视频来抢风头 ,而是开端把模型才能做成一整套“能直接跑起来”的运用,从文字、图画 、视频,到语音 、操作体系 ,全都串在了一同 ,并且不少是直接挂进了豆包APP 、火山方舟这些现已在用的产品里 。

咱们就从两个中心产品说起。

Seedance 1.0 Pro 实测体现 :

安稳、成型,但仍有鸿沟。

假如只看热度,这几个产品中 。Seedance应该是被重视度最高的了 。

它刚上线就登上了第三方榜单Artificial Analysis的文生视频和图生视频两项榜首 ,超过了可灵2.0和谷歌的Veo 3 。榜单怎样评的咱们能够再评论,但至少阐明在业内规范下 ,Seedance的生成作用现已达到了干流模型中的较好水平。

咱们来看下这个模型的根本情况。

Seedance 1.0 Pro支撑文字和图片输入 ,能生成10秒左右的1080p视频,支撑2-3个镜头切换。它的首要特点 ,是着重镜头之间的连贯性和内容的安稳性 。

这点在之前的视频生成模型里,的确是个短板 。许多模型尽管能出图画,但内容连不起来 ,主角忽然消失或许布景颤动都很常见 。

Seedance处理这个问题的方法 ,是把每个镜头的内容用文字描绘得更细 ,官方叫「精准描绘模型」 。它先生成一段描绘 ,然后再依据这个描绘练习视频。这种方法能让模型更好地知道该生成什么内容,也更简单操控住动作和细节。

Seedance能生成的视频风格也比较多样 ,能够支撑航拍 、榜首人称 、动画、水墨等多种风格。这点其实各家模型都有相似才能,仅仅Seedance在这方面的完结度和一致性更高一些 。

生成速度方面,5秒的1080p视频只需大约40秒 ,这个速度归于现在职业中等偏上的水平 。

来看一下咱们实测的效果(每个维度咱们都测验了多个case,篇幅约束只展现其间的一个):

镜头言语 。

,时长00:05。

prompt :夜晚的加油站,一个男人戴上头盔骑上摩托车,发起,驶出油站,镜头跟拍他的背影穿过大街 ,途中掠过霓虹招牌和迎面驶来的车辆。

这段首要是测验Seedance的快速运动+接连镜头才能 ,看它有没有编排感,能不能Hold住快节奏 。

成果仍是能够的 。骑上摩托车时是一个典型的近景静态镜头,画面很洁净。发起的瞬间光影有了改变,镜头在车发动后跟着往前推动 。

Seedance 在镜头言语这块,能了解根本拍法;节奏上有操控,不会一顿快切、也不会呆板地不动;镜头转场不是很僵硬堆叠 ,可是它对杂乱轨道、非线性镜头的了解还不行安稳。

物理运动。

,时长00:05。

prompt:雨中,一个穿风衣的男人奔驰穿过狭隘的大街,踩过水坑,雨水四溅 ,镜头从后侧跟拍 。

看动作+环境搅扰下的运动安稳性 。成果比较稳 。奔驰时人物姿态正常 ,地上的确有积水反光,踩到水坑的时分,地上有显着的水花溅起  ,镜头也给了点前摇的动态 。雨水自身是做出来了 ,但略微有些贴图感 ,也便是说是视觉作用 ,但没有显着的深度和飘动轨道 。

但整个奔驰过程中人物没崩 ,衣服也不是贴在身上的那种塑料感,而是有细微飘动 ,这就现已阐明Seedance在动态建模上的一致性操控才能比较强了。

人物扮演。

,时长00:05。

prompt:拳击手被击倒,尽力挣扎着站起来  ,脸上满是汗水和顽强。

Seedance 1.0 Pro在心情这一块没有做到极致,但比起曩昔同类模型 ,它现已迈出了一大步 。表情操控才能还在进化中 ,细节依然有约束,比方嘴角和眼角的肌肉反响不行细腻,面部改变也不总是接连的。但它的确能够体现出“笑 、担忧、惊慌 、严重 、坚决”这些根底心情,并且不是固定脸谱,而是能跟着上下文改变体现方法。

这次模型发布之后,Seedance现已接入了即梦(视频3.0 Pro)和豆包APP(底部的「相片动起来」),用户能够直接运用,也能够经过火山引擎API接入自己的事务。在价格上也比较低,每千tokens只需1分5 ,相当于每条5秒视频大约3.67元  。在大批量视频需求下 ,这个本钱归于比较可控的规划 。

不过 。,Seedance现在依然有一些约束。比方生成时长根本操控在10秒以内 ,镜头切换尽管支撑了2-3个,但还没看到更杂乱脚本的才能。生成也不是很安稳 ,想要得到满足的视频,无法脱节多roll的命运。 。

豆包1.6:。

在多模态和操作上迈了一步。

再来看豆包1.6,这是这次发布中更倾向通用模型的更新 。它首要更新了三个版别 :主力版(doubao-seed-1.6) 、深度考虑版(doubao-seed-1.6-thinking)和极速版(doubao-seed-1.6-flash)。豆包1.6全体才能进入榜首队伍 ,在多项威望评测中得分提高显着 ,特别是数学和推理相关使命。

详细来看,这一代模型加强了边想边搜和DeepResearch才能  。现在你能够从火山引擎的AI体会中心试用 。

用户能够直接恳求它完结某些杂乱使命 ,模型能够拆分使命、查找材料 、提炼内容,终究生成陈述 。这类功用咱们在GPT-4和Claude里也能看到,不过豆包的方法更适合国内用户,点开即用 ,不需求了解杂乱操作流程 。

豆包1.6最强的仍是多模态的有用才能。不是说能识图 、能看视频就算多模态 ,而是把这些才能落到详细场景里 。

这类使命不只依靠言语生成 ,而是能把图画、动作 、提示词之间的信息整合起来,而豆包1.6的确在这个方向上做了一些有用测验 。

另一个值得一提的点是操作才能。AgentKit现在支撑图形界面操作,能够翻开网页、填写表单 、阅读图片 、下单预订。

比方输入“翻开豆瓣电影 ,找今天在北京正在上映的电影,挑选一部评分最高的,翻开购票页面并截图逗留。”它会顺次翻开网站 、查找电影 、挑选条件 ,终究再承认下单。这种功用的完结度现已不低 ,适合做一些流程重复 、逻辑明晰的轻使命。

价格方面,豆包1.6也重新定了战略 。现在一切使命都选用一致定价模型,不管是文字生成仍是图画剖析 ,价格按输入长度区分,最常见的0-32K区间是输入0.8元/百万tokens,输出8元/百万tokens。和豆包1.5thinking比起来,归纳本钱降低了大约63% 。简单说,价格更挨近豆包1.0 ,但才能是它的多倍。

OpenAI 卷才能,字节在卷什么?

这次更新背面 ,其实是字节模型战略的一种连续 。它并没有在单一模型参数上卷得特别凶 ,而是着重组合才能和产品落地  。

在To C端  ,豆包现已在做APP化  ,用“谈天+东西”的形状把模型包装起来;而在To B端 ,它依托火山引擎供给一整套AI服务 ,从根底模型API到完好处理方案 。字节大模型的更新节奏不是盲目提速 ,而是协作事务东西一同同步走 ,比方最近更新的PromptPilot(提示词调优东西) 、AgentKit(智能体开发渠道)、多模态工作台、乃至是视频生成场景的Seedance,都和模型不是分裂的 ,而是集成式规划。

这和OpenAI、百度的道路比较 ,是有差异的 。OpenAI持续把要点放在通用性极强的超级模型上,比方GPT-4o就把语音、图画 、文字组成成一个一致的输入输出逻辑 ,方针是成为人类界面;百度尽管也做了许多产业链整合,但仍保存较多渠道化概念  ,部分场景需求开发者二次组装 。

字节现已不是在卷模不模型的工作了,而是在卷能不能用起来的工作。

在这点上 ,它有点相似微软Copilot那一套逻辑,但又有自己的中国式打法 。微软的优势是Office生态绑定企业,而字节的打法是根据内容+东西的双生态:一边用内容事务抖音等查验模型生成才能 ,另一边用火山引擎输出服务 ,把才能变成服务 ,终究变成一个体系级产品 。

并且,从内部资源分配来看,字节的战略也很明晰  :模型团队不单打独斗 ,许多模块直接协同产品线出需求,比方语音播客 、视频生成 、查找引荐,这样模型迭代就不是凭空捏造,而是从一开端就和实践场景挂钩。

大厂AI模型开端加快奔驰 。

聊到这儿,其实绕不开的一个问题便是:现在这些大厂在AI这件事上  ,到底卷到什么程度了 ?

从阿里、腾讯到字节,的确都在提速,并且每家的方向有点不相同 。

阿里的重心放在模型规划和通用才能 ,比方Qwen宗族主打大上下文和东西链,方针是拉齐OpenAI那一套才能,特别着重开源这一点 。

腾讯更多着重事务交融,Agent布置做得早 ,要点是To B场景,比方政务 、企业服务等 ,推出了元器这种产品。

而字节这边  ,很显着是以内容和多模态作为中心阵地,从豆包模型 、Seedance视频、再到语音播客 ,都是环绕内容生成和产品运用来做的。

它们走的道路不太相同,但节奏都快 。你会发现 ,这一年里,模型迭代不再是每半年一次,而是每两三个月就来一波 。有的是版别更新 ,有的是新产品挂钩 。但共同点便是 ,我们都现已不是在比有没有,而是在比用得起、用得上  、用得快。

并且有个趋势也挺明晰的:AI现已不是试验室里跑分的东西了 。你发布一个模型,他人不再只关怀你的推理速度和BLEU分,而是问一句——。能不能挂到网页上 ?能不能在手机里跑?价格怎样样 ?是不是能直接接到现有体系里 ?

从这个视点看 ,字节这波模型更新尽管没有太多职业榜首的技能噱头 ,但的确做得比较厚实  。不管是Seedance的视频质量,仍是豆包1.6的多模态才能,最少给到了一些能够拿去用的东西。关于开发者也好,中小企业也好  ,现在更介意的是这些东西能不能用 、本钱怎样样、布置杂乱不杂乱,而不是你参数多大。

所以到头来,大厂在AI这场比赛里,其实。比的不是谁先造出最强的大模型,而是谁先把模型做成产品,谁先让用户真实用起来 ,谁能在不添加运用门槛的前提下 ,撑住规划和本钱。

现在这个阶段 ,我们都还在跑 ,但现已能看出几个不同方向的势能了 。接下来要看的 ,或许不是谁先出GPT-5级其他模型 ,而是谁能真实把AI塞进每一个详细运用场景里 ,让它像水电网那样成为根底设施。谁做得越快 、越稳 ,就越或许在这场AI根底设施比赛里 ,走得更远。

特别声明:本文为协作媒体授权专栏转载,文章版权归原作者及原出处一切。文章系作者个人观点,不代表专栏的态度 ,转载请联络原作者及原出处获取授权。(有任何疑问都请联络idonewsdonews.com)。

上一篇:贝达药业拖欠款项 旧日创新药大佬怎么破局【医药视界】下一篇:PNY调整我国区售后方针 撤销显卡及存储产品个人送保服务

发表评论

必填

选填

选填

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

推荐文章
网站地图copyright 2019 by 樊禽 版权所有,谢绝转载