“王炸”ai模型来了！谷歌全面对标openai-凯发棋牌

凯发棋牌-k8凯发赢家一触即发

更多>

凯发棋牌-k8凯发赢家一触即发

聚焦新闻

1中钢协：钢铁汽车产业应加...

2让ai自己设计芯片，中国...

4吃吃玩玩观观赛 “苏超”...

5中办、国办印发《关于进一...

6免签“名单”变长我国入...

7守好“刷脸”安全防线信...

8欧洲央行降息拓展政策空间...

9科创板重大资产重组持续活...

10政策“施肥”市场“深耕”...

"区块链退烧！一周前上市公司争相“表白” 一周后纷纷实话实说"

热点新闻

桥水q1疯狂扫货美股“六巨...

光伏企业竞相布局 0bb技...

a股突发减持潮来了！近20...

图片新闻

a股四大突发！...

a股四大突发！美国加征中...

新规威力显现！...

新规威力显现！8家ipo...

更加有效保护投...

更加有效保护投资者促进...

凯发棋牌-k8凯发赢家一触即发 > 资讯 > 科技

“王炸”ai模型来了！谷歌全面对标openai

来源：潮新闻　　作者：《每日财讯网》编辑　　发布时间：2024-05-15

摘要：　　新一轮的大模型之争开始了。　　24小时以前，openai抢先发布gpt-4o，通过实时的语音、视频和文本交互刷屏社交网络，震撼着全世界。仅仅过了一天，科技巨头谷歌顶着压力，全面反击openai。&...

　　新一轮的大模型之争开始了。

　　24小时以前，openai抢先发布gpt-4o，通过实时的语音、视频和文本交互刷屏社交网络，震撼着全世界。仅仅过了一天，科技巨头谷歌顶着压力，全面反击openai。

　　5月15日凌晨，在一年一度的“科技界春晚”google i/o 开发者大会上，谷歌展示了十来款新品和升级，其中就有由升级后gemini模型驱动的ai助手项目project astra、对标sora的文生视频模型veo，以及在硬件方面发布的第六代tensor处理器单元（tpu）trillium芯片，还将搜索业务做了最彻底的ai改造。

　　谷歌首席执行官桑达尔·皮查伊（sundar pichai）介绍，谷歌所有的工作都围绕生成式ai模型gemini来做。一年前，谷歌首次分享了原生多模态大模型 gemini的计划，现在已经有超过150万开发者正在使用谷歌的人工智能gemini，“今天，我们希望每个人都能从gemini的技术中受益。”

　　谷歌发布语音助手astra，能力上全面对标gpt-4o

　　这次大会，谷歌揭幕了一款名为project astra的通用人工智能系统，旨在与openai的gpt-4o展开竞争。

　　谷歌deepmind首席执行官兼联合创始人demis hassabis亲自展示了astra模型。这款模型通过智能手机的摄像头捕捉并分析周围环境，还能与用户进行实时对话。

　　在演示中，用户手持手机，将摄像头对准办公室的不同角落，并通过语言与系统进行交互。例如，当用户发出指令“请告诉我智能眼镜在哪里”时，astra能够迅速识别物体，并与用户进行实时的语音交流。同时，它能成功地识别出代码序列、为电路图提出改进建议、通过镜头“看到”伦敦国王十字区等等。

　　大会上，谷歌官方演示了这款系统与ar眼镜的结合使用，预示着它在日常生活场景中的广泛应用潜力。目前该应用仍处于原型阶段，但谷歌表示，计划在今年晚些时候正式推出。

　　据介绍，谷歌在gemini的基础上开发了astra的原型，可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中以实现更快地处理信息。通过语音模型，谷歌也强化了智能助手的说话能力，让其能够给出更快速地回应。

　　不过，在演示视频中，谷歌ai助手的回应速度似乎还是会比gpt-4o稍慢一些，语音所表现出的感情色彩也平淡一些。

　　前一天发布的gpt-4o多模态大模型，相较于gpt-4 trubo速度更快、价格也更便宜。直播过程中，两位openai的员工向大家展示了gpt-4o的更新细节，比如它能感知用户情绪、具备不同情绪的声音、实时视觉功能和更即时的语音交互。其中，chatgpt-4o还能通过前置摄像头观察用户的面部表情，检测其情绪。

　　有评论称，这个演示显示，gpt-4o让聊天机器人不再那么机械冷漠，而是更加接近真实人类，能够理解并表达情绪，还可以读取人类的情绪，但读取还有一点困难。

　　有业内人士评价，从演示上看，astra的视觉理解能力确实让人印象深刻，但在交互体验上要比gpt-4o实时演示的能力要差许多。无论是响应时长、语音的情感丰富度、可打断等方面，gpt-4o的交互体验似乎更自然。

　　发布视频生成模型veo反击sora，视觉效果颇为惊艳

　　在ai生成视频方面，谷歌宣布推出视频生成模型 veo，能够生成分辨率最高达1080p的高质量视频，时长可以超过一分钟，涵盖多种电影和视觉风格。

　　据谷歌介绍，veo在理解视频内容、渲染高清图像、模拟物理原理等方面都有所突破，能精准捕捉“延时摄影”、“航拍风景”等电影术语，并将其转化为生动的视觉表达。并具有更高的连贯性和一致性，人物、动物和物体的动作也更加逼真，视觉效果颇为惊艳。

　　veo生成的视频

　　本着“打不过就加入”原则，很多艺术家已在尝试这个项目。谷歌展示了与电影制片人唐纳德·格洛弗（donald glover）及其创意工作室吉尔加（gilga）的一些合作，以及艺术家wyclef jean，marc rebillet和词曲作者justin tranter在音乐ai沙盒的帮助下发布的新演示录音。

　　早前openai发布首个文生视频模型sora，在网上迅速刷屏，不少网友跃跃欲试。sora可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频，呈现“具有多个角色、特定类型的动作，以及主题和背景的准确细节”的复杂场景。

　　但openai表示，sora存在不成熟之处，可能难以理解因果关系。多位人工智能领域人士表示，该问题可能因其概率模式的逻辑存有“硬伤”。加大训练量、增加训练数据与物理逻辑可改善该问题，但无法根治。想要真正突破最底层逻辑上的问题，因果关系是一条必经之路。

　　对于veo用户，可以通过点击“扩展”按钮，持续增加视频的时长，最终达到了1分10秒，超过了sora的时长。至于它有哪些不足之处，目前暂无定论，还有待用户体验。

　　目前，veo已经开始在谷歌k8凯发赢家一触即发官网开放试用。此外，谷歌还在积极探索更多功能，使veo能够制作故事板和更长的场景，进一步拓展其应用场景和创作空间。

　　在这次google i/o开发者大会上，ai依旧是所有话题的中心，几乎每一个功能更新都与ai紧密相关。例如，谷歌升级搜索引擎，还更新升级了gemini1.5pro版本，同时推出gemini1.5flash轻量化小模型。

　　根据发布会最后的官方统计，这场长达 110 分钟的主题演讲中，谷歌总共提到了121次ai。生成式ai的竞争，在此刻达到新的高潮。

　　这场ai的大角逐到底谁能最后胜出？目前尚无定论。从本次发布会的展示来看，谷歌和openai之间的差距似乎正在逐渐缩小。两家公司不仅在ai领域进行激烈的角逐，并且都在努力推动ai应用于更广泛的场景。

　　尽管我们从谷歌的搜索产品、模型产品上看到了谷歌的疲态和创新的缺失，外界评论称，和gpt-4o不到30分钟的发布会相比，谷歌“缺乏惊喜”。但从生态和用户积累上，谷歌依然具有先天优势。

责任编辑：《每日财讯网》编辑

上一篇：大模型价格战开启！字节跳动豆包大模型价格比同行低99.3％

下一篇：没有了！

分享到：

〖免责申明〗本文仅代表作者个人观点，其图片及内容凯发棋牌的版权仅归原所有者所有。如对该内容主张权益请来函或邮件告之，本网将迅速采取措施，否则与之相关的纠纷本网不承担任何责任。

·　　近日，中国科学院计算技术研究所处理器芯片全国重点实验室联合软件研究所，推出全球首个基于...

·今年以来，港股ipo市场持续活跃，募资金额已超780亿港元，同比增长超670%。宁德时代、...

·尽管因高考，江苏省城市足球联赛（以下简称“苏超”）轮空了一周，但热度不减。截至6月9日下午...

·　　6月9日起，中方对沙特、阿曼、科威特、巴林持普通护照人员试行免签政策。至此，适用单方面...

网站声明

网站简介

诚聘英才

客服电话：010-57135130 传真：010-57135130 邮箱：[email protected]

本站郑重声明：每日财讯网所发布的文章、数据仅供参考，本网不对信息的完整性、及时性负任何责任，投资有风险，选择需谨慎。