News

Guangdong BAIDU Special Cement Building Materials Co.,Ltd
— 新闻中心 —

特别收到了最大的个人基金,共11亿个智能元素,

6月23日,北京Galaxy General Robot Co.,Ltd。(以下名称为“ General Galax”)宣布已正式完成由CATL领导的110亿元人民币的新融资。除CATL外,其他投资者还包括Puang Capital,中国发展银行中国发展技术创新,北京机器人行业基金,Jiu-Jitsu Capital(GGV)和其他新的主要投资者,以及许多投资额外投资的老年股东。这家创业公司成立于2023年5月,以7亿枚天使队的资金打破了行业记录。现在我开始了新的攀登。 Wang He是北京大学的助理教授,是Galaxy General机器人的创始人和首席执行官,并在Zhiyuan获得了学者,并从Tsinghua大学和斯坦福大学获得了学位冠军。他与美国第三学院的学者Leonidas J. Gibas教授一起学习。 2021年,他加入了北京大学的研究中心侧面计算机。Tant教授并建立了既定的认可与互动研究所。 Galaxy General Motors已经在“在工厂工作”,其中一些在车辆组装线上“工作”,其中一些在零售阶段达到了不间断的义务。在人形机器人行业中,除了工厂工作的机器人外,还有一些机器人可以跳舞和打包盒子。但是,通常通过以前的编程或固定场景的遥控器来实现舞蹈和拳击。这些机器人没有真正的概括功能。这意味着,当他们面对新的环境,新任务或新情况时,他们没有能力应用,适应和执行所学的知识和技能。只有通过这种“概括”能力,机器人才能真正进入工厂,并成为人类工作右侧的助手。但是,从展示自己的技能到进入工厂,机器人行业中最大的问题是缺乏培训数据。同时,数据路由热线的行业存在显着差异。 NVIDIA是一个SIM ISAAC仿真平台,主要代表合成数据路由。促进形状。 Google DeepMind和21个代理商共同发布了一组数据,其中包含超过100万个真正的机器人轨迹,声称只有现实世界的远程数据才能使机器人真正了解物理世界。他主张使用高质量合成数据培训之前,请使用大型模型VLA,认为该方法比实际的大型机器的远程操作更有效。在Zhiyuan 2025会议上,Galaxy General Motors的Galbot机器人向我们展示了如何以茂密的架子精确地抓住Andogurt和明胶。它配备了最近推出的Galaxy General Motor的VLA模型,使用了99%的合成数据和1%的真实培训数据。这也是行业中第一次成为恶魔基于云的推理将在公共舞台上进行。该演示的技术挑战是,必须通过云模型实时推断每个指令。即使您落后了数十毫秒,也可能无法捕获它。加上对照明,行人和噪音的干扰,如果将整个执行链路视为轻微的偏差,则可以“转动”。他在2025年的Zhiyuan会议,Tencent Technology和Wang教授上进行了详细的对话。自90年代以来的创始人认为,随着Dawnof技术的发展,体现情报的发展仍处于早期阶段。面对无限的可能性,所有的创业公司的所有重要选择都等同于“基于自我的技术”运动。在对话中,我们还讨论了有关融合智能的发展的以下问题:VLA模型在机器人的“进化”重点是什么? arE合成数据是合并培训模型的最佳解决方案?每单位达到PMF的Gabott如何值得数十万人民币? “舞蹈”和“跑步”技能如何有助于提高机器人的生产率?机器人“进化”的重点是VLA模型在腾讯技术中的重要性:去年的Zhiyuan会议上还展出了Galbot机器人吗?今年将有什么新的发展? Wang He:Galbot去年首次亮相。我主要相信多种视觉模块2D/3D和Movimiento的生成,我在架子盒中抓起瓶装饮料和小吃。今年,可伸缩性和概括功能得到了显着提高,因为我们从端到端模型使用VLA重建整个系统,并且不再依赖于小型3D模型。今年的新示威活动将现场带到了一家皇家超市。瓶子连接在附近的触点中,SCAT呈指数增长,并带有特殊包装年龄,例如果冻,袋中的果冻,笨重的食物,瞬间面条,面包,散装鸡蛋等等。即使瓶子被拆除或暂时移动,VLA也可以在总体上关闭和稳定。这是首次使用全球VLA技术来揭示被拖放到高度集中和多重新测验环境中的对象的大量概括。腾讯技术:发出说明后可以立即执行机器人。这是VLM和VLA的两个大型模型的合作吗?机器人如何需要? Wang He:我们的核是VLA模型。 VLA基于VLM开发,并添加基于VLM的操作执行功能。 VLM不仅保留了理解视觉语言的能力,而且还允许您直接执行操作。该系统允许两种交互式方法:语音条目(转动第一个文本,然后输入VLA),然后单击iPad接口。除了主VLA模型外,还有辅助模块,例如语音E识别和iPad系统耦合。将来,您还可以更新到VLAA模型,以直接处理人类语音输入而无需文本转换并减少响应延迟。腾讯技术:这是一个机器人,是否可以使用更大的模型来实现所有未来的操作?王他:这是一个很好的问题。人脑有两个Sistemas:System 1和System 2,它们对应于高速系统和慢速系统。缓慢的系统负责考虑长期推理和计划。典型的代表是推理的模型,例如DeepSeek和Openai。如果您的架子上有饮料,则慢速系统将非常小,主要是通过高速VLA系统。人的大脑很快通过神经产生行动计划,小脑是平衡和控制的原因。但是,如果将来的任务与推理和动作的产生相互作用,那么对于是否使用单个系统,双重系统还是分层系统。神经网络的独特特征是速度相对恒定,但是很难在速度和慢速之间轻松改变。如果您可以打破较大型号的速度,则可以使用较大的型号比较大脑。腾讯技术:今年,所有智能家具公司都将推出自发开发的VLA型号。这对每个公司的重要性是什么? VLA的当前限制是什么?王:VLA是将大型模型系统转换为更大端端模型的重要尝试。一个核心优势是,无需中间产品即可直接从自然语言的视觉观察和说明中发行动作。但是,除了视觉进入外,人类还对口味,触摸,气味,试听和温度也有意识。因此,VLA模型只是起点。如果您想实现人类水平的化身智力,它必须不断融入新方式。 VLA是一个一般且极端的范式,直接执行并在没有深思熟虑的情况下理解,并且我认为它在未来的任务中具有出色的方式和可扩展性。几家制造商专注于VLA技术。我想做得很好的“原子动作”,并创建一个真正的产品级别VLA,重点是视觉模式反馈。可以在基本抓地力模型,放置,运动和导航的四个基本动作之间自由跨场景和对象,并具有概括的功能。这种移动选择模型可以涵盖高频任务,例如在工业和商业场景中进行处理,分类,重新定义/下载,并加速Incorporated Intelligence的商业化。相比之下,一些基于研究的制造商表现出更多的“各种技能”,但它们在很大程度上取决于特定数据收集的环境。当更改场景或对象时,模型的工作通常难以稳定。腾讯技术:智能智能模型的技术路线是否融合? Wang He:从模型的角度来看,每个人都使用模态VLM插入或使用VLM令牌连接操作解码器(操作解码器)。一些团队重叠了全球模型或未来的预测模块,但总体想法是完全不同的。但是在这一点上,这不是一场胜利或在模型架构中输掉的战斗,而是从数据角度来看,您可以使用哪些数据来完全训练其VLA?合成数据是否使训练最佳解决方案结合了大型模型?腾讯技术:数据是目前最大的区别点,那么一般的Galaxy数据策略是什么?如上所述,使用了哪些数据? Wang He:我们的观点是很好地利用DAND综合数据。我们认为,高精度物理模拟的合成数据和物理的表示是目前最丰富的信息。这些数据还包括视觉信息紧密调整为动态限制,任务级别的语言标签和机器人运动轨迹的rmation。信息密度是最高的,从理论上讲,它无限地扩展(需要GPU的表示)。相比之下,互联网上的人类作品视频中存在“行动”,但这是人类的运动。它们与机器人关节的局限性和运动学完全不相容,并且缺乏3D轨迹注释。即使几乎没有提取它,相机的运动和人类混合物的运动也使错误难以解决。信任高比例的精确合成数据,即在PR leCatomic Action(例如手机选择和地点)中的实现,不需要收集人类集中式操作和效率低下的标签。腾讯技术:综合数据始终开放辩论。其他对使用遥控器来构建模拟并在现实世界环境中收集数据。什么是Essential该数据和合成数据之间的差异? Wang He:现实世界的机器人有两种类型:现实世界机器人和模拟环境机器人。让我们在遥控模拟环境中谈论机器人。它们比我们的自我合成合成管没有优势,最终,它们暴露于渲染和物理模拟器的准确性。当模拟环境远程执行时,3D世界将变成一个简单的2D图像,从而降低了深度操作员的意识,这使其比现实世界更难操作,并偏见了运动的tray traycortory。我也同意,真正控制现实世界的机器人是重要的数据源,但它们不是可以真正相信当今智能开始的数据源。尽管可以将其与自主驾驶进行比较,但区别在于自动驾驶行为是自发和自发的,因为它比人类快。和我们偏远的白菜托德Ay无法达到人类工作的效率。另外,当两臂都用于远程控制手臂机器人时,由于没有触摸手臂,因此很难确保遥控器。您只能通过视觉观察看到远程固定机器人的运动状态。在传感器角度缺失,需要长期训练。此外,机器人缺乏,世界领导人今年的目标是数千个单位,诸如汽车之类的数百万次行动都大规模地支持远程行动。第三个是数据量挑战,收集需求指数取决于动作空间的维度,而人形机器人操作远高于2D平面中自主驾驶运动的维度,该驾驶运动达到了近20度的自由度。腾讯技术:这可以证明合成数据的概括吗?王:许多从业者缺乏合成数据的真正能力的经验。一个众所周知的智能基础架构,合成数据需要长期积累。易于制造低质量的合成数据。创建一个错误的渲染模拟器,以生成具有深蓝色背景的轨迹。学习后,它将得出结论,合成数据是垃圾,因为不可能使用它。这实际上是由于不良的购买,不良的理解和对工具使用量的低使用而引起的任意评论。腾讯技术:高量合成数据的核心和阈值是什么? Wang He:首先,如何自动生成动作。以“衣服”数据集为例,折叠材料在折叠过程中皱纹,必须在合成过程中实时检测和扩展,然后再进行仿真。如果该电路校正即时缺失,则可以获取低质量数据,仅限于简单的方案。同样,在葡萄糖项目的脱骨制中,我们实现了33个抓握甲基的综合人类学者认可的OD。即使给出了对象或发票,也可以生成相应的握把。这是基于数学优化和物理推导的长期积累。使用模拟器并不意味着“生成按键”可以是高质量的动作。在《大家》中,意味着正确的物理模拟和表示形式。每个数据必须传递动态和高质量产品的质量输出,可确保一致性和三位一体的视力,语言标签和机器人动作。第三,区分“真”部分。模拟从来没有完全等同于现实,但是通过训练之前的大型VLM,我们看到该模型确实在乎时间和身体因果关系的逻辑,而不是人类眼睛感到“现实”的质地细节。因此,计算预算是一个问题和不敏感的模型。您应该投资简化您的链接rea。第四,主数据分布和闭路迭代。在模型推理阶段暴露的情况下的降落必须返回合成管,并且在形式的指导中生成了困难的示例,以进行连续且改进的数据分布。我们已经关注了九年的时间,以拥有当今的合成数据库。在Zhiyuan会议上完成真实货架演示的大多数数据都来自这种自我开发管。腾讯技术:NVIDIA也支持合成数据,但是与客户使用吗?王他:我们比他高。 Nvidia的工作并没有寻求在现场的所有应用中直接以99.99%工作的能力,而是寻求在更广泛的意义上建立基础,他们的文件并不认为可以做到这一点。但是,一旦完成,您就可以通过在台式机上进行跟踪并在架子级别上实现90多个超过90的速率。因此,您可以去找用户或访客进行演示,并最终取得100%的成功并将其直接用作产品。腾讯技术:您关心怀疑的声音吗? Wang He:无论是研究还是企业家精神,这实际上是所有人认知的差异。如果认知,知识和技能之间没有区别,那么高级和向后之间就没有区别。问的人始终可以遵守问题,但是我们需要更多地提高事物并相信我们坚定的信念这样做。如何在GABOT中实施PMF,每单位花费数十万人民币?腾讯技术:从这个角度来看,对一般银河系的模型的研究和开发是否有重要的投资? Wang He:行业中有一个错误的想法,即模型产品的创建不需要硬件。如果目标是科学研究的演示,则展览时间仅限于舞台上的几分钟,因此,这并不重要。但是,如果机器人可以每天24小时提供服务区域真实的可靠性要求是完全不同的,必须按照车辆标准执行。实际上,我们的HardWareAteam比软件团队大。例如,如果硬件问题在24小时的药房现场出现,工程师将在那里解决它们。腾讯技术:团结起来对机器人的大脑和手臂最重要的事情,并提到脚部位于次要位置,但只有大脑和手,通过在智能生产线中使用机器人臂来实现的任务有什么区别?王:在传统的装配线中,大多数工业机器人主要信任“稳定操作”。工程师首先清除进入,抓住姿势,执行并解决固定程序中的轨迹的材料位置。此方法需要对碎片的位置和定向的极端标准化。例如,在汽车前部的材料材料材料中可能难以实施自动化油装组件。或者,使用数亿个“巨大自动售货机”,并使用与工厂建筑物相当的音量。较低的重建生产线在每个材料框架中都安装了机器人臂,该材料框架占据了空间且价格昂贵,并且该计算无法解决。智能机器人必须识别材料混乱材料的多形部分,选择正确的抓地力策略,完成移动闭合电路,并以几米的速度巡逻乘以乘务材料水平。只需集成三个功能:视觉理解 +多样化的理解 +自主导航就可以替代几名工人。主要空间在于中心区域的自动化,在该区域“传统的机器人武器不要这样做,人类很昂贵”。对于中国电动汽车制造商而言,前线工人短缺,两次转变成为标准。和成分),对“手套litease手机”操作的需求是极端的Ely巨大。预计您的市场规模会比较或超过机器人行业传统啤酒。腾讯技术:但是特斯拉机器人仍然对电池进行分类,但是看起来像是可以用机器人手臂完成的工作? Wang He:然后,没有讨论是否值得降落特斯拉的人形机器人。腾讯技术:但是您可能希望看到机器人舞蹈,参加马拉松比赛并参加比赛。普通百姓认为那些最令人印象深刻的机器人更强大吗?王:不同的人有不同的观点,公众认为娱乐是最引人注目的。我们还关注双焦点上全身运动的控制,我们宣布了一个开源计划,以在Zhiyuan会议上控制两个腿部人体机器人的全身控制,并在未来的全身本体方面进行了基石。但是,当他与行业交谈时,客户只问一件事。你可以做你的工作和人吗?有点可能是唱歌和舞蹈非常出色,但是没有工厂穿着大型舞者。重要的是,如果您可以在生产线上做得很好。这是我们最担心的,找到可以真正在很多地方复制的商业模式,并将技术作为产品登上舞台。腾讯技术:机器人在galbot General Galaxy中的成本是多少? Wang He:尽管批量生产继续降低成本,但我们可以说,我们的成本现在远低于公司为雇用他们工作三年所必须支付的成本。目前,尽管公司有能力执行良好的功能并确保完成高质量的任务,但价格并不是问题,用户很乐意使用它。腾讯技术:自从我创办业务以来,我就开始考虑PMF。你做了吗?国王:是的。腾讯技术:PMF General Galaxy的主要逻辑是什么?王:这很容易。人形机器人做的是真正拯救人类的工作并创造新的独立智力生产力。因此,我们需要与具有同等价值的人一起做到这一点。测量测试值。在我们目前的状态下,几乎可以使用的人形机器人可以使用,这是我们的上限。将来,Galaxy General Motors将继续推出更高素质的人形机器人。这继续占据关键的情况,公司可以在很多情况下复制。本质上,他总是有很好的投资回报率,因此PMF不是问题。银河系今年需要赢得数亿人民币。我们专注于高价值方案,一个单位卖出了数十万人民币,但可以替代三班和三年的客户劳动成本。合并的情报如何进入“生产力的时代”?腾讯技术:我们是否期望Galaxy General Motors的下一个技术进步?王:允许移动的选择和地点大规模复制:所有零售货架和工厂的分类线都被涵盖。这将是化身机器人历史上的一个里程碑。腾讯技术:未来下一阶段的最大障碍和困难是什么? Wang He:在真正可靠的产品中建造机器人仍然需要进行系统的努力。最终将其重新恢复为生产,而不会违反它。这条路通过人类干预以及运营和维护操作的远程设备提供客户服务。这也是对新的国家商业模式的探索。腾讯技术:为什么要说结合智能的发展已经进入了生产力的时代?王他:这是我们的目标。 “促进人形机器人生产力时代的到来。”今年,我们展示了药房中使用的机器人。目前,通常在北京经营七家商店。在今年年底,预计有100多家商店将在北京,上海和深圳等顶级城市中运营。在这100家商店中Umanoid机器人每天24小时完成自动选择。这是人形机器人生产力时代的开始。目前,只有100个人形机器人,但是在三年内,我们可以看到10,000个类人动物机器人的工作将是完全独立的,可以解决在人类封闭环境中每天24小时工作的努力。我认为这标志着人形机器人生产力时代的开幕式。我们所有人都在共同努力,以振奋这个时代。 (腾讯技术的转载)Openai因注册商标违规而获得了11亿元人民币的最大融资。它是由Kimi-25506导演的,由Galaxy General Motors的创始人Kimi-25506领导。 “ Galaxy General Motors”已完成了超过10亿元的新资金。好吧,如果您不谈论气氛,您是否足以呆在AI圈中? Yang Zhilin和Yan Junjie“首次面对”,Minimax视频模型的价格超过10,000元耳朵
Tel
Mail
Map
Share
Contact