12月18日,数据飞轮2.0在2024冬季火山引擎FORCE原能源大会上追究升级发布。
陆续客岁4月火山引擎发布的数据飞轮“以数据消耗促钞票建立,以数据消耗助业务发展”的内核,升级后,数据飞轮2.0形式更聚焦把AI行为数智化中枢竞争力,通过AI工夫促进更普惠的企业数据消耗。
围绕数据飞轮2.0形式的升级,火山引擎数智平台VeDI同步发布了多模态数据湖处置有运筹帷幄。
跟着大模子的发展和应用,文本的限制被拓宽,图像、视频、语音各样模态显露,并给数据管束、检索、规划带来广泛挑战。火山引擎多模态数据湖处置有运筹帷幄则可竣事海量结构化、半结构化及非结构化数据的斡旋精致化管束,全主义兼容各样数据体式,为LLM预覆按、握续覆按和微调全程各个法子提供更好的数据支握。
火山引擎多模态数据湖处置有运筹帷幄架构图
从数据源来看,火山引擎多模态数据湖处置有运筹帷幄涵盖传统的结构化数据,如企业普通运营产生的表格、日记做事以及各样数据库;也包含半结构化数据,如在互联网交互中常见的 JSON、XML、CSV 体式数据以及通过 API 接口赢得的数据;更有非结构化数据,如海量的文本贵寓、丰富各样的图片、各样音频片断以及视频文献等。这些数据源通过全域数据集成 DataSail 进行无缝整合,冲突数据孤岛,普及利用成果。
在扫数架构底层,数据湖通达存储 TOS 以其强盛的兼容性,支握 Paimon、Iceberg、Hudi 等多种数据湖体式,不管是文本、图片、音频、视频仍是向量数据,王人能竣事高效存储与管束。
在数据湖管束方面,LAS具备元数据、数据集管束、数据权限管束等才智,并具备近规划与近存储加快特质,保险数据湖应用起始。同期依托数据规划和存储的 E-MapReduc、流式规划 Flink 和 擅长OLAP处理的ByteHouse 等多元规划引擎,企业不错阐明自己需求进行选拔,称心不同场景下复杂的数据处理条目。在表层数据开辟阶段,大数据研发治理DataLeap提供创始的找数助手、开辟助手、运维助手等智能化才智,镌汰企业数据钞票检索和数据开辟的使用门槛。
最终,海量数据经由多模态数据湖的集成、存储、规划和分析,输出给 Data Agent、生意智能、LakeHouse、学问库等卑劣应用场景,做事于企业科学决策。
现在,火山引擎多模态数据处置有运筹帷幄已庸碌应用在泛互联网、汽车等行业,并取得实效。
以某聚焦于智能网联汽车的科创公司为例,领先该公司使用自建开源大数据平台撑握车联网数据收集、加工及分析,但存在及时离线数据割裂、数据推广、系统踏实性低等问题。
通过引入火山引擎多模态数据湖处置有运筹帷幄,该公司将火山引擎E-MapReduce行为数据湖 OLAP 引擎,构建兼具离线、及时的湖仓一体架构,并期骗其存算分裂架构应酬高推广增量数据,在确保规划性能 SLA 踏实的同期,到手将保养老本降为零;还进一步借助全域数据集成DataSail 竣事OLAP、OLTP 两种不同负载条目的任务分裂,保险了做事的可用性。最终在数据处理实效性普及为秒级的基础上,资源老本还镌汰了30%。
数据已成为AI算法模子发展和演进的“燃料”。而火山引擎数据飞轮2.0及多模态数据湖等系列处置有运筹帷幄的发布,必将匡助企业普及数据利用成果,创造业务窜改与发展的一个又一个“燃点”。
Powered by kaiyun体育全站云开app入口IOS/安卓全站最新版下载 @2013-2022 RSS地图 HTML地图