非结构化数据 非结构化数据包括哪些内容

2024-12-0201:53:08生活经验0

11月6日,经过长达一年的精心筹备和持续努力,小红书成功将其全球最大的数据湖迁移至阿里云,并实现了零故障。根据官方统计,这项庞大的迁移工程共动用了1500名工作人员,涉及到的迁移数据总量高达500PB,任务总数接近11万,涵盖了40多个部门的协同工作。

作为互联网行业的重要力量之一,小红书已经成为月活跃用户超过3亿的知名平台。其数据湖中存储了过去11年间积累的大量原始数据,这些数据包括了结构化、半结构化以及非结构化数据。随着业务快速扩展,小红书对在线数据处理的需求日益增加,历史数据处理中的一些技术瓶颈和积累问题,也在不断给未来的系统切换带来潜在风险和成本压力。

为了应对这一挑战,2023年11月,小红书决定启动一项大规模的云迁移项目,计划在一年内将其数据湖从原有平台迁移至阿里云,进一步提升数据处理能力和系统的可扩展性。

迁移到阿里云后,小红书的数据湖得以通过多个OSS Bucket形成一个统一的资源池,这不仅大大增强了数据存储和处理能力,同时也能够在多个Bucket间共享资源,提高了OSS的吞吐量和QPS性能。这种高效的流控能力,尤其适用于小红书这种业务复杂且需求多变的场景,能够灵活调配资源,确保不同业务之间互不干扰,从而最大化利用计算和存储能力。

阿里云原生的HDFS与DLA元数据系统,能够无缝对接Hadoop EMR架构,支持数据在海量存储环境下的线性扩展。这一技术优势,使得小红书能够在迁移后应对数百PB数据量带来的挑战,同时有效解决元数据的增长问题,确保了系统的高效运作和数据处理的及时性。

相比于业内历史上曾经的最大规模数据迁移案例,此次小红书的迁云工程在数据体量和技术复杂度上均达到了新的高度。整个迁移项目分为三个阶段,首阶段为标准化治理阶段,团队首先解决了迁移过程中遇到的各类标准问题,并对现有系统进行优化与治理;第二阶段进入双跑阶段,项目组将数据同步迁移至阿里云,并同时在两边进行数据验证,确保迁移过程中的数据正确性与及时性;第三阶段则是在2024年8月正式完成双跑切换,进入最终的割接阶段,阿里云的技术团队全程驻场,确保割接工作顺利完成,整个过程没有出现任何故障。

2024年11月,小红书的迁云项目最终顺利收官。数据迁移完成后,小红书的数据湖实现了500PB数据的顺利迁移,整个项目任务在零故障的情况下圆满结束,迁移团队的高效合作也为小红书的未来发展奠定了更坚实的基础。