經過一年奮戰,小紅書已把業界體量最大的數據湖0故障遷上阿里云。據統計,該項目共有1500人參與,遷移數據500PB。
作為中國頭部互聯網公司之一,小紅書月活已過3億,其數據湖存儲了過去11年的所有原始數據,包括結構化、半結構化和非結構化數據。近年來,隨著業務的高速增長,小紅書在線處理數據的需求不斷增加,同時離線處理所積累的歷史問題,也會在未來的切換中帶來更多成本與風險。
為此,2023年11月,小紅書發起遷云項目——計劃一年內,把小紅書的數據湖搬上阿里云。
遷移至阿里云上后,數據湖可通過多個OSS Bucket支持納入統一資源池,實現多個Bucket共享資源池內的OSS吞吐及QPS能力。這樣的流控能力在面向小紅書復雜業務場景,可靈活調配資源,高效利用吞吐性能,降低不同業務租戶間的互相影響。阿里云原生HDFS+DLA元數據可實現無縫對接Hadoop EMR體系,支持元數據線性擴展能力,輕松應對小紅書數百PB數據下的元數據線性增長。
較于過往業界體量最大的案例,小紅書的本次遷移的數據體量更大。
據介紹,小紅書的遷云項目經歷了三個階段。第一步,項目組首先解決標準問題,然后根據標準進行治理;第二步,完成治理后,項目在2024年5月正式進入雙跑階段。把數據拷貝到阿里云上,兩邊同時跑數,驗證正確性與及時性;第三步,2024年8月,項目結束雙跑,進入割接階段。阿里云團隊全程在現場保障,順利完成了割接。
2024年11月,小紅書遷云項目正式宣告結束。在0故障的情況下,遷移數據500PB,任務11萬,參與人數1500人,涉及部門40多個。項目涉及產品之多和數據體量之大均創下業界記錄。