1、數據湖存儲架構選型 阿里巴巴 鄭鍇 2020-11-1 CONTENT 數據湖是個潮流 01 02 湖存儲/加速:挑戰很 03 “完美” 選項之 checklist 04 阿云上的 JindoFS 錄 02 數據湖是個潮流 什么是數據湖 統、集中地存儲全部原始數據 結構化、半結構化、圖/視頻/頻 使 BI + AI 來分析 不只是 SQL 為什么要數據湖 數據孤島 計算 管理 彈性 數據湖架構 數據湖加速 (JindoFS, Alluxio) 數據湖存儲 (OSS, S3, HDFS) 數據湖構建 數據湖管理 元數據服務 數據開發 數據湖集成 數據治理 數據大屏 機器學習 數據報表 數據挖掘 數據湖應用 數據湖計算 數據湖 02 。
2、打造數據增量計算新架構打造數據增量計算新架構 - 網易數據湖調研網易數據湖調研 I(1,2) INSERT (1,2) data file I(1,2) UPDATE (1,2) - (1,3) data file I(1,3) D(1,2) del file I(1,2) data file I(1,3) D(1,2) del file INSERT (3,5) I(3,5) I(1,2) data file I(1,3) D(1,2) del file DELETE (1,3) I(3,5) D(1,3) SELECT * FROM SAMPLE I(3,5) INSERT/UPDATE/DELETE實現 數據湖Iceberg核心原理 CREATE TABLE sample id INT NOT NULL, data INT NOT NULL ; I(1,2) INSERT (1,2) data file I(1,2) DELETE (1,2) data file D(1,2) del fil。
3、協辦 直播持 騰 訊 數 據 技 術 系 列 沙 第 3 期 新一代數據湖技術新一代數據湖技術 演講嘉賓 王展雄 數據湖技術Iceberg 如何解決騰訊看點業務痛點 數據湖技術概述 3 1 騰訊看點萬億數據下的業務痛點2 Iceberg在看點實踐3 Iceberg讀寫和刪除4 數據湖技術概述 4 1 5 數據湖技術概述 1 數據湖簡介: 主要思想:對所有數據統一存儲,通過計算能夠生成符合要求的各種數據。 物理實現:數據存儲平臺。 實現方式:通?;贖adoop生態,但不僅限于Hadoop。 粗暴理解:數據倉庫Hive 6 數據湖技術概述 1 Hive on MR 數據湖技術的發展及問題: 計算。
4、蘑菇街中臺轉變之路 劉詩遙(英斗) 蘑菇街 技術專家 自我介紹自我介紹 自我介紹自我介紹 劉詩遙 英斗 蘑菇街技術專家 曾就職于京東和螞蟻金服 蘑菇街電商中臺改造方案核心設計者和推進者 目前負責蘑菇街直播中臺的建設 目錄目錄 案例:蘑菇街電商建設業務中臺 方法:業務中臺構建三步法 案例:蘑菇街直播業務驗證 擴展:額外的TIPS 說在最后 目錄目錄 案例:蘑菇街電商建設業務中臺 方法:業務中臺構建三步法 案例:蘑菇街直播業務驗證 擴展:額外的TIPS 說在最后 構建中臺的目的是什么? 我們要提前預判業務的方向,走到業務的前面去 蘑。
5、版權所有 2019 華為技術有限公司 大數據融合數倉場景化解決方案 第2頁版權所有 2019 華為技術有限公司 前言 隨著大數據和物聯網技術的迅猛發展,數據進入爆炸式增長期,原有數據倉庫處理 分析的低擴展性、高擴展成本、單一數據格式、高時延,成為了客戶挖掘數據金礦 的阻力。如何構建一個全新的數據倉庫分析平臺,集高擴展性、低擴展成本、處理 多種數據格式文件、低時延等特性,成為當下急需解決的問題。 第3頁版權所有 2019 華為技術有限公司 目標 學完本課程后,您將能夠: 區分數據庫、數據倉庫、融合數倉的概念 熟悉華為融合數倉在行。
6、大數據平臺的模型思維與用戶增長實踐 屈世超 2018.6.30 快看漫畫 快看漫畫 目錄 快看漫畫發展現狀 模型思維與數據平臺搭建 用數據驅動億級用戶的運營和增長 快看漫畫是個漫畫閱讀社交平臺 快看漫畫 精品漫畫閱讀 + 社區交流 + 直播互動 快看漫畫上線3年 總用戶量超過1.3億 月活近4000萬 日活近1000萬 在中國漫畫App中排名第一 日數據量百億條 數據來源 1、獵豹大數據:獵豹大數據2017中國app報告 2、IT桔子:2017年獨角獸俱樂部 快看漫畫 IT桔子 數據為業務發展賦能 快看漫畫 人口紅利期結束App成長到成熟期 業務管理的需求持續增長的需求。
7、愛奇藝推薦中臺探索與實踐 張時駿 愛奇藝高級經理 自我介紹自我介紹 自我介紹自我介紹 畢業于上海交通大學計算機系,現任愛奇藝高級技術經理一職,愛奇藝推薦中臺的總架 構師。在愛奇藝從事推薦引擎架構和開發工作,近幾年專注于分布式高并發線上引擎的 架構,搭建了熱點信息流、小視頻信息流等推薦引擎。目前正在致力于愛奇藝推薦中臺 的建設,旨在幫助公司內各業務團隊能夠以低成本、高效率、高產出的方式獲取一套完 整的推薦服務及其周邊配套設施,快速實現業務目標。 目錄目錄 推薦中臺背景 推薦中臺架構 推薦中臺實踐 問題一:推薦形。
8、 ? Flink ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?F? ? StreamSQL ? Flink CEP ? ? ? ?F? StreamSQL? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? CREATE TABLE orderTable ( start_time $.start_time STRING, end_time$.data.end_time STRING, passenger$.data.passenger STRING, id INT ) WITH ( stype = kafka, topics = topic1, brokers = , encode = json ); ? ?/? ? ?/? ? ? ?/? ? ?D ? ? ? ? 。
9、Apache Flink ? Apache Flink Community China ? ? ? ? ? ? ? ? ? ? ? ? ? Apache Flink ? Apache Flink Community China ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Apache Flink ? Apache Flink Community China ? ? Send Buffer Producer Receive Buffer Consumer network transfer 2MB/s1MB/s 5MB5MB bounded receive buffer?consumer? unbounded receive buffer?buffer?consumer? 5? 2MB/s Apache Flink ? Apache Flink Community China ? ? Send Buffer Producer Receive Buffer Consumer network transfer 2MB/s 1MB/s 5MB5MB ?consumer? co。
10、ClickHouse 在頭條內部技術演化 陳星 自我介紹 自我介紹 - 10 year in database kernel(OLAP, warehouse) RD - Worked on DB2 LUW, DB2 BLU(dashDB), BigSQL(SQL on Hadoop) - 1+ years in Bytedance, and incubate ClickHouse development and deployment there 目錄 1. ClickHouse 簡介 2. Bytedance 如何使用ClickHouse 3. 問題與解決方案 4. Q&A 1. Developed by Yandex, and open source since 2016 2. 查詢性能優越的分析型引擎 3. 主要特點(not new) - Column oriented + vector execution - Local attached storage (not Hadoop 。
11、0 設計 假設: 存在n維(A1,An)上的基本方體B 則: 需計算的立方體總數: Cn = 2n (其中n為計算維度的個數) 立方體物化結果集Size:Sn = 1 * A1的基數 * A2的基數 * . * An的基數 (維度的基數即為該維度下所有枚舉值的總數) 優設計 假設視頻埋點洪峰流量約 700,000 row/s,如果對其5個維度構建完全立方體, 那么map - reduce 端傳輸的數據量為:700,000 * 2 5 = 22,400,000 條數據! 冰山立方體:滿足最小支持度的部分物化的方體。我們稱這部分物化的方體為冰山立方體。 實現 統設計 查詢引擎 1.多數據源適配 2.規則引擎 3.多級緩存 4.。
12、AI是智能計算,大數據領域是數據計算,二者是相輔相成不可或缺的關系 from賈揚清:人工智能是科學還是藝術? 分析報表 業務數據數據應用業務數倉 實時大屏 模型訓練 數據產品 Holo 搜索業務數據 推薦業務數據 用戶行為日志 交易數據 用戶屬性數據 商品屬性數據 商家屬性數據 運營配置數據 實時ETL 離線ETL JDBC查詢 MaxCompute 業務特點 PB + RPSRPS6500W+ QPS 200+ 業務特點 PB 分析報表 業務數據數據應用實時數倉 實時大屏 MaxCompute Holo 用戶行為日志 交易數據 用戶屬性數據 商品屬性數據 商家屬性數據 運營配置數據 實時ETL 離線ETL。
13、預訓練的應用挑戰與實踐探索 小米AI實驗室NLP團隊 崔建偉 2020-07-25 預訓練簡介 預訓練應用挑戰 預訓練實踐探索 總結 分享大綱 預訓練簡介 詞向量 靜態 Word Embedding 上下文相關 Word Embedding CBOW/Skip-GramEmbedding Matrix 任務相關: 任務無關: 蘋果公司最近發布新產品 喜歡吃蘋果嗎? 任務相關網絡 序列建模方法 LSTMTransformer 遠距離的詞語間接交互SelfAttention: 任意詞語間直接交互 Multihead Attention: 不同類型語義交互 預訓練模型 BiLSTM + Language Model Feature based Pretraining Transformer + Language Model Tran。
14、Impala在網易大數據中使用和優化實踐 溫正湖 Impala定位及其優勢 01 02 03 Impala增強和優化 Impala使用案例分析 Impala定位及其優勢 Impala在數據處理中的角色 傳統數據庫/實時 分析型數倉 離線數倉 數 據 量 查詢/處理引擎 百萬-百億:Impala/Presto/GP/ 百萬以下:MySQL/PG/MongoDB/ 百億以上:Hive/Spark/ 數據規模與數據處理引擎 數倉建模方式 寬表 DruidClickHouse 星型雪花型 ImpalaGPPresto 自助分析、BI報表等 典型使用場景 將Impala作為通用查詢引擎 Impala在數據處理中的角色 Impala優勢 去中心化的MPP并行架構 Impala架構 vs 。
15、智能金融在客服機器人中臺的落 地實踐 潘鵬舉-ppj 平安銀行|AI算法團隊負責人 1 文本客服機器人演進 知識圖譜問答 業務背景 2 業務背景 3 銀行業務介紹 金融的 人貨場 存貸 匯 資金端資產端 交易場所 口袋APP 4 金融科技布局ABCDF A AI I B Blockchailockchai n n C CloudloudBigBigD Dataata F Federaederatete d d LearningLearning SAS-供應鏈應收 賬款服務-區塊鏈 平臺 運維機器上云 平安云 AI替換 AI賦能 離線:Hadoop平臺 在線:Flink平臺 橫向聯邦學習 5 場場 景景 算算 法法 數數 據據 算算 中中 臺臺 PaaSPaaS層層 CPUCPU 集群集。
16、 ? ? ? ? ?s ? ? ? ? 0? ? ?A ?/?e?8?8?1T?8?2?A? ?t? ? 2015.7 2018.11 ? ? ? ? ? ?8 ? ?8 ? ?1T?8 ?B ?A? ? ? ? ? ? ? ? ? ? ? ? A?/? ?/?I? ? ?A?I ?A? ? ? ? s?B?T? e?B?B? ?B? ?B? ?t ? ?()?)?)?= ? ? ? ? ?I? ? ? ?I? ?E? ? ?E?CB? ?E? ? ?D? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?D?S? ?D?D?K?D?D? ? 01 02 n?:?/?:.?-?5? ?k?cqo?ie?CQ?ms? ?Z?RgN?E?ms?x?LI?t?h?UV? 03?R?p?ie?f?pB?KT?f?S?w?D?f? ?v? ? ABTest? ? ? ? ? ? ? ? ? ?B?A? ?B?A? ?S cK?p? ?9958?5?:/1?1?66?4?8?44?.?7?5? 1 ?Ssm?rq?o?c?m?a? 2 x?m?D?e?Ddw?A?i。
17、萬億級消息隊列Kafka在滴滴的實踐 張亮 2020-11-01 建設背景 目錄 建設實踐 總結規劃 建設背景 1 RDS Log File App Behave Log User Report 數據生產 Omega Server canalLog agent User Application 數據采集 DiDi-Kakfa-2.5-900 數據隊列 數據消費 User Application Stream SQL Flink Native App 數據應用 離線數倉ODS 實時數倉ODS實時監控/報表 OLAP分析 線上業務 ? ?峰值生產 2 億/S 集群流量 60GB/S 2W+ Topic 20+ Cluster? ? 單集群250 Broker 100W+Producer 最大采500MB/S 1.2W+Consumer 最大消費500MB/S 日增消息量2PB 應用現狀 建。
18、騰 訊 云 ClickHouse 性 能 調 優 及 實 踐 三、 騰訊云ClickHouse性能調優 、 常ClickHouse實時分析場景 、 騰訊云ClickHouse在QQ樂實踐 錄 四、 騰訊云ClickHouse現狀與規劃 ClickHouse簡介 極地節約了IO帶寬 壓縮(持LZ4, ZSTD) 列式存儲與數據壓縮 2 DDL(數據定義語) DML(數據操作語) 權限控制 數據備份與恢復 分布式管理 完備的DBMS功能 1 分布式計算 多核并計算 向量化執與SIMD 動態代碼成 向量化執引擎 3 管理數據存儲,不依賴其他組件 主鍵索引/級索引 數據集分(sharding) 數據分區(partition) 數據容災 TTL持 數據存儲 5 對戶友。
19、協辦方直播支持 騰 訊 大 數 據 技 術 系 列 沙 龍 第 3 期 新一代數據湖技術 陳俊杰 騰訊TEG 數據湖研發組 高級工程師 數據湖分析之Upsert 功能詳解 傳統數倉入庫痛點 新一代數據湖技術 下一步展望 目錄 傳統數倉數據入庫痛點 典型場景:業務數據(SQL/NoSQL)全量入庫 典型T+1方案,數據延遲大 全量掃瞄源庫,給源庫造成壓力,同時浪費計算和存儲資源。例如使用Sqoop 限制:源庫信息變更不能同步到數倉,例如:Schema變換 傳統數倉數據入庫痛點 改進的場景:CDC導入到Kafka再導入到HBase, Kudu HBase, Kudu無法存儲全量數據,需要再次導入。
20、www.an tfi n .c om * 僅限內部交流使用 如果需要公開,請聯系文檔作者 演講人:楊軍 螞蟻金服-數據平臺部 數據分析平臺 平臺演進及數據分析方法應用 www.an tfi n .c om * 僅限內部交流使用,如果需要公開,請聯系文檔作者 目錄.CONTENTS 怎么來:數據分析平臺演進歷史 怎么做:數據分析平臺3.0詳解 PART / 03PART / 02 做什么:數據分析領域簡介 PART / 01 我是誰:個人簡介 我們是誰:數據平臺部簡介 能干什么:數據分析驅動數據分 析平臺性能優化 PART / 04 www.an tfi n .c om * 僅限內部交流使用,如果需要公開,請聯系文檔作者 簡。
21、版權所有 2019 華為技術有限公司 大數據實時流處理場景化解決方案 第2頁版權所有 2019 華為技術有限公司 前言 隨著互聯網的進一步發展,信息瀏覽、搜索、電子商務、互聯網產品等將生活中的 數據流通環節在線化,讓我們處在一個數據爆發式增長的時代。而信息的交互和溝 通正在從點對點往信息鏈甚至信息網的方向發展,這樣的背景下,企業想要盡快獲 取數據的價值,進而對數據的實時處理有了更高的要求。 第3頁版權所有 2019 華為技術有限公司 目錄 1. 大數據實時流處理概述 2.實時處理技術框架介紹 Flume Kafka Flink Structured Streaming 。
22、快元數據平臺化建設及應場景 薛-數據平臺架構師 我介紹 薛 數據平臺架構師 前負責元數據系統建設及應 加快3年,負責過數據同步、報表平臺 錄 01 02 03 04 應場景 建設過程及現狀 未來規劃 背景介紹 01 02 03 04 應場景 建設過程及現狀 未來規劃 背景介紹 對 的 問 題 什么是元數據 背景介紹:什么是元數據 元數據 元數據是關于數據的組織、數據域及其關系的信息,簡之, 元數據就是關于數據的數據。 數據表Hive表、Clickhouse表、Druid數據源、Kafka Topic 產任務離線調度任務、數據同步任務、實時計算任務 關聯關系Hive表與Hive庫、指標。
23、于茜 微博機器學習研發中 微博基于Flink的機器學習實踐 Agenda 1關于微博關于微博 微博機器學習平臺(微博機器學習平臺(WMLWML)總覽)總覽 FlinkFlink 在在 WMLWML 中的應中的應 2 3 使使 FlinkFlink 的下步計劃的下步計劃4 關于微博 2008年上線 中國最的、最流的社交媒體平臺 提供們在線創作、分享和發現優質內容的服務 規模機器學習平臺可持千億參數,百萬QPS 222M DAU 516M MAU 微博機器學習平臺 (WML) 總覽 W M L 離線計算集群集群性能計算集群在線計算集群 在線推理WeiServing (研)WeiPS (研) 計算平臺 WeiLearn (研) Flink/StormH。
24、成本管理-快數據存儲管理的落地實踐 程偉-數據研發專家 我介紹 程偉快數據研發專家 關注數據模型、數據管理治理領域 主要負責快公共數據建設、數據管理治理 錄 01 02 03 04 快存儲管理實施法 快存儲管理策略 未來規劃 成本管理介紹 01 02 03 04 快存儲管理實施法 快存儲管理策略 未來規劃 成本管理介紹 數據成本管理架構 什么是成本管理 成本管理介紹:什么是成本管理 成本管理 企業產經營過程中對于 成本進系列科學管理 為的總稱 成本預測 成本決策 成本預算 成本分析成本控制 成本核算 成本考核 數據引擎存儲引擎計算引擎數據服務引擎 。
25、面向用戶增長的信息流分發機制 阿里文娛-人工智能部-信息流推薦 天師 目錄 3. 核心增長機制 雙邊冷啟動與流轉機制 消偏與因果推斷 面向增長的用戶畫像 效用理論應用 2. 內容信息流-推薦算法 推薦系統回顧 信息流推薦的增長目標 1. 內容信息流-用戶增長 問題定義 問題分析 增長要素 內容信息流 用戶增長 問題定義 本文的問題域 內容信息流app用戶增長問題 內容信息流:圖文信息流,短視頻信息流、內容+電商信息流 旨在解決的問題 基于推薦算法視角的信息流產品用戶增長問題 留存問題 幸存者偏差 本文受眾 信息流產品的 推薦算法專家 數據科。
26、2020 SPLUNK INC. The Evolution of Data Infrastructure at Splunk Flink Forward SF/Virtual 2020 Eric Sammer - VP, Distinguished Engineer 2020 SPLUNK INC. What is Splunk? A platform for the collection, storage, query, and analysis of event and time series data. Logs, but other kinds of events too Tons of query-time processing features Core platform experience, increasingly domain-specific applications 2020 SPLUNK INC. Ad hoc query - Human and apps Scheduled query - Materialized view maintenance, ap。
27、神策標簽產引擎架構 王琛 神策數據 錄 01 02 03 04 戶標簽及其應場景 標簽產平臺的需求 批流體的標簽產架構 總結 什么是戶標簽 10萬元活動預算,應該集中花在哪里? 參加這次活動老用戶有多少? 想要召回流失用戶,他們都喜歡什么商品? 推送應該中午發,還是晚上發? 標簽是對用戶某個維度特征的描述 精細化運營 從粗放式到精細化,將用戶群體切割成更細 的粒度,輔以短信、推送、郵件、活動等手 段,驅以關懷、挽回、激勵等策略 增強數據分析 標簽可以豐富數據分析的維度,數據查詢平 臺在打通標簽數據后,能支持更加豐富的分 析及對比 。
28、Apache Flink Completing Clouderas End-to-End Streaming Platform Joseph Witt Vice President Engineering, Cloudera Data Flow Marton Balassi Engineering Lead, Streaming Analytics 2020 Cloudera, Inc. All rights reserved.2 Data-in-Motion Philosophy Apache, Apache NiFi, Kafka, and Flink and their logos are trademarks of the Apache Software Foundation in the United States and/or other countries. No endorsement by The Apache Software Foundation is implied by the use of these marks. 2020 Cloudera, Inc. A。