1、大模型概念、技術與應用實踐林子雨 副教授廈門大學DeepSeek每個人都可以讀懂的大模型科普文章廈門大學大數據教學團隊作品 2025年2月9日廈門大學大數據教學團隊國內高校大數據教學的重要貢獻者國內高校大數據教學的重要貢獻者團隊負責人:林子雨 副教授年輕力量:核心成員全部46周歲以下結構合理:教學型、科研型、實驗工程師專注專業:從2013年至今,11年專注于大數據教學團隊特點:眼光前瞻、緊跟技術、創新實干、執行力強影響力高:多項指標在國內高校大數據教學領域領先教材數量教材占有率MOOC課程學習人數師資培養教學研討會教學網站訪問量在線講座觀看人數團隊負責人林子雨廈門大學計算機科學與技術系副教授以
2、第一作者編著出版15本大數據系列教材被國內1000余所高校采用榮獲“2022年福建省高等教育教學成果獎特等獎(個人排名第一)”入選“2021年高校計算機專業優秀教師獎勵計劃”2018年國家精品在線開放課程(獨立主講)2020年國家級線上一流本科課程(獨立主講)2021年國家級線上一流本科課程(獨立主講)入選“2023年教育部國家智慧教育公共服務平臺應用典型案例”個人主頁:https:/ 編著數字素養通識教程大數據與人工智能時代的計算機通識教育人民郵電出版社,2025年1月ISBN:978-7-115-65946-0 定價:59.8元面向大一新生的全校大學計算機公共課教材教材官網:https:/
3、 人民郵電出版社 ISBN:978-7-115-65946-0 2025年1月第1版,定價:59.8元 教材官網:https:/ 圖靈測試1.2 人工智能的誕生1.3 人工智能的發展階段1.4 未來人工智能發展的五個階段1.1 圖靈測試1950年,“計算機之父”和“人工智能之父”艾倫圖靈(Alan M.Turing)發表了論文計算機器與智能,這篇論文被譽為人工智能科學的開山之作。在論文的開篇,圖靈提出了一個引人深思的問題:“機器能思考嗎?”。這個問題激發了人們無盡的想象,同時也奠定了人工智能的基本概念和雛形在這篇論文中,圖靈提出了鑒別機器是否具有智能的方法,這就是人工智能領域著名的“圖靈測試”
4、。如圖所示,其基本思想是測試者在與被測試者(一個人和一臺機器)隔離的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問。進行多次測試后,如果被測試者機器讓平均每個測試者做出超過30%的誤判,那么這臺機器就通過了測試,并被認為具有人類智能1.2 人工智能的誕生人工智能的誕生可以追溯到20世紀50年代。當時,計算機科學剛剛起步,人們開始嘗試通過計算機程序來模擬人類的思維和行為。在這個背景下,一些杰出的科學家和工程師們開始研究如何使計算機具備更高級的功能1956年8月,在美國達特茅斯學院舉辦的人工智能夏季研討會,是人工智能領域具有里程碑意義的一次重要會議。這次會議匯聚了眾多杰出的科學家和工程師,他們共
5、同探討和研究人工智能的發展和應用前景這次會議的主題圍繞著人工智能的定義、研究方法和應用場景展開。與會者們深入探討了人工智能的基本概念、算法和技術,以及其在各個領域的應用潛力。他們共同認識到,人工智能的研究和發展將為人類帶來巨大的變革和進步1.2 人工智能的誕生在這次會議上,“人工智能”這個詞匯被約翰.麥卡錫(John McCarthy)首次提出。與會者們不僅對人工智能的研究和應用前景進行了深入探討,還提出了許多重要的觀點和思路,為人工智能的發展奠定了基礎。這次會議的召開標志著人工智能作為一個獨立學科的正式誕生,因此,達特茅斯會議被稱為“人工智能的開端”,1956年也被稱為“人工智能元年”。這次
6、會議不僅為人工智能的研究和發展奠定了基礎,還為人類帶來了巨大的變革和進步1.3 人工智能的發展階段從1956年人工智能元年至今,人工智能的發展歷程經歷了漫長的歲月,大致可以劃分為以下6個階段1.4 未來人工智能發展5個階段2.人工智能思維2.人工智能思維了解每個人都應了解人工智能的基礎運行模式區分具備區分人的能力和機器的能力協作擁有和人工智能協作的能力,懂得如何運用人工智能3.大模型:人工智能的前沿3.1 大模型的概念3.2 大模型的發展歷程3.3 人工智能與大模型的關系3.4 大模型產品3.5 大模型原理3.6 大模型特點3.7 大模型分類3.8 大模型應用領域(在各個行業的應用)3.9 大
7、模型對工作和生活的影響3.10 本地部署大模型3.11 基于大模型的智能體3.1 大模型的概念大模型通常指的是大規模的人工智能模型,是一種基于深度學習技術,具有海量參數、強大的學習能力和泛化能力,能夠處理和生成多種類型數據的人工智能模型通常說的大模型的“大”的特點體現在:參數數量龐大、訓練數據量大、計算資源需求高2020年,OpenAI公司推出了GPT-3,模型參數規模達到了1750億,2023年3月發布的GPT-4的參數規模是GPT-3的10倍以上,達到1.8萬億,2021年11月阿里推出的M6 模型的參數量達10萬億3.1 大模型的概念大模型的設計和訓練旨在提供更強大、更準確的模型性能,以
8、應對更復雜、更龐大的數據集或任務。大模型通常能夠學習到更細微的模式和規律,具有更強的泛化能力和表達能力大模型具有更強的上下文理解能力,能夠理解更復雜的語意和語境。這使得它們能夠產生更準確、更連貫的回答上下文理解能力大模型可以從大量的數據中學習,并利用學到的知識和模式來提供更精準的答案和預測。這使得它們在解決復雜問題和應對新的場景時表現更加出色學習能力強大模型可以生成更自然、更流利的語言,減少了生成輸出時呈現的錯誤或令人困惑的問題語言生成能力學習到的知識和能力可以在不同的任務和領域中遷移和應用。這意味著一次訓練就可以將模型應用于多種任務,無需重新訓練可遷移性高3.2 大模型的發展歷程大模型發展歷
9、經三個階段,分別是萌芽期、沉淀期和爆發期3.2 大模型的發展歷程n萌芽期(1950-2005)這是一個以CNN(Convolutional Neural Networks,卷積神經網絡)為代表的傳統神經網絡模型階段n 1956年,從計算機專家約翰麥卡錫提出“人工智能”概念開始,AI發展由最開始基于小規模專家知識逐步發展為基于機器學習n 1980年,卷積神經網絡的雛形CNN誕生n 1998年,現代卷積神經網絡的基本結構LeNet-5誕生,機器學習方法由早期基于淺層機器學習的模型,變為了基于深度學習的模型,為自然語言生成、計算機視覺等領域的深入研究奠定了基礎,對后續深度學習框架的迭代及大模型發展具
10、有開創性的意義3.2 大模型的發展歷程n沉淀期(2006-2019)這是一個以Transformer為代表的全新神經網絡模型階段2013年,自然語言處理模型 Word2Vec誕生,首次提出將單詞轉換為向量的“詞向量模型”,以便計算機更好地理解和處理文本數據。2014年,被譽為21世紀最強大算法模型之一的GAN(Generative Adversarial Networks,對抗式生成網絡)誕生,標志著深度學習進入了生成模型研究的新階段2017年,Google顛覆性地提出了基于自注意力機制的神經網絡結構Transformer架構,奠定了大模型預訓練算法架構的基礎2018年,OpenAI基于Tra
11、nsformer架構發布了GPT-1大模型,意味著預訓練大模型成為自然語言處理領域的主流,其中,GPT的英文全稱是Generative Pre-Trained Transformer,是一種基于互聯網的、可用數據來訓練的、文本生成的深度學習模型2019年,OpenAI發布了GPT-23.2 大模型的發展歷程n爆發期(2020-至今)這是一個以GPT為代表的預訓練大模型階段2020年6月,OpenAI公司推出了GPT-3,模型參數規模達到了1750億,成為當時最大的語言模型,并且在零樣本學習任務上實現了巨大性能提升。隨后,更多策略如基于人類反饋的強化學習(RLHF,Reinforcement L
12、earning from Human Feedback)、代碼預訓練、指令微調等開始出現,被用于進一步提高推理能力和任務泛化2022年11月,搭載了GPT3.5的ChatGPT(Chat Generative Pre-trained Transformer)橫空出世,憑借逼真的自然語言交互與多場景內容生成能力,迅速引爆互聯網,在全球范圍內引起轟動,使得大模型的概念迅速進入普通大眾的視野。ChatGPT是人工智能技術驅動的自然語言處理工具,它能夠通過理解和學習人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文等任務
13、3.2 大模型的發展歷程n爆發期(2020-至今)OpenAI在2023年3月發布了GPT-4,它是一個多模態大模型(接受圖像和文本輸入,生成文本)。相比上一代的GPT-3,GPT-4可以更準確地解決難題,具有更廣泛的常識和解決問題的能力。2023年12月,谷歌發布大模型Gemini,它可以同時識別文本、圖像、音頻、視頻和代碼五種類型信息,還可以理解并生成主流編程語言(如Python、Java、C+)的高質量代碼,并擁有全面的安全性評估。2024年12月,DeepSeek迅速崛起,震撼全球,使得人工智能進入“普惠”時代3.3 人工智能與大模型的關系人工智能包含了機器學習,機器學習包含了深度學習
14、,深度學習可以采用不同的模型,其中一種模型是預訓練模型,預訓練模型包含了預訓練大模型(可以簡稱為“大模型”),預訓練大模型包含了預訓練大語言模型(可以簡稱為“大語言模型”),預訓練大語言模型的典型代表包括OpenAI的GPT和百度的文心ERNIE,ChatGPT是基于GPT開發的大模型產品,文心一言是基于文心ERNIE開發的大模型產品人工智能機器學習深度學習深度學習模型預訓練模型深度學習預訓練大模型預訓練大語言模型預訓練大語言模型GPT文心ERNIE.ChatGPT文心一言3.4 大模型產品3.4.1 國外的大模型產品3.4.2 國內的大模型產品3.4.1 國外的大模型產品nChatGPTCh
15、atGPT是一種由OpenAI訓練的大語言模型。它是基于Transformer架構,經過大量文本數據訓練而成,能夠生成自然、流暢的語言,并具備回答問題、生成文本、語言翻譯等多種功能ChatGPT的應用范圍廣泛,可以用于客服、問答系統、對話生成、文本生成等領域。它能夠理解人類語言,并能夠回答各種問題,提供相關的知識和信息。與其他聊天機器人相比,ChatGPT具備更強的語言理解和生成能力,能夠更自然地與人類交流,并且能夠更好地適應不同的領域和場景。ChatGPT的訓練數據來自互聯網上的大量文本,因此,它能夠涵蓋多種語言風格和文化背景3.4.1 國外的大模型產品nGeminiGemini是谷歌發布的
16、大模型,它能夠同時處理多種類型的數據和任務,覆蓋文本、圖像、音頻、視頻等多個領域。Gemini采用了全新的架構,將多模態編碼器和多模態解碼器兩個主要組件結合在一起,以提供最佳結果Gemini包括三種不同規模的模型:Gemini Ultra、Gemini Pro和Gemini Nano,適用于不同任務和設備。2023年12月6日,Gemini的初始版本已在Bard中提供,開發人員版本可通過Google Cloud的API獲得。Gemini可以應用于Bard和Pixel 8 Pro智能手機。Gemini的應用范圍廣泛,包括問題回答、摘要生成、翻譯、字幕生成、情感分析等任務。然而,由于其復雜性和黑箱
17、性質,Gemini的可解釋性仍然是一個挑戰3.4.1 國外的大模型產品nSora2024年2月16日,OpenAI再次震撼全球科技界,發布了名為Sora的文本生成視頻大模型,只需輸入文本就能自動生成視頻。這一技術的誕生,不僅標志著人工智能在視頻生成領域的重大突破,更引發了關于人工智能發展對人類未來影響的深刻思考。隨著Sora的發布,人工智能似乎正式踏入了通用人工智能(AGI:Artificial General Intelligence)的時代。AGI是指能夠像人類一樣進行各種智能活動的機器智能,包括理解語言、識別圖像、進行復雜推理等。Sora大模型能夠直接輸出長達60秒的視頻,并且視頻中包含
18、了高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色。這種能力已經超越了簡單的圖像或文本生成,開始觸及到視頻這一更加復雜和動態的媒介。這意味著人工智能不僅在處理靜態信息上越來越強大,而且在動態內容的創造上也展現出了驚人的潛力3.4.1 國外的大模型產品nSora右圖是Sora根據文本自動生成的視頻畫面,一位戴著墨鏡、穿著皮衣的時尚女子走在雨后夜晚的東京市區街道上,抹了鮮艷唇彩的唇角微微翹起,即便帶著墨鏡也能看到她的微笑,地面的積水映出了她的身影和燈紅酒綠的霓虹燈,熱鬧非凡的唐人街正在進行舞龍表演,熙熙攘攘的人群目光都聚焦在躍動的彩龍身上,整個環境的喜慶氛圍仿佛令人身臨其境3.4.1 國外
19、的大模型產品nOpenAI o32024年12月20日,OpenAI發布推理模型o3,無論在軟件工程、編寫代碼,還是競賽數學、掌握人類博士級別的自然科學知識能力方面,o3都達到了很高的水平3.4.2 國內的大模型產品大模型圖標指標排名DeepSeek 能力測評第一豆包 用戶數量第一Kimi 文本處理第一即夢AI 作圖能力第一通義萬相 視頻生成第一智譜清言 文檔歸納第一2025年1月國內大模型排行榜3.4.2 國內的大模型產品nDeepSeek(深度求索)2024年12月26日,杭州一家名為“深度求索”(DeepSeek)的中國初創公司,發布了全新一代大模型DeepSeek-V3。在多個基準測試
20、中,DeepSeek-V3的性能均超越了其他開源模型,甚至與頂尖的閉源大模型GPT-4o不相上下,尤其在數學推理上,DeepSeek-V3更是遙遙領先。DeepSeek-V3以多項開創性技術,大幅提升了模型的性能和訓練效率。DeepSeek-V3在性能比肩GPT-4o的同時,研發卻只花了558萬美元,訓練成本不到后者的二十分之一。因為表現太過優越,DeepSeek在硅谷被譽為“來自東方的神秘力量”。2025年1月20日,DeepSeek-R1正式發布,擁有卓越的性能,在數學、代碼和推理任務上可與OpenAI o1媲美。DeepSeek創始人梁文峰3.4.2 國內的大模型產品n通義千問通義千問是
21、阿里云推出的一個超大規模的語言模型,它具備多輪對話、文案創作、邏輯推理、多模態理解、多語言支持的能力。通義千問這個名字有“通義”和“千問”兩層含義,“通義”表示這個模型能夠理解各種語言的含義,“千問”則表示這個模型能夠回答各種問題。通義千問基于深度學習技術,通過對大量文本數據進行訓練,從而具備了強大的語言理解和生成能力。它能夠理解自然語言,并能夠生成自然語言文本同時,通義千問還具備多模態理解能力,能夠處理圖像、音頻等多種類型的數據。通義千問的應用范圍非常廣泛,可以應用于智能客服、智能家居、移動應用等多個領域。它可以與用戶進行自然語言交互,幫助用戶解決各種問題,提供相關的知識和信息。同時,通義千
22、問還可以與各種設備和應用進行集成,為用戶提供更加便捷的服務3.4.2 國內的大模型產品n字節跳動豆包豆包是字節跳動基于云雀模型開發的 AI,能理解你的需求并生成高質量回應。它知識儲備豐富,涵蓋歷史、科學、技術等眾多領域,無論是日常問題咨詢,還是深入學術探討,都能提供準確全面的信息。同時,具備出色的文本創作能力,能撰寫故事、詩歌、文案等各類體裁。并且擅長語言交互,交流自然流暢,就像身邊的知心伙伴,耐心傾聽并給予恰當反饋。3.4.2 國內的大模型產品n文心一言文心一言是由百度研發的知識增強大模型,能夠與人對話互動、回答問題、協助創作,高效便捷地幫助人們獲取信息、知識和靈感文心一言基于飛槳深度學習平
23、臺和文心知識增強大模型,持續從海量數據和大規模知識中融合學習,具備知識增強、檢索增強和對話增強的技術特色。文心一言具有廣泛的應用場景,例如智能客服、智能家居、移動應用等領域。它可以與用戶進行自然語言交互,幫助用戶解決各種問題,提供相關的知識和信息3.5 大模型的基本原理大模型是基于Transformer架構的,這種架構是一種專門用于自然語言處理的“編碼-解碼器”架構。在訓練過程中,大模型將輸入的單詞以向量的形式傳遞給神經網絡,然后通過網絡的編碼解碼以及自注意力機制,建立起每個單詞之間聯系的權重。大模型的核心能力在于將輸入的每句話中的每個單詞與已經編碼在模型中的單詞進行相關性的計算,并把相關性又
24、編碼疊加在每個單詞中。這樣,大模型能夠更好地理解和生成自然文本,同時還能夠表現出一定的邏輯思維和推理能力大模型基于深度學習利用大量的數據和計算資源訓練具有大量參數的神經網絡模型不斷地調整模型參數3.5 大模型的基本原理3.6 大模型的特點3.6 大模型的特點(1)巨大的規模大模型通常包含數十億個參數,模型大小可以達到數百GB甚至更大。這種巨大的規模不僅提供了強大的表達能力和學習能力,還使得大模型在處理復雜任務時具有更高的效率和準確性3.6 大模型的特點(2)涌現能力涌現能力是指模型在訓練過程中突然展現出之前小模型所沒有的、更深層次的復雜特性和能力。當模型的訓練數據突破一定規模時,模型能夠綜合分
25、析和解決更深層次的問題,展現出類似人類的思維和智能。這種涌現能力是大模型最顯著的特點之一,也是其超越傳統模型的關鍵所在3.6 大模型的特點(3)更好的性能和泛化能力大模型因其巨大的規模和復雜的結構,展現出更出色的性能和泛化能力。它們在各種任務上都能表現出色,超越了傳統的小模型。這主要歸功于大模型的參數規模和學習能力。大模型能夠更好地理解和模擬現實世界中的復雜現象,從而在各種任務中表現出更高的準確性和效率。它們能夠捕捉到數據中的微妙差異和復雜模式,使得在未見過的數據上也能表現優秀,即具有良好的泛化能力(4)多任務學習大模型的多任務學習特點使其能夠同時處理多種不同的任務,并從中學習到更廣泛和泛化的
26、語言理解能力。通過多任務學習,大模型可以在不同的NLP(Natural Language Processing)任務中進行訓練,例如機器翻譯、文本摘要、問答系統等。這種多任務學習的方式有助于大模型更好地理解和應用語言的規則和模式3.6 大模型的特點(5)大數據訓練大模型需要大規模的數據來訓練,通常在TB級別甚至PB級別。這是因為大模型擁有數億甚至數十億的參數,需要大量的數據來提供足夠的信息供模型學習和優化。只有大規模的數據才能讓大模型的參數規模發揮優勢,提高模型的泛化能力和性能。同時,大數據訓練也是保證大模型能夠處理復雜任務的關鍵。通過使用大規模數據,大模型能夠更好地理解數據中的復雜模式和關系
27、,從而更好地模擬現實世界中的各種現象(6)強大的計算資源大模型需要強大的計算資源來訓練和運行。由于模型規模龐大,參數數量眾多,計算復雜度極高,因此需要高性能的硬件設備來支持。通常,訓練大模型需要使用GPU(Graphics Processing Unit,圖形處理器)或TPU(Tensor Processing Unit,張量處理器)等專用加速器來提高計算效率。這些加速器能夠并行處理大量的參數和數據,使得大模型的訓練和推斷速度更快。除了硬件設備,大模型的訓練還需要大量的時間。由于模型參數眾多,訓練過程中需要進行大量的迭代和優化,因此,訓練周期可能長達數周甚至數月3.6 大模型的特點(7)遷移學
28、習和預訓練通過在大規模數據上進行預訓練,大模型能夠學習到豐富的語言知識和模式,從而在各種任務上展現出卓越的性能。遷移學習和預訓練有助于大模型更好地適應特定任務在大規模數據上進行預訓練后,大模型可以在特定任務的數據上進行微調,從而更好地適應目標任務的特性和要求。這種微調過程可以幫助大模型更好地理解和處理目標任務的特定問題,進一步提高模型的性能在特定任務的數據上進行微調遷移學習和預訓練也有助于大模型實現跨領域的應用。通過在多個領域的數據上進行預訓練,大模型可以學習到不同領域的知識和模式,并在不同領域中進行應用。這種跨領域的應用能力,有助于大模型更好地服務于實際需求,推動人工智能技術的創新和發展跨領
29、域的應用能力3.6 大模型的特點(8)自監督學習自監督學習利用大規模未標記數據進行訓練,通過從數據中挖掘內在的規律和模式,使模型能夠自動地理解和預測數據中的信息。在大規模的未標記數據中,大模型通過預測輸入數據的標簽或下一個時刻的狀態來進行訓練。這種訓練方式使得大模型能夠從大量的數據中自動地學習到語言的內在結構和模式,而不需要人工標注和干預3.6 大模型的特點(9)領域知識融合大模型通過領域知識融合,能夠將不同領域的數據和知識融合在一起,從而更好地模擬現實世界中的復雜現象領域知識融合使得大模型能夠從多個領域中學習到廣泛的知識和模式,并將這些知識和模式整合到統一的框架中3.6 大模型的特點(10)
30、自動化和效率大模型在應用中展現出高度的自動化和效率。由于大模型具有強大的表達能力和學習能力,它可以自動化許多復雜的任務,大大提高工作效率。大模型通過預訓練和微調過程,能夠自動地適應特定任務,而不需要過多的手工調整和干預。這使得大模型能夠快速地應用于各種實際場景,并且自動地處理復雜的任務,如自動編程、自動翻譯、自動摘要等3.7 大模型的分類3.7 大模型的分類語言大模型視覺大模型多模態大模型是指在自然語言處理(Natural Language Processing,NLP)領域中的一類大模型,通常用于處理文本數據和理解自然語言。這類大模型的主要特點是它們在大規模語料庫上進行了訓練,以學習自然語言
31、的各種語法、語義和語境規則。代表性產品包括GPT系列(OpenAI)、Bard(Google)、DeepSeek、文心一言(百度)等是指在計算機視覺(Computer Vision,CV)領域中使用的大模型,通常用于圖像處理和分析。這類模型通過在大規模圖像數據上進行訓練,可以實現各種視覺任務,如圖像分類、目標檢測、圖像分割、姿態估計、人臉識別等。代表性產品包括VIT系列(Google)、文心UFO、華為盤古CV、INTERN(商湯)等是指能夠處理多種不同類型數據的大模型,例如文本、圖像、音頻等多模態數據。這類模型結合了NLP和CV的能力,以實現對多模態信息的綜合理解和分析,從而能夠更全面地理解
32、和處理復雜的數據。代表性產品包括DingoDB多模向量數據庫(九章云極DataCanvas)、DALL-E(OpenAI)、悟空畫畫(華為)、midjourney等3.7 大模型的分類按照應用領域的不同,大模型主要可以分為L0、L1、L2三個層級是指可以在多個領域和任務上通用的大模型。它們利用大算力、使用海量的開放數據與具有巨量參數的深度學習算法,在大規模無標注數據上進行訓練,以尋找特征并發現規律,進而形成可“舉一反三”的強大泛化能力,可在不進行微調或少量微調的情況下完成多場景任務,相當于AI完成了“通識教育”通用大模型L0是指那些針對特定行業或領域的大模型。它們通常使用行業相關的數據進行預訓
33、練或微調,以提高在該領域的性能和準確度,相當于AI成為“行業專家”行業大模型L1是指那些針對特定任務或場景的大模型。它們通常使用任務相關的數據進行預訓練或微調,以提高在該任務上的性能和效果垂直大模型L23.8 大模型的應用領域3.8 大模型的應用領域大模型的應用領域非常廣泛,涵蓋了自然語言處理、計算機視覺、語音識別、推薦系統、醫療健康、金融風控、工業制造、生物信息學、自動駕駛、氣候研究等多個領域(1)自然語言處理大模型在自然語言處理領域具有重要的應用,可以用于文本生成(如文章、小說、新聞等的創作)、翻譯系統(能夠實現高質量的跨語言翻譯)、問答系統(能夠回答用戶提出的問題)、情感分析(用于判斷文
34、本中的情感傾向)、語言生成(如聊天機器人)等(2)計算機視覺大模型在計算機視覺領域也有廣泛應用,可以用于圖像分類(識別圖像中的物體和場景)、目標檢測(能夠定位并識別圖像中的特定物體)、圖像生成(如風格遷移、圖像超分辨率增強)、人臉識別(用于安全驗證和身份識別)、醫學影像分析(輔助醫生診斷疾?。┑?.8 大模型的應用領域(3)語音識別大模型在語音識別領域也有應用,如語音識別、語音合成等。通過學習大量的語音數據,大模型可以實現高質量的跨語言翻譯和語音識別以及生成自然語音(4)推薦系統大模型可以用于個性化推薦、廣告推薦等任務。通過分析用戶的歷史行為和興趣偏好,大模型可以為用戶提供個性化的推薦服務,提
35、高用戶滿意度和轉化率3.8 大模型的應用領域大模型可以用于自動駕駛中的感知、決策等任務。通過學習大量的駕駛數據,大模型可以實現對車輛周圍環境的感知和識別,以及進行決策和控制,提高自動駕駛的安全性和效率自動駕駛大模型可以用于醫療影像診斷、疾病預測等任務。通過學習大量的醫學影像數據,大模型可以輔助醫生進行疾病診斷和治療方案制定,提高醫療水平和效率醫療健康大模型可以用于信用評估、欺詐檢測等任務。通過分析大量的金融數據,大模型可以評估用戶的信用等級和風險水平,以及檢測欺詐行為,提高金融系統的安全性和穩定性金融風控3.8 大模型的應用領域工業制造大模型可以用于質量控制、故障診斷等任務。通過學習大量的工業
36、制造數據,大模型可以輔助工程師進行產品質量控制和故障診斷,提高生產效率和產品質量氣候研究在氣候研究領域,大模型可以處理氣象數據,進行天氣預測和氣候模擬。它們能夠分析復雜的氣象現象,提供準確的氣象預報,幫助人們做出應對氣候變化的決策生物信息學在生物信息學領域,大模型可以用于基因序列分析(識別基因中的功能元件和變異位點)、蛋白質結構預測(推測蛋白質的二級和三級結構)、藥物研發(預測分子與靶點的相互作用)等3.9大模型對人們工作和生活的影響3.9.1大模型對工作的影響3.9.2 大模型對生活的影響3.9.1大模型對工作的影響提高工作效率大模型在自然語言處理、機器翻譯等領域的應用,使得人們能夠快速、準
37、確地處理大量文本數據,提高工作效率。例如,在翻譯領域,大模型能夠自動翻譯多種語言,減少人工翻譯的時間和成本,提高翻譯效率優化決策過程大模型能夠收集、整理和分析大量的數據,通過數據挖掘和機器學習技術,幫助人們更準確地了解問題現狀,預測未來趨勢,從而做出更明智的決策自動化部分工作大模型的發展使得一些繁瑣、重復的工作可以由機器來完成,從而減輕了人們的工作負擔。例如,在金融領域,大模型可以自動分析大量的金融數據,幫助人們做出更準確的決策創造新的就業機會隨著大模型的普及和應用,將創造出許多新的就業機會。例如,需要更多的人來開發和維護大模型,也需要更多的人來利用大模型進行各種應用開發3.9.2 大模型對生
38、活的影響大模型在智能家居、智能客服等領域的應用,使得人們的生活更加便利、舒適。例如,通過智能家居系統,人們可以通過語音指令控制家電,實現智能化生活改善生活質量大模型在教育領域的應用,可以幫助人們更高效地學習新知識。例如,通過大模型的智能推薦功能,人們可以根據自己的興趣和需求,獲取更加個性化的學習資源提高學習效率大模型在娛樂領域的應用,可以提供更加豐富、多樣的娛樂體驗。例如,通過大模型的語音識別功能,人們可以通過語音指令控制游戲,實現更加智能化的游戲體驗增強娛樂體驗3.10 本地部署大模型3.10.1 為什么需要本地部署大模型離線與高效使用定制化與靈活性數據隱私與安全性成本與資源優化避免使用限制
39、本地部署大模型3.10.2 本地部署大模型方法安裝Ollama下載DeepSeek R1運行DeepSeek R1使用Open WebUI增強交互體驗具體安裝過程請參考廈門大學數據庫實驗室博客 https:/ 基于大模型的智能體3.11 基于大模型的智能體智能體(AI Agent),又稱“人工智能代理”,是一種模仿人類智能行為的智能化系統,它就像是擁有豐富經驗和知識的“智慧大腦”,能夠感知所處的環境,并依據感知結果,自主地進行規劃、決策,進而采取行動以達成特定目標。簡單來說,智能體能夠根據外部輸入做出決策,并通過與環境的互動,不斷優化自身行為。智能體本身既不是單純的軟件也不是硬件,而是一個更為
40、寬泛的概念,它們可以是軟件程序、機器人或其他形式的系統,具備一定的自主性和智能性。3.11 基于大模型的智能體基于大模型的智能體是指利用大語言模型(如GPT、BERT等)作為核心組件,構建的能夠執行特定任務、與環境交互并做出決策的人工智能系統。這些智能體具有自主性、交互性、適應性等特點,能夠模擬人類的認知和決策過程,提供更加自然、高效和個性化的交互體驗。它們能夠處理海量數據,進行高效的學習與推理,并展現出跨領域的應用潛力。3.11 基于大模型的智能體2025年1月23日,OpenAI發布了一個創新性的智能體Operator,它是一個能夠像人類一樣使用計算機的智能體。它基于OpenAI最新研發的
41、CUA(Computer-Using Agent)模型,CUA 將 GPT-4o 的視覺功能與通過強化學習獲得的高級推理相結合,經過訓練可以與圖形用戶界面(GUI,即人們在屏幕上看到的按鈕、菜單和文本字段)進行交互。Operator通過觀察屏幕并使用虛擬鼠標和鍵盤來完成任務,而無需依賴專門的API接口。這種設計使其可以適配任何為人類設計的軟件界面,帶來極高的靈活性。Operator好比一個博士水平的個人助理,你給他一個復雜的任務,它就會自動執行。Operator的主要功能包括自主完成諸如采購雜貨、提交費用報表、訂票、買日用品、填寫表格等任務,旨在通過自動化操作提升日常生活和工作效率。它還可以一
42、邊在StubHub搜索勇士隊比賽門票,一邊處理網球場預訂、尋找清潔服務和DoorDash訂餐,實現多任務并行處理。3.11 基于大模型的智能體2025年2月3日,OpenAI發布了一款新的智能體產品Deep Research。Deep Research由OpenAI o3模型的一個版本提供支持,該模型針對網頁瀏覽和數據分析進行了優化,它利用推理來搜索、解釋和分析互聯網上的大量文本、圖像和PDF,并根據需要根據遇到的信息做出調整。Deep Research具有以下四大核心技術:(1)數據雷達。會自動24小時掃描全球知識庫。(2)知識拼圖。能把零散的信息拼成完整的戰略地圖。(3)邏輯推理。發現矛盾
43、時,自動回溯、驗證,調整推理路徑。(4)學術裁縫??梢跃C合各種知識,生成完美的報告,還附帶文獻引用。3.11 基于大模型的智能體Coze(扣子)4.AIGC應用與實踐4.1 AIGC概述4.2 文本類AIGC應用實踐4.3 圖片類AIGC應用實踐4.4 語音類AIGC應用實踐4.5 視頻類AIGC應用實踐4.6 AIGC在輔助編程中的應用4.7 AI搜索4.8 AI智能辦公4.1 AIGC概述4.1.1 什么是AIGC4.1.2 AIGC與大模型的關系4.1.3 常見的AIGC應用場景4.1.4 AIGC技術對行業發展的影響4.1.5 AIGC技術對職業發展的影響4.1.6 常見的AIGC大模
44、型工具4.1.7 AIGC大模型的提示詞4.1.1 什么是AIGCAIGC的全稱為“Artificial Intelligence Generated Content”,中文翻譯為“人工智能生成內容”。這是一種新的創作方式,利用人工智能技術來生成各種形式的內容,包括文字、音樂、圖像、視頻等nAIGC是人工智能進入全新發展時期的重要標志,其核心技術包括生成對抗網絡(GAN,Generative Adversarial Networks)、大型預訓練模型、多模態技術等nAIGC的核心思想是利用人工智能算法生成具有一定創意和質量的內容。通過訓練模型和大量數據的學習,AIGC可以根據輸入的條件或指導,
45、生成與之相關的內容。例如,通過輸入關鍵詞、描述或樣本,AIGC可以生成與之相匹配的文章、圖像、音頻等nAIGC技術不僅可以提高內容生產的效率和質量,還可以為創作者提供更多的靈感和支持。在文學創作、藝術設計、游戲開發等領域,AIGC可以自動創作出高質量的文本、圖像和音頻等內容。同時,AIGC也可以應用于媒體、教育、娛樂、營銷、科研等領域,為用戶提供高質量、高效率、高個性化的內容服務4.1.2 AIGC與大模型的關系大模型與AIGC之間的關系可以說是相輔相成、相互促進的。大模型為AIGC提供了強大的技術基礎和支撐,而AIGC則進一步推動了大模型的發展和應用,具體如下:大模型為AIGC提供了豐富的數
46、據資源和強大的計算能力AIGC的需求也推動了大模型的發展大模型和AIGC的結合,也帶來了廣泛的應用前景020103AIGC可以應用于各行各業,主要包括但不限于生成文字、圖像、音頻、視頻等,具體如下:生成商品標題、描述、廣告文案和廣告圖電商寫周報日報,寫方案,寫運營活動,制作PPT,寫讀后感,寫代碼辦公生成場景原畫,生成角色形象,生成世界觀,生成數值,生成3D模型,生成NPC對話,音效生成游戲頭像生成,照片修復,圖像生成,音樂生成娛樂生成分鏡頭腳本,生成劇本腳本,臺詞潤色,生成推廣宣傳物料,音樂生成影視4.1.3 常見的AIGC應用場景原畫繪制,動畫生成,分鏡生成,音樂生成動漫寫詩,寫小說,生成
47、藝術創作品,草圖生成,藝術風格轉換,音樂創作藝術批改試卷,試卷創建,搜題答題,課程設計,課程總結,虛擬講師教育UI設計,美術設計,插畫設計,建筑設計設計軟文撰寫,大綱提煉,熱點撰寫媒體制定學習計劃,做旅游規劃生活4.1.3 常見的AIGC應用場景AIGC技術對行業發展的影響深遠且廣泛,主要體現在以下幾個方面:AIGC技術能夠自動生成高質量的文本、圖像、音頻和視頻等內容,極大地提高了內容創作的效率。在新聞、廣告、自媒體等領域,AIGC已經實現了廣泛應用,幫助創作者快速生成多樣化、個性化的內容,滿足市場需求。這種技術革新不僅降低了內容創作的成本,還激發了創作者的創新靈感,推動了內容產業的繁榮發展。
48、內容創作領域的革新AIGC技術在多個行業中展現了其提升生產力和降低成本的潛力。例如,在游戲開發領域,AIGC技術可以用于場景構建、角色互動等,減少人工制作的工作量,提高開發效率。在制造業中,AIGC技術可以輔助設計、優化生產流程,降低生產成本。這些應用使得企業能夠更快地響應市場變化,提升競爭力。生產力提升與成本降低AIGC技術通過提供個性化、定制化的內容和服務,顯著提升了用戶體驗。在智能客服、在線教育等領域,AIGC技術可以根據用戶的需求和偏好提供精準的服務,滿足用戶的個性化需求。這種以用戶為中心的服務模式不僅增強了用戶的滿意度和忠誠度,還為企業帶來了更多的商業機會。用戶體驗的升級AIGC技術
49、的快速發展為傳統行業帶來了轉型升級的契機。通過與AIGC技術的深度融合,傳統行業可以探索新的商業模式和服務模式,實現創新發展。例如,在零售業中,AIGC技術可以用于智能推薦、虛擬試衣等場景,提升購物體驗并促進銷售增長。在金融領域,AIGC技術可以應用于投資策略優化、風險管理等方面,提高金融機構的決策效率和準確性。推動行業創新與轉型4.1.4 AIGC技術對行業發展的影響AIGC技術對職業發展產生了深遠的影響,主要體現在以下幾個方面:傳統職業的轉型升級新興職業的出現隨著AIGC技術的快速發展,一系列與該技術相關的新興職業應運而生。例如,AI訓練師、機器學習工程師、數據標注員等職業需求激增。這些新
50、興職業不僅要求從業者具備扎實的技術基礎,還需要不斷學習和掌握最新的AIGC技術動態。AIGC技術也為傳統職業的轉型升級提供了契機。許多傳統職業如編輯、設計師、教師等,在AIGC技術的輔助下,工作效率和創作質量得到了顯著提升。同時,這些職業也需要從業者不斷適應技術變革,掌握新的技能和工具,以適應市場需求的變化。工作方式的變革AIGC技術改變了傳統的工作方式,使得遠程工作、靈活辦公成為可能。許多企業開始采用AIGC技術來優化工作流程,減少人力成本,提高工作效率。這種變革不僅為員工提供了更加靈活的工作方式,也為企業帶來了更大的經濟效益。持續學習與技能提升職業發展路徑的多樣化AIGC技術的發展為職業發
51、展路徑提供了更多的可能性。從業者可以根據自己的興趣和特長,選擇適合自己的職業發展方向。例如,一些對AI技術感興趣的從業者可以選擇成為AI訓練師或機器學習工程師,而一些具有創意和設計才能的從業者則可以利用AIGC技術來提升自己的創作能力。面對AIGC技術的快速發展,從業者需要不斷學習和提升自己的技能水平。通過參加培訓課程、閱讀專業書籍、參與技術論壇等方式,從業者可以緊跟技術前沿,保持自己的競爭力。4.1.5 AIGC技術對職業發展的影響常見的AIGC大模型工具包括:OpenAI的ChatGPTDeepSeek科大訊飛的訊飛星火阿里的通義千問百度文心一言字節跳動豆包Kimi這些工具基于大規模語言模
52、型技術,具備文本生成、語言理解、知識問答、邏輯推理等多種能力,可廣泛應用于寫作輔助、內容創作、智能客服等多個領域。通過不斷迭代和優化,為用戶提供更加智能、高效的內容生成解決方案4.1.6 常見的AIGC大模型工具 AIGC大模型的提示詞(Prompt)是指用戶向大模型輸入的文本內容,用于觸發大模型的響應并指導其如何生成或回應 這些提示詞可以是一個問題、一段描述、一個指令,甚至是一個帶有詳細參數的文字描述。它們為大模型提供了生成對應文本、圖片、音頻、視頻等內容的基礎信息和指導方向。提示詞的重要作用如下:提高準確性引導生成增強交互性4.1.7 AIGC大模型的提示詞使用提示詞需要注意一些技巧,這樣
53、可以從大模型獲得更加符合我們預期要求的結果,主要技巧如下:簡潔明確考慮受眾分解復雜任務使用肯定性指令示例驅動明確角色遵守規則自然語言回答4.1.7 AIGC大模型的提示詞4.2 文本類AIGC應用實踐4.2.1 案例1:與DeepSeek進行對話4.2.2 案例2:與百度文心一言進行對話4.2.3 案例3:使用訊飛智文生成PPT4.2.1 案例1:與DeepSeek進行對話1.快速體驗DeepSeek訪問DeepSeek官網(https:/ 案例1:與DeepSeek進行對話在提示詞輸入框中輸入“請模仿李白的望廬山瀑布做一首詩,題目是看廈門鼓浪嶼”,然后回車,或者用鼠標點擊提示詞輸入框右側的箭
54、頭按鈕,向DeepSeek發起提問。DeepSeek給出的回答如圖7-2所示,需要注意的是,大模型屬于概率模型,每次生成的回答內容可能不完全相同。1.快速體驗DeepSeek4.2.1 案例1:與DeepSeek進行對話2.DeepSeek的基本用法(1)基本原則:簡單直接,自然表達。無需復雜結構。直接描述需求即可,無需添加“角色扮演”(如“假設你是專家”)或復雜指令(如“用學術語言分三點回答”)。比如,你可以直接向DeepSeek提問“什么是光合作用?”、“如何用Python寫一個計算器程序?”,而不建議使用提示詞“請以生物學教授的身份,用三個段落解釋光合作用,每段不超過100字”。多輪對話
55、優化結果。如果首次回答不完整,可通過追問補充細節,無需一次性給出完美提示。比如,第一輪提問“寫一首關于秋天的詩”,第二輪提問“加入一些悲傷的情緒”,第三輪提問“把落葉換成比喻句”。(2)不同場景的提問技巧(非必需,但可提升效率)。雖然簡單提問即可滿足大多數需求,但在復雜任務中,適當提供背景信息或明確需求會讓結果更精準,具體技巧包括:知識類問題。比如,基礎提問是“量子力學的基本原理是什么?”,優化后的提問是“用通俗易懂的語言解釋量子糾纏,適合高中生理解”,創作類任務(寫作、編程等)。比如,基礎提問是“寫一個關于人工智能的科幻短篇故事”,優化后的提問是“寫一個反烏托邦主題的科幻故事,主角是女性工程
56、師,結局有反轉”。實用建議(學習、工作等)。比如,基礎提問是“如何提高英語聽力?”,優化后的提問是“我每天只有30分鐘學習時間,有哪些高效的英語聽力練習方法?”。復雜任務(數據分析、代碼調試)。比如,基礎提問是“這段Python代碼報錯了,幫我看看問題”,優化后的提問是“我的代碼目標是爬取網頁數據,但遇到SSL證書錯誤。報錯信息如下:粘貼代碼”。4.2.1 案例1:與DeepSeek進行對話作為初學者,DeepSeek的一些“魔法”指令也很有用,比如,你可以輸入“/步驟 如何機拍攝旅游照”,DeepSeek返回的回答結果就會按照步驟詳細給出拍攝旅游照片的說明,再比如,你可以輸入“請解釋量計算,
57、然后/簡化”,它就會返回比較簡明扼要的回答。2.DeepSeek的基本用法表 DeepSeek的“魔法”指令指令功能/續寫當回答中斷時動繼續成/簡化將復雜內容轉換成話/例要求展實際案例(特別是寫代碼時)/步驟讓AI分步驟指導操作流程/檢查幫你發現檔中的錯誤4.2.1 案例1:與DeepSeek進行對話3.使用DeepSeek處理文檔點擊DeepSeek界面中的回形針圖標上傳件,支持的文件類型包括文本類(PDF、DOCX、TXT、Markdown)、數據類(CSV、XLSX)和圖像類(JPG、PNG)。然后,就可以在對話框中輸入提示詞,比如,可以輸入“總結這份年報的三個核要點”、“提取合同中的責
58、任條款制成表格”、“對檔A和檔B的市場策略差異”、“從實驗報告中整理所有溫度數據”、“請識別圖片中的文字”等。也可以使用一些指令來處理文檔,如表7-2所示。表 用于文檔處理的DeepSeek指令功能指令模板應用場景內容摘要/總結 文件名 生成500字摘要快速把握長篇文檔核心內容問答提取/問答 文件名 第三章提到的技術參數是?精準定位特定信息數據可視化/可視化 文件名 將銷售數據生成折線圖轉化表格數據為圖形分析跨文檔對比/對比 文件A vs 文件B 的政策差異合同/論文查重對比還可以要求DeepSeek對回答結果進行結構化輸出,比如,可以輸入如下提示詞:/解析文件 年度報告.docx 輸出要求:
59、1.按營收/利潤/成本分類 2.用Markdown表格對比近三年數據 3.關鍵增長點用 標注(1)告訴文心一言你要的風格在輸入提示詞時,明確指定你希望生成的文本內容的風格。這樣,文心一言在理解并處理你的請求時,會更有針對性地調整其生成內容的風格,以滿足你的具體需求。比如,可以使用提示詞:請按照要求寫一篇200字左右關于云計算的介紹。注意事項:文章的受眾是中學生,需要通俗易懂,語言風格需要幽默、風趣一些想要生成不同語氣風格的文字,可以在問題描述中加入你想要的語氣風格作為限定條件,提示文心一言按照你的要求去輸出。比如,如果你需要正式語氣,可以在提示詞中加入“請采用正式的詞匯和語法結構,使內容顯得莊
60、重、嚴肅和專業”;如果你需要抒情語氣,請在提示詞中加入“請使用富有感情和表達感情的詞匯,使內容產生共鳴和情緒共振”;如果你需要口語化語氣,請在提示詞中加入“請運用口語化的表達方式,例如俚語、俗語和口頭禪,使內容更加輕松和親切”。4.2.2 案例2:與百度文心一言進行對話(2)告訴文心一言你要的結構在構建提示詞時,應明確指定期望的輸出結構。比如,如果是要求生成一篇文章,可以在提示詞中明確指出“請按照引言-正文-結論的結構來撰寫”。這樣,文心一言在生成內容時,會遵循這一結構框架,使得輸出更加條理清晰、邏輯嚴密。再比如,如果要撰寫給上級領導的方案、報告、總結時,可以使用提示詞:請按照【現狀/問題/解
61、決方案,數據洞察/問題概覽/調研方向,數據/亮點/問題/經驗】這個結構撰寫一份關于我國芯片行業的總結報告4.2.2 案例2:與百度文心一言進行對話(3)告訴文心一言你要的角色在提示詞中可以設定具體的角色或視角。例如,在要求創作故事時,可以明確指定“以一位勇敢探險家的視角講述這段經歷”。這樣的提示能引導文心一言在生成內容時,從特定角色的角度出發,賦予文本獨特的情感色彩和敘事風格。此技巧有助于增強生成內容的代入感和故事性,使內容更加豐富和引人入勝。下面是一段提示詞實例:請你作為一個小紅書文案撰寫高手,為我生成一篇爆款小紅書文案,要求:突出酒店的特色,包括海景房、豪華單間、最新裝修、免費早餐、無線上
62、網等下面是另一段提示詞實例:我希望你能扮演記者的角色,按照我的要求撰寫一份新聞調查,要求:調查油罐車不清洗直接運送食用油的事情,不要出現具體企業名稱,要給出政府部門的處理態度4.2.2 案例2:與百度文心一言進行對話(4)告訴文心一言你的內容要求可以通過詳細具體的提示詞明確表達內容要求。無論是希望生成的文章主題、關鍵詞匯,還是期望涵蓋的信息點、情感傾向,都應在提示詞中清晰呈現。這樣做能讓文心一言更準確地理解用戶需求,生成更符合期望的內容。比如,可以通過如下提示詞表達自己的內容要求:在6G專利申請方面,中國已經遙遙領先。2021年的數據顯示,中國的6G專利申請量占比高達40.3%,穩坐世界第一的
63、寶座。請把上面的數據更新到目前最新的數據4.2.2 案例2:與百度文心一言進行對話(4)告訴文心一言你的內容要求如果對輸出的內容有比較多的要求或限制,不妨在輸入框中將這些內容要求一條一條明確告訴文心一言,比如,可以采用類似如下的提示詞:請以小紅書的風格,按照以下要求幫我為“海景美食餐廳”寫一篇小紅書種草文案;內容要求:(1)要有標題、正文(2)標題字數:不超過20個字;盡量簡短精煉,要足夠吸引眼球,用詞浮夸(3)正文分段,層次分明,每段最少100字(4)要用“首先、其次、最后”這種模式(5)整篇文案不要超過1000個字4.2.2 案例2:與百度文心一言進行對話(5)告訴文心一言你想寫的文體明確
64、指定文體,如散文、小說、詩歌、科技文等,讓大模型理解并模擬該文體的語言特點、結構安排和表達習慣,從而輸出更具針對性的文本。比如,可以采用提示詞“請寫一段中秋賞月的朋友圈文案,需要采用藏頭詩的形式”4.2.2 案例2:與百度文心一言進行對話(6)指導文心一言分步解決問題將復雜問題拆解成多個簡單、具體的步驟,作為提示詞輸入給文心一言。這樣不僅能降低問題的處理難度,使文心一言更容易理解和響應,還能確保解決問題的過程更加系統、有條理。通過逐步引導,可以逐步逼近問題的解決方案,提高答案的準確性和實用性。比如,如果想讓文心一言幫你制定一份旅行規劃,可以使用類似如下的提示詞:請為我規劃一次為期一周的廈門自由
65、行;(1)第1步:列出必去的景點,如廈門大學、鼓浪嶼、環島路、五緣灣、曾厝垵;(2)第2步:根據景點位置安排每日行程,確保交通便利;(3)第3步:推薦幾家當地的特色餐廳,包括早餐、午餐和晚餐;(4)第4步:提供一家性價比高的酒店住宿建議,并考慮其位置是否便于游覽。4.2.2 案例2:與百度文心一言進行對話(7)告訴文心一言你要的示例明確溝通意圖,通過具體示例引導大模型理解你的需求。這有助于文心一言更準確地捕捉你的思維框架和期望結果,減少誤解。比如,可以使用類似如下的提示詞:我是一位高校教師,請幫我寫一份工作周報,內容盡量簡潔精煉,下面是我本周的工作內容:(1)完成了5個本科生畢業論文修改(2)
66、撰寫了教材的一個章節“云計算與大數據”輸出要求示例:【本周工作周報】【本周工作進展】本周做了哪些事,產生了哪些結果【下周工作安排】基于本周的結果下周要推進哪些事【思考總結】簡要說說本周的收獲和反思4.2.2 案例2:與百度文心一言進行對話(8)告訴文心一言你要的場景在輸入提示詞時,應明確描述所需的上下文或環境背景,如“在科幻電影中描述一個未來城市的景象”或“請撰寫一封給朋友的生日祝福信,場景設定在海邊日落時”。這樣做有助于文心一言更好地理解你的需求,生成更符合場景氛圍和情境的內容,從而提升輸出內容的貼切性和情感共鳴。4.2.2 案例2:與百度文心一言進行對話訊飛智文是科大訊飛公司旗下的AI一鍵
67、生成PPT/WORD的網站平臺,是基于科大訊飛星火認知大模型技術基礎上開發的一個具體應用,主要功能有文檔一鍵生成、AI 撰寫助手、多語種文檔生成、AI自動配圖、模板圖示切換功能。這里介紹如何使用訊飛智文快速生成PPT。請首先準備一個包含文本內容的PDF文件,比如,可以從網絡新聞報道中復制一段關于2024年7月19日微軟藍屏事件的內容保存到一個WORD文檔中,命名為“微軟藍屏.docx”,然后,使用WPS軟件打開“微軟藍屏.docx”,把該WORD文檔保存成PDF格式,生成“微軟藍屏.pdf”。4.2.3 案例3:使用訊飛智文生成PPT訪問訊飛智文官網(https:/ 案例3:使用訊飛智文生成P
68、PT在頁面中(如圖7-2 所示)點擊“開始制作”。在出現的頁面中(如圖7-3所示),選擇AI PPT的“文檔創建”。然后,在出現的頁面中(如圖7-4所示),點擊“點擊上傳”,把本地文件“微軟藍屏.pdf”文件上傳上去(當然,也可以上傳“微軟藍屏.docx”)。然后,在出現的頁面中(如圖7-5所示),點擊“開始解析文檔”。之后,頁面會顯示提示文字“好的,已收到您的要求,讓我先為您生成PPT標題和大綱”。過一會兒,就會顯示自動生成的PPT標題和大綱,如果你不滿意,可以點擊頁面底部的“重新生成”,如果滿意,可以直接點擊“下一步”。圖7-2 開始創作4.2.3 案例3:使用訊飛智文生成PPT圖7-3
69、選擇AI PPT中的“文檔創建”4.2.3 案例3:使用訊飛智文生成PPT圖7-4 上傳文件4.2.3 案例3:使用訊飛智文生成PPT圖7-5 開始解析文檔4.2.3 案例3:使用訊飛智文生成PPT在出現的頁面中(如圖7-6所示),選擇你想要的模板配色,比如,這里選擇“清逸天藍”,然后點擊頁面頂部的“下一步”。經過一段時間以后,頁面就會顯示自動生成的PPT(如圖7-7所示),點擊頁面右上角的“導出”,就可以把PPT保存到本地電腦中,然后,可以根據自己的需求,自己對PPT繼續進行修改和完善。在本地電腦中打開自動生成的PPT,可以看出,AI制作PPT的水平非常專業,邏輯清晰,配圖精美,超過了很多P
70、PT初級者的制作水平,可以大大提高普通用戶制作PPT的效率和水平。圖7-6 選擇模板配色4.2.3 案例3:使用訊飛智文生成PPT4.3 圖片類AIGC應用實踐4.3.1 圖片類AIGC應用場景4.3.2 圖片類AIGC案例實踐圖片類AIGC是一種基于人工智能技術生成圖片的方法,它利用深度學習、生成對抗網絡(GAN)等先進算法,通過學習和模仿大量圖像數據,能夠自動創作出高度真實和藝術化的圖片。AIGC在圖像生成、修復、風格轉換、藝術創作等領域展現出強大能力,為數字藝術、設計、游戲、電影等多個行業帶來創新解決方案。其優勢包括高效性、多樣性和自動化,能夠快速生成大量高質量的圖像內容,滿足各種復雜需
71、求。4.3 圖片類AIGC應用實踐圖片類AIGC的應用場景非常廣泛,主要包括圖像生成、圖像修復、圖像增強和圖像識別等方面:AIGC還可以修復損壞的圖像,如去除噪聲、填充缺失的部分等。這項技術對于保護和恢復古老的藝術作品、修復損壞的照片等具有重要意義。AIGC 能夠生成高度逼真的圖像,如人臉、動物、建筑物等。例如,OpenAI發布的DALL-E可以根據文本提示詞創作出全新的、原創的圖像,展示了AI在圖像創作方面的強大能力。通過對圖像進行增強處理,AIGC可以增加圖像的飽滿感和增強細節,使圖像質量得到提升。這在提升照片的視覺效果、改善圖像的清晰度和細節方面非常有用。AIGC在圖像識別方面也有廣泛應
72、用,可以識別圖像中的對象、場景和特征,如人臉識別、車牌識別等。這項技術對于安防監控、智能搜索、自動駕駛等領域的發展至關重要。圖像生成圖像識別圖像增強圖像修復4.3.1 圖片類AIGC應用場景 圖片類AIGC大模型主要包括Midjourney、Stable Diffusion SDXL、百度文心一格等。這里以百度文心一格為例介紹圖片類AIGC的使用方法。文心一格是一款由百度公司研發的AI繪畫工具,為用戶提供了豐富的創意空間。使用文心一格進行AI繪畫的步驟包括注冊賬戶、選擇創作模式、輸入提示詞、設置畫面類型、設置比例、設置數量以及生成圖片等,具體如下:(1)注冊賬戶:訪問文心一格官網(https:
73、/ 圖片類AIGC案例實踐圖 文心一格操作界面(3)輸入提示詞:在提示詞輸入框中輸入提示詞,比如輸入“請繪制一張圖片,一個9歲的女孩子在海邊沙灘上挖沙子”。(4)設置畫面類型:可以選擇智能推薦、唯美二次元、中國風等各種類型。(5)設置比例:可以選擇豎圖、方圖、橫圖。(6)設置數量:設置想要生成的圖片的數量,比如設置為1。(7)生成圖片:點擊“立即生成”,就可以生成相應的圖片(如圖所示)。圖片生成以后,可以點擊圖片底部的“編輯本圖片”,對圖片進行編輯。4.3.2 圖片類AIGC案例實踐文心一格提供了豐富的AI編輯功能,可以對圖片進行各種智能化處理,包括圖片擴展、圖片變高清、涂抹消除、智能摳圖、涂
74、抹編輯、圖片疊加等4.3.2 圖片類AIGC案例實踐4.4 語音類AIGC應用實踐4.4.1 語音類AIGC應用場景4.4.2 語音類AIGC案例實踐語音類AIGC是一種利用人工智能技術(特別是語音識別、自然語言處理和語音合成技術),自動生成和處理語音內容的技術。它能夠模擬人類語音,實現語音到文本的轉換、文本到語音的合成,以及語音情感分析等功能,廣泛應用于智能語音助手、智能客服、語音翻譯等多個領域。4.4 語音類AIGC應用實踐語音類AIGC的應用場景非常豐富,涵蓋了多個領域,從日常生活到專業應用,都展現出了其獨特的價值和潛力,以下是一些主要的語音類AIGC應用場景:應用場景01智能語音助手0
75、7智能駕駛艙與車載語音助手02智能客服06語音分析與情感識別03語音合成與轉換05語音翻譯04虛擬人物與數字人4.4.1 語音類AIGC應用場景n 豆包大模型的語音類功能用法一般情況下,普通用戶在手機上使用語音類AIGC大模型的場景比較多,因此,這里介紹手機版豆包的使用方法。圖 豆包的對話界面在智能手機上下載并安裝“豆包APP”。啟動進入豆包APP,會出現如圖所示的對話界面,按住“語音按鈕”(圖中箭頭指向的位置)不要松開,然后就可以對著手機說話,把自己的需求說出來,比如,可以說“請介紹一下廈門大學”,然后松開“語音按鈕”,豆包就可以立即開始回答你提出的問題。豆包可以支持實時翻譯,你可以語音輸入
76、“廈門大學的英文名稱是什么”,豆包會馬上給出翻譯結果。4.4.2 語音類AIGC案例實踐n 豆包大模型的語音類功能用法豆包不僅支持語音輸入,也可以支持文字輸入,只要在文字輸入框內輸入提示詞,豆包就會給出回答。豆包也支持AI繪圖功能,你可以用手指點擊界面上的“圖片生成”按鈕,然后輸入提示詞,比如通過文字或者語音輸入“請幫我繪制一張圖片,一個9歲的小女孩在海邊沙灘上玩沙子”,然后,豆包就會自動繪制生成滿足你要求的圖片4.4.2 語音類AIGC案例實踐n 豆包大模型的語音類功能用法豆包還有一個很實用的功能,就是可以幫助你進行英語口語對話練習。在豆包的操作界面的底部,用手指點擊“對話”,在出現的功能選
77、擇界面中(如圖所示),選擇“英語口語聊天搭子”就可以進入英語口語聊天界面(如圖所示),按住界面右下角的“語音按鈕”,就可以開始用英語語音聊天了,你說完一句英語,松開語音按鈕,豆包就會自動用英語語音回答你,然后你可以繼續輸入語音進行后續對話。圖 豆包的功能選擇界面圖 豆包的英語口語聊天界面4.4.2 語音類AIGC案例實踐n 訊飛智作大模型的語音類功能用法訪問訊飛配音官網(https:/ 語音類AIGC案例實踐n 訊飛智作大模型的語音類功能用法圖4-13 訊飛智作頁面圖4-14 訊飛配音頁面4.4.2 語音類AIGC案例實踐n 訊飛智作大模型的語音類功能用法圖4-15 選擇主播4.4.2 語音類
78、AIGC案例實踐n 訊飛智作大模型的語音類功能用法圖4-16 作品命名頁面圖4-17 訂單支付頁面4.4.2 語音類AIGC案例實踐n 訊飛智作大模型的語音類功能用法圖4-18 下載頁面圖4-19 點擊下載按鈕4.4.2 語音類AIGC案例實踐4.5 視頻類AIGC應用實踐4.5.1 視頻類AIGC應用場景4.5.2 代表性視頻類AIGC大模型4.5.3 視頻類AIGC案例實踐視頻類AIGC是指利用人工智能技術,特別是深度學習、機器學習等算法,自動創建或處理視頻內容的技術。它能根據給定的文本、圖像或其他數據,自動生成符合描述的視頻內容,涵蓋文生視頻、圖生視頻、視頻風格化、人物動態化等多個方向。
79、這一技術在創意設計、影視制作等領域潛力巨大,極大地提升了視頻內容的生產效率和質量4.5視頻類AIGC應用實踐視頻類AIGC在多個領域擁有廣泛的應用場景,以下是一些主要的應用方向:影視制作與后期制作短視頻與直播廣告與營銷教育與培訓虛擬現實與增強現實其他領域新聞傳播與媒體融合4.5.1 視頻類AIGC應用場景 視頻類AIGC大模型發端于Sora。2024年2月,美國的Open AI發布了全球第一款文生視頻大模型Sora(這里的“文生視頻”是指由輸入的文本內容生成相應的視頻),迅速引起了業界的廣泛關注和討論,因其能夠快速生成高質量的廣告宣傳視頻及商品演示視頻,從而大幅降低廣告相關內容的制作成本及時間
80、。我國的視頻類AIGC大模型主要包括:由快手推出,被譽為中國版Sora,視頻生成時長可達120秒,支持文生視頻、圖生視頻、視頻續寫、鏡頭控制等功能,表現出色??伸`生數科技聯合清華大學發布,是中國首個長時長、高一致性、高動態性視頻大模型,支持一鍵生成16秒高清視頻,性能對標國際頂尖水平。Vidu由上海人工智能實驗室研發,可生成分鐘級視頻,已用于央視AI動畫片千秋詩頌的制作,具備中國元素和高清畫質。書生筑夢由于視頻類AIGC大模型在使用時,會消耗大量的算力資源,使用成本很高,所以,目前國內的視頻類AIGC大模型大多數沒有免費開放給大眾使用,即使是免費使用,也只能生成很短時間長度的視頻。4.5.2
81、代表性視頻類AIGC大模型4.5.3 視頻類AIGC案例實踐案例:使用騰訊智影生成數字人播報視頻(備注:本案例由夏小云老師制作)步驟1:登錄騰訊智影平臺。在瀏覽器地址欄中輸入網址“https:/ 騰訊智影登錄界面圖7-108“數字人播報”功能入口4.5.3 視頻類AIGC案例實踐步驟2:上傳PPT。進入“數字人播報”功能界面后(如圖7-109所示),在左側工具欄,點擊“PPT模式”,平臺會出現“上傳PPT或PDF”的界面,點擊“上傳”按鈕,上傳需要播報的PPT,這里上傳“數字人播報PPT.ppt”文件(可以從林子雨編著數字素養通識教程教材官網下載)。圖7-109“PPT模式”上傳PPT入口4.
82、5.3 視頻類AIGC案例實踐步驟3:選擇數字人。PPT上傳結束后,點擊左側工具欄“數字人”按鈕,會出現“數字人”設置界面,包括“預置形象”和“照片播報”兩大板塊(如圖7-110所示)?!邦A置形象”分為“2D數字人”和“3D數字人”;“照片播報”分為“照片主播”和“AI繪制主播”兩種(如圖7-111所示)。這里選擇“預置形象”里面的“2D數字人”卓妤數字人,作為PPT播報的數字人。圖7-110“預置形象”的數字人圖7-111“照片播報”的數字人4.5.3 視頻類AIGC案例實踐步驟4:調整數字人的位置、大小和服裝類型。選用的數字人確認后,可以點擊PPT上的“數字人”,進入“數字人”設置界面,點
83、擊“數字人編輯”按鈕(如圖7-112所示),對“數字人”進行編輯,可以重新換服裝以及選擇數字人出現的“形狀”;點擊“畫面”按鈕,可以通過坐標設置來調整數字人的位置和大?。ㄈ鐖D7-113所示),也可以點擊數字人的邊框,通過拖動鼠標來調整數字人的位置和大小。這里可以根據PPT畫面的布局來調整“數字人”的位置和大小,盡量避免數字人遮擋文字。圖7-112“數字人編輯”功能界面確認服裝和形狀圖7-113 進入“畫面”功能界面調整數字人的位置和大小4.5.3 視頻類AIGC案例實踐步驟5:輸入播報內容和設置字幕樣式。數字人調整完成后,點擊右側工具欄的“播報內容”按鈕(如圖7-114所示),輸入播報內容,播
84、報內容可以AI自動生成,也可以手動輸入或導入文件(字數不超過5000字),這里選擇“手動輸入”每頁PPT的播報內容。點擊右側工具欄的“字幕樣式”按鈕(如圖7-115所示),設置視頻字幕的樣式并打開字幕顯示按鈕,通過鼠標拖動把字幕放置畫面的合適位置。圖7-114 輸入PPT播報內容圖7-115 設置字幕樣式并打開字幕按鈕4.5.3 視頻類AIGC案例實踐步驟5:根據需要添加“背景”、“貼紙”、“音樂”并選擇播報音色。輸入完播報內容后,可以點擊左側工具欄的“背景”、“貼紙”和“音樂”等功能(如圖7-116所示),根據需要添加,這里選擇不添加背景、貼紙和音樂。確認后,點擊“播報內容”輸入框下方的“音
85、色”按鈕,選擇合適的音色。這里選擇“如云”音色作為PPT的數字人播報音色(如圖7-117所示)。圖7-116 根據需要添加“背景”、“貼紙”、“音樂”圖7-117 選擇播報音色4.5.3 視頻類AIGC案例實踐步驟6:保存并生成播報。選擇完音色后,點擊“音色”下方的“保存并生成播報”按鈕(如圖7-118所示),選中每一頁PPT,逐一點擊保存并生成播報,注意,平臺此時生成的數字人播報效果預覽,暫不支持口型對齊預覽,合成后可查看完整動態效果。圖7-118 保存并生成播報4.5.3 視頻類AIGC案例實踐步驟7:合成并下載視頻。保存并生成每頁的PPT的播報后,點擊頁面右上方的“合成視頻”按鈕(如圖7
86、-119所示),然后設置合成視頻輸出的參數(如圖7-120所示),設置完成后點擊“確認”按鈕,系統后臺會自動合成數字人播報視頻,等待合成結束后,點擊“下載”按鈕(如圖7-121所示),下載合成的數字人播報視頻。最后,播放合成的視頻文件,檢查視頻畫面是否符合預期。如有需要,可以根據反饋調整參數,重新生成。圖7-119 點擊合成視頻圖7-120 合成視頻參數設置圖7-121 下載數字人播報視頻4.6 AIGC在輔助編程中的應用AIGC技術在輔助編程中的應用日益廣泛,它能夠自動生成高質量的代碼,從而顯著提高開發效率,主要包括以下幾種應用場景:代碼補全與提示代碼優化與重構代碼風格統一代碼自動生成應用場
87、景能夠提供輔助編程服務的AIGC大模型包括Codex、GitHub Copilot、CodeGeeX、aiXcoder、豆包、通義靈碼等。這里以我國的字節跳動公司研發的豆包大模型為例介紹使用方法。4.6 AIGC技術在輔助編程中的應用編程工作一般是在電腦上進行,所以這里使用電腦端的豆包大模型(手機端的豆包APP也提供了編程輔助功能)圖 豆包大模型操作首頁訪問豆包大模型官網(https:/ AIGC技術在輔助編程中的應用圖 豆包自動生成的Python代碼4.6 AIGC技術在輔助編程中的應用4.7 AI搜索4.7 AI搜索AI搜索,即人工智能搜索引擎,是一種利用先進的人工智能技術,特別是深度學習
88、和自然語言處理(NLP),來理解和響應用戶的查詢需求的新型搜索工具。它不僅僅是傳統搜索引擎(比如百度)的簡單升級,而是通過模擬人類的思維方式和行為模式,為用戶提供更加精準、個性化且高效的信息檢索服務。AI搜索通過收集和分析用戶的歷史搜索數據和行為模式,構建用戶畫像,從而實現更加精準的個性化搜索服務。這種數據驅動的智能決策機制,使得AI搜索能夠不斷自我優化,提升用戶體驗。納米AI搜索是360公司在2024年12月推出的全新AI搜索應用,結合了自然語言處理、機器學習以及專家協同技術,致力于打破傳統搜索引擎的局限,提供智能化、多樣化的搜索體驗。其核心特點包括:(1)多模態搜索:支持文字、語音、拍照、
89、視頻等多種輸入方式,滿足不同場景下的需求,實現“一切皆可搜索”。(2)智能工具集成:內置16款頂尖大模型,如豆包、文心一言等,為用戶提供一站式AI智慧體驗。(3)慢思考模式:通過專家協同和多模型協作,深入分析復雜問題,提供更專業、更全面的答案。4.8 AI智能辦公4.8 AI智能辦公在人工智能時代,AI智能辦公正以前所未有的態勢重塑我們的工作模式與體驗,成為推動辦公效率提升和辦公方式變革的核心力量。AI智能辦公將人工智能技術深度融入辦公場景的各個環節,例如文檔處理、數據分析、演示制作等。在文檔處理領域,AI智能辦公帶來了前所未有的變革。以往需要人工手動輸入文字、排版以及校對糾錯等工作需要耗費大
90、量時間和精力,如今AI文檔處理技術極大地提升了這些任務的效率與質量。具體如下:(1)生成式文本。通過對大量文本數據的學習,AI能夠根據用戶提供的提示詞、主題或簡單描述,快速生成內容完整、邏輯連貫的文檔初稿。無論是新聞稿件、公告通知還是學術論文,都能借助這一功能節省撰寫時間。例如,市場調研公司在需要撰寫季度報告時,AI可以迅速整合數據和市場趨勢信息,生成報告框架與初步內容,供使用者進一步完善。(2)文檔智能排版。AI能夠自動識別文檔內容的結構,如標題、段落、列表等,并根據用戶預設的格式模板進行快速排版。這不僅提高了排版效率,還確保了文檔格式的一致性和規范性。對于需要處理大量文檔的辦公人員來說,這
91、一功能大大減輕了工作負擔。4.8 AI智能辦公數據分析是辦公場景中的重要環節。傳統的數據分析需要人工進行數據收集、清洗、分析和可視化,過程煩瑣且容易出錯。而借助人工智能技術,這些工作可以更加高效、精準地完成。通過大模型算法,AI能夠從海量數據中發現潛在的模式、趨勢和關聯關系。例如,電商企業可以利用AI分析用戶的購買行為、瀏覽記錄和搜索關鍵詞,挖掘出用戶的潛在需求和消費偏好,從而制定精準的營銷策略。自動數據可視化功能讓數據分析結果的呈現更加直觀、清晰。AI能夠根據數據分析結果自動生成各種類型的表格圖表和圖形,如柱狀圖、折線圖、餅圖等,并進行合理的布局和配色。辦公人員無需花費大量時間手動制作圖表,就能快速將數據轉化為易于理解的可視化信息,為決策提供有力支持。4.8 AI智能辦公AI寫作助手(幫我寫、幫我改、AI伴寫)AI設計助手(AI排版、AI格式)AI閱讀助手(全文總結、文檔問答、劃詞解釋和翻譯)AI數據助手(AI寫公式、AI數據分析)4.9 總結大模型是人工智能領域的重要研究方向,其強大的語言理解和生成能力使得它在自然語言處理、機器翻譯、智能客服等領域有著廣泛的應用。大模型的訓練需要大量的數據和計算資源,同時也需要先進的技術和算法支持。隨著技術的不斷發展,大模型的應用場景也在不斷擴展,未來將會更加廣泛地應用于各個領域。謝謝