AI生成時代:從ChatGPT到繪圖、音樂、影片,利用智能創作自我加值、簡化工作,成為未來關鍵人才
cover
目錄

代序 生成式AI 和智能數位化新時代——媲美新石器時代的文明典範轉移

前言 從機器學習到智慧創造

第一章 生成式AI:內容生產力的大變革

第一節 從PGC、UGC到生成式AI

第二節 生成內容創作的四大模態

第三節 生成式AI幫助元宇宙和Web3.0發展

第二章生成式AI的技術思想

第一節 前生成式AI時代的技術奠基

第二節 早期生成式AI的嘗試:GAN

第三節 AI繪畫的推動者:Diffusion模型

第四節 大模型的重要基建:Transformer

第三章 生成式AI的職能應用

第一節 產品研發

第二節 市場行銷

第三節 管理協作

第四章 生成式AI的行業應用

第一節 資訊行業應用

第二節 影視行業應用

第三節 電商行業應用

第四節 教育行業應用

第五節 金融行業應用

第六節 醫療行業應用

第五章 生成式AI的產業地圖

第一節 產業上游:資料服務

第二節 產業中游:演算法模型

第三節 產業下游:應用拓展

第六章 生成式AI的未來

第一節 生成式AI的技術趨勢

第二節 生成式AI時代的參與主體

第三節 生成式AI的風險與監管

附錄一 生成式AI產業地圖標的公司清單(部分)

附錄二 生成式AI術語及解釋

附錄三 生成式AI大事記

後記

試閱內容

第一章 生成式AI:內容生產力的大變革

萬物的智慧成本無限降低,人類的生產力與創造力得到解放。

——山姆.阿特曼(Sam Altman)

人工智慧經歷了從科幻小說走向現實應用的漫長歷程,如今已走進人們的日常生活。幾十年前,科學家的普遍觀念也許如愛達.勒芙蕾絲(Ada Lovelace) 所言:「機器不會自命不凡地創造任何事物,它只能根據我們能夠給出的任何指令完成任務。」電腦科學的先驅也許預料到了人工智慧的迅猛發展,但我們相信他們依然會對今天人工智慧取得的成就感到震驚。

自工業革命以來,「是否具備創造力」就被視為人類和機器最本質的區別之一。然而,今天的人工智慧卻打破了持續數百年的鐵律。人工智慧可以表現出與人類一樣的智慧與創意,例如撰寫詩歌、創作繪畫、譜寫樂曲,而人類創造出的智慧又將反哺人類自身。人工智慧生成內容 (Artificial Intelligence Generated Content,AIGC,以下簡稱為生成式AI) 的興起極大地解放了人類的內容生產力,將數位文明送入智能創作時代。我們有幸處於時代浪潮之巔,見證由技術進步帶來的全新變革。下面就讓我們一起走進生成式AI 的世界,探索智慧創作時代的無限可能。

第一節 從PGC、UGC到生成式AI

生產力是推進社會變革的根本動力,而生產工具則是衡量生產力發展水準的客觀標準,也是劃分經濟時代的物質標誌。從鑽木取火到機器大生產,生產力的發展推動了從農業社會到工業社會的社會躍遷。自第三次科技革命之後,網路成為連接人類社會的主要媒介,內容則是人們生產和消費的主要產品。網際網路經歷了Web1.0、Web2.0、Web3.0 與元宇宙時代,不同網路形態下也孕育了相輔相成的內容生產方式,並一直沿用至今。表1-1 呈現了內容生產方式從PGC(Professional-Generated Content,專業生成內容)到UGC(User-Generated Content,使用者生成內容),再到生成式AI 的發展歷程。下面就讓我們一起來瞭解一下每個內容生產時代的特點與故事吧!

三、生成式AI:智能創作時代

面對網路內容生產效率提升的迫切需求,人們突發奇想:是否能夠利用人工智慧去輔助內容生產呢?這種繼PGC、UGC 之後形成的、完全由人工智慧生成內容的創作形式,被稱為「人工智慧生成內容」(AIGC)。正如人們最初眺望Web3.0 時構想的「語義網」(Semantic Web) 一樣,未來的網路應該是更加智慧的網路,它不僅能夠讀懂各種語義資訊,還能從資訊識別角度解放人類的生產力。即便後來區塊鏈技術的蓬勃發展改變了Web3.0的指代,元宇宙也展現出網路浩瀚的未來,但內容的價值權利歸屬和虛擬空間的發展仍然需要更高效的內容生產方式,生成式AI 也就凝聚了人們對於未來的期待。

讓人工智慧這樣的非人機器學會創作絕非易事,科學家在過往做了諸多嘗試,並將這一研究領域稱為「生成式人工智能」(Generative AI),主要研究人工智慧如何被用於創建文本、音訊、圖像、影片等各種模態的資訊。為了便於理解,本書並不打算對「生成式人工智能」和「人工智能生成內容」的概念加以區分,在後續的內容中將全部以「生成式AI」作為指代。

最初的生成式AI通常由小模型展開,這類模型一般需要特殊的標註資料訓練,以解決特定的場景任務,通用性較差,很難被遷移,而且高度依賴人工調整參數。後來,這種形式的生成式AI 逐漸被基於大資料量、大參數量、強演算法的「基礎模型」取代,這種形式的生成式AI無須經過調整,或只需經過少量微調 (Fine-tuning) 就可以遷移到多種生成任務中。

2014 年誕生的GAN(Generative Adversarial Networks,生成對抗網路)是生成式AI 早期轉向基礎模型的重要嘗試,它利用生成器 (Generator) 和判別器 (Discriminator) 的相互對抗並結合其他技術模組,可以完成各種模態內容的生成。而到了2017 年,Transformer架構的提出,使得深度學習模型參數在後續的發展中得以突破1 億大關,這種基於超大參數規模的基礎模型,為生成式AI 領域帶來了前所未有的機遇。此後,各種類型的生成式AI 應用開始湧現,但尚未獲得社會大眾的廣泛關注。

2022 年下半年,兩個重要事件激發了人們對生成式AI的關注。2022 年8 月,美國科羅拉多州博覽會上,數位藝術類冠軍頒發給了由AI 自動生成並經由Photoshop 潤色的畫作《太空歌劇院》,消息一經發佈就引起了軒然大波。該畫作兼具古典神韻和太空的深邃奧妙,如此恢宏細膩的畫風很難讓人相信它是由AI 自動生成的作品,而它奪得冠軍的結果也大大衝擊了人們過往對於「人工智慧的創造力遠遜於人」的固有認知,自此徹底引爆了人們對於生成式AI 的興趣與討論。生成式AI 也自此從看似遙遠的概念逐步以生動有趣的方式走入人們的生活,帶來了過去令人難以想像的豐富體驗。

2022年11月30日,OpenAI發佈了名為ChatGPT的超級AI對話模型,再次引爆了人們對於生成式AI 的討論熱潮。ChatGPT 不僅可以清晰地理解使用者的問題,還能如同人類一般流暢地回答使用者的問題,並完成一些複雜任務,包括按照特定文風撰寫詩歌、假扮特定角色對話、修改錯誤程式碼等。此外,ChatGPT 還表現出一些人類特質,例如承認自己的失誤,按照設定的道德準則拒絕不懷好意的請求等。ChatGPT 一上線,就引發使用者爭相體驗,到處都是體驗與探討ChatGPT 的文章和影片。但也有不少人對此表示擔憂,擔心作家、畫家、程式設計師等職業在未來都將被人工智慧取代。

雖然存在這些擔憂,但人類的創造物終究會幫助人類自身的發展,生成式AI 無疑是一種生產力的變革,將世界送入智能創作時代。在智能創作時代,創作者生產力的提升主要表現為三個方面:

• 代替創作中的重複性工作,提升創作效率。

• 將創意與創作相分離,內容創作者可以從人工智慧的生成作品中找尋靈感與思考模式。

• 從海量預訓練資料和模型中引入的隨機性,有利於拓展創新的邊界,創作者可以產生前所未有的傑出創意。

即便如此,生成式AI 也並非完美無缺,「人工智慧生成的內容如何確定版權歸屬」、「生成式AI 是否會被不法分子利用,生成具有風險性的內容或用於違法犯罪活動」等一系列問題都是現在人們爭論的焦點。目前,學界與業界在嘗試從各個方面解決這些問題。但不管怎樣,生成式AI的迅猛發展已成不可逆轉之勢,智能創作時代的序幕正在緩緩拉開。

第二節 人工智慧賦能內容創作的四大模態

本節將從文本、音訊、圖像、影片四大模態角度介紹人工智慧賦能內容創作的相關案例。不過,為了更全面地介紹不同模態內容的生成應用,本節提供的案例將不僅僅包括引起本次生成式AI 熱潮的基礎模型應用,還包括利用傳統小模型的相關生成應用。

一、AI 文本生成

2014 年,在洛杉磯地震發生三分鐘後,《洛杉磯時報》就立刻發表了一篇相關報導。《洛杉磯時報》之所以能夠在這麼短的時間內完成這一創作壯舉,是因為公司早在2011年就開始研發名為Quakebot 的自動化新聞生成機器人,它可以根據美國地質調查局產生的資料自動撰寫文章。這些新聞媒體機構最初撰稿借助的AI 工具大多是外部採購的,而在智能創作時代的背景下,許多媒體機構已經開發了內部AI,比如英國廣播公司的「Juicer」、《華盛頓郵報》的「Heliograf」,而彭博社發佈的內容有近三分之一是由一個叫「Cyborg」的系統生成的。

中國媒體在AI 撰稿領域也有相關嘗試。例如,2016 年5 月,四川綿陽發生4.3 級地震時,中國地震臺網開發的地震資訊播報機器人在6 秒內寫出了560 字的快速報導;2017年8 月,當四川省阿壩州九寨溝縣發生7.0 級地震時,該機器人不僅翔實地撰寫了有關地震發生地及周邊的人口聚集情況、地形地貌特徵、當地地震發生歷史及發生時的天氣情況等基本資訊,還配有5 張圖片,全過程不超過25 秒;在後續的餘震報導中,該機器人的最快發佈速度僅為5 秒。

以上便是AI 進行結構化寫作的典型範例,雖然上述案例都與新聞撰寫相關,但AI 在文本生成領域的應用絕不僅限於此。AI 文本生成的方式大體分為兩類:非互動式文本生成與互動式文本生成。非互動式文本生成的主要應用方向包括結構化寫作(如標題生成與新聞播報)、非結構化寫作(如劇情續寫與行銷文本)、輔助性寫作。其中,輔助性寫作主要包括相關內容推薦及潤色,通常不被認為是嚴格意義上的生成式AI。互動式文本生成則多用於虛擬男/女友、心理諮詢、文本交互遊戲等涉及互動的場景。

前文提到的新聞播報就屬於結構化寫作,通常具有比較強的規律性,能夠在有高度結構化的資料作為輸入的情況下生成文章。同時,AI 不具備個人色彩,行文相對嚴謹、客觀,因此在地震資訊播報、體育快訊報導、公司年報資料、股市訊息等領域具有較大優勢。中國許多知名媒體旗下都有這種類型的AI 小編,包括新華社的「快筆小新」、第一財經的「DT 稿王」、《南方都市報》的「小南」、封面新聞的「小封」、騰訊財經的Dreamwriter」,以及今日頭條的「Xiaomingbot」等。

AI 結構化寫作還可以被用於生成自動標題與摘要,它可以透過自然語言處理(Natural Language Processing,簡稱NLP)對一篇純文字內容進行讀取與加工,從而生成標題與摘要。以Github 上標題生成的GPT2-NewsTitle 專案為例,輸入文本內容:「今日,中國三條重要高鐵幹線——蘭新高鐵、貴廣鐵路和南廣鐵路將開通運營。其中蘭新高鐵是中國首條高原高鐵,全長1,776 公里,最高票價658 元。貴廣鐵路最高票價320 元,南廣鐵路最高票價206.5 元,這兩條線路大大縮短西南與各地的時空距離。」可以得到AI 反饋的標題:「中國『高鐵版圖』再擴容,三條重要高鐵今日開通」。提煉的標題簡約而精準,實用價值性高。

而相較於這種結構化寫作,非結構化寫作會更有難度。非結構化寫作如詩歌、小說/劇情續寫、行銷文案等,都需要一定的創意與個性化,然而即便如此,AI 也展現出了令人驚歎的寫作潛力。

三、AI 圖像生成

你是否在生活中使用過修圖軟體?如果使用過,那麼很有可能在你未曾注意到的時候,就已經在接觸AI 生成圖像了,比如去除浮水印、添加濾鏡等都屬於廣義上AI 圖像生成的範疇。

目前,生成式AI 在圖像生成方面有兩種最成熟的廣泛使用場景:圖像編輯工具與圖像自主生成。圖像編輯工具的功能包括去除浮水印、提高解析度、特定濾鏡等。圖像自主生成其實就是近期興起的AI 繪畫,包括創意圖像生成(隨機或按照特定屬性生成畫作)與功能性圖像生成(生成logo、模特兒素材照片、行銷海報等)。

2022 年下半年,AI 繪圖無疑成為最熱門的話題,不少人都樂此不疲地在自己的社交平臺上分享各種形式的AI 繪畫作品。從參與感與可玩度來看,AI 繪畫大致可以分為三類:借助文字描述生成圖像、借助已有圖像生成新圖像,以及兩者的結合版。

當被問及周圍最早一批使用AI 繪畫軟體的使用者為什麼喜歡AI 繪畫時,有人這樣回答道:「我小時候就喜歡畫畫,但天賦實在有限,家裡覺得既然沒辦法考上藝術學校,還是好好學習更重要,就沒有花太多精力在上面。但現在,AI 繪畫完成了我曾經的夢想。」曾經,那些因為各種各樣原因放棄繪畫或沒有學繪畫的人,在這個時代也能僅憑輸入幾個詞語、一段文字,就能得到一張還不錯的繪畫作品。如圖1-2所示,在AI 繪畫工具Stable Diffusion 上輸入「一座復古未來主義的空中浮島」的英文,便可以得到一張生動的圖片。

你是否也覺得這很神奇,仿佛魔法一般?事實上,從文本到圖像的生成真的有「咒語」存在,這個「咒語」就是被用來激發創作與思考的關鍵字。關鍵字可以是一個問題、一個主題、一個想法或一個概念,在AI 繪畫的語境下可以簡單理解為「餵給」AI 進行創作的一組靈感片語,通常是對自己設想作品的簡要描述。

現在流行的英文AI 繪畫工具Stable Diffusion、DALL.E 2、Midjourney,以及中文AI 繪畫工具如文心一格、意間AI繪畫、AI Creator 等,都會在創作時引導你輸入「咒語」。如果你暫時缺乏靈感,有些平臺也會提供「自動生成」選項,讓AI 幫你自主搭配,然後在其基礎上進行你想要的修改。

伴隨著AI 繪畫技術的逐漸成熟,AI 插畫也被用作一些具有功能性的場景中。例如,2022 年6 月11 日,著名雜誌《經濟學人》首次採用了AI 插畫作為封面,作品名為《AI 的新邊界》(AI's new frontier)。在封面油畫風格的分割色塊背後,有著一張具備少量機械特徵的人臉,預示著AI 將以全新的面貌出現在我們面前,拓展人類技術的新邊界。

除了可能提高封面插圖類的設計效率外,AI 繪畫目前也被用於遊戲開發環節,包括前期的場景與人物圖輔助等,此外也有部分遊戲工作者正在探索基於Stable Diffusion 生成遊戲資產,比如遊戲圖示及遊戲內的道具。

雖然AI 繪畫對內容生產力的提升具有很大幫助,但也引發了許多人的憂慮,許多藝術家擔心AI 繪畫可能會因為訓練樣本的選取而剽竊自己的作品元素,也擔心這些AI 生成的作品被用於一些欺騙性的用途,危害到人類自身。

針對AI 與人類的辯題,Midjourney 的創始人大衛.霍爾茲(David Holz) 這樣評價:「AI 是水,而非老虎。水固然危險,但你可以學著游泳,可以造舟,可以造堤壩,還能借此發電;水固然危險,卻是文明的驅動力,人類之所以進步,正是因為我們知道如何與水相處並利用好它。水給予更多的是機會。」

藝術家是否買單尚且不論,投資人已經開始競相押注。2022 年10 月17 日,Stable Diffusion 的母公司Stability AI 宣佈完成1.01 億美元融資,成為估值10 億美金的超級獨角獸。隨後,不到一個月,另一家AI 繪畫平臺Jasper.AI 宣佈完成了1.25 億美元A 輪融資,估值達15 億美元,距離產品上線也不過18 個月的時間。

從技術開發到實際應用固然有一定時間差,但值得驚喜的是,至少在圖像生成領域,我們正看到日益成熟的應用場景以及商業化的可能性。

商品簡介

未來2~5年將是AI 生成的時代

史上用戶最快破億、開啟產業新動能的技術,你跟上了嗎?

如何運用新技術節省時間、提高效率、開發新市場?

每個人都需要的未來金鑰、想了解的全都在書裡!

人工智慧全面壓境,你害怕被取代嗎?

打不贏就加入他!知己知彼是存活獲勝的唯一方法。

只要你不是今年將退休、未來還是必須持續工作的人,就一定要了解「生成式AI」。

什麼是生成式AI?

生成式AI是一種透過學習模型與歷史數據,自動產生出一個全新生成內容成品的人工智慧,在ChatGPT橫空出世後,更被認為世界在不久後將進入AI紀元。

未來會有哪些行業需要生成式AI?

以下行業都可以應用到:資訊業、影視業、電商業、教育業、金融業、醫療業。

生成式AI可以快速分析大量數據,幫你做到最大規模的資料收集,並且將任務自動化、簡化你的工作流程,節省至少50%的時間,提高生產力。

你可以把生成式AI當成隨身助理或者即時翻譯,大幅降低溝通成本,與國際交流合作。

我可以用生成式AI賺錢嗎?

除了各行業的技術應用,你還可以在產業鏈上尋找創業、投資的機會。

這本書中有生成式AI的產業地圖,包含上、中、游各種類型模式和代表的公司,幫你輕鬆找到適合的切入點。

這是一本寫給所有未來必須繼續工作的人的書──

以前的AI只是分析工具,它會幫我們蒐集並分析海量數據,由我們做出最終決策;2023年AI進化了,它現在不僅會分析、會根據不同情境做出最佳選擇,甚至還能創作,這讓我們開始有威脅感,害怕會被取代。

這本書就是要告訴你,如何運用生成式AI的內容創作力為自己加值、它擁有哪些的優勢與劣勢,幫助你跟上時代趨勢,抓住每一次機會,成為無可替代的角色。

無論你是受雇用的工作者、創業者或是投資人,你都可以從這本書的多個角度找到你要的答案,搶先開始布局。

本書全面介紹AI生成四大領域╳三種自我提升技巧╳上中下游產業模式╳跨領域應用,讓生成式AI幫你節省時間、加速成長,掌握產業翻轉趨勢與未來機遇,打造新時代的職涯地圖。無論是工作轉型、職能進化還是投資標的探索,本書就是最佳預習盤點!

作者簡介

杜雨

中國社會科學院大學技術經濟學博士研究生,北京大學金融學碩士,香港中文大學理學碩士,武漢大學經濟學學士。胡潤U30中國創業先鋒,G20青年企業家聯盟中國理事會青年委員。先後工作於騰訊、紅杉資本,關注數字經濟與科技創新,曾參與騰訊音樂娛樂集團合併上市,並參與投資管理得物、超級猩猩、文和友等創新型企業。北京大學未名創投協會和科技創業加速器QAQ(Quadratic Acceleration Quantum)創始人。著有《WEB3.0:賦能數字經濟新時代》。

張孜銘

北京大學管理學碩士,新加坡國立大學金融工程碩士,華中師範大學信息管理與信息系統、華中科技大學計算機科學與技術雙學士。元宇宙教育實驗室智庫專家,未可知文化科技與科技創業加速器QAQ聯合創始人。著有《WEB3.0:賦能數字經濟新時代》。

作者自序

前言

從機器學習到智慧創造

不知道你有沒有想過這個問題:是什麼讓我們得以思考?

從如同一張白紙的嬰兒,成長為洞悉世事的成人,正是長輩的教誨和十年寒窗塑造了我們如今的思考能力。學習,似乎就是智慧形成的最大奧秘。

人類崇尚智慧,嚮往智慧,並不斷利用智慧改造世界。走過農業革命,邁過工業革命,迎來資訊革命,一次又一次對生產力的改造讓人們相信,人類的智慧最終也能創造出人工的智慧。

數十年前,圖靈拋出的時代叩問「機器能思考嗎?」將人工智能從科幻拉至現實,奠定了後續人工智慧發展的基礎。之後,無數電腦科學的先驅開始解構人類智慧的形成,希望找到賦予機器智能的蛛絲馬跡。正如塞巴斯蒂安.特倫(Sebastian Thrun) 所說:「人工智慧更像是一門人文學科。其本質在於嘗試理解人類的智慧與認知。」如同人類透過學習獲得智慧一樣,自20 世紀80 年代起,機器學習成為人工智慧發展的重要力量。

機器學習讓電腦從數據中汲取知識,並按照人類所期望的,按部就班執行各種任務。機器學習在造福人類的同時,似乎也暴露出了一些問題,這樣的人工智慧並非人類最終期望的模樣,它缺少了人類「智慧」二字所涵蓋的基本特質—創造力。這個問題就好像電影《機械公敵》(I,Robot) 中所演繹的一樣,主角曾與機器人展開了激烈的辯論,面對「機器人能寫出交響樂嗎?」「機器人能把畫布變成美麗的藝術品嗎?」等一連串提問,機器人只能譏諷一句:「難道你會?」這也讓創造力成為區分人類與機器最本質的標準之一。

面對廬山雄壯的瀑布時,李白寫出「飛流直下三千尺,疑是銀河落九天」的千古絕句,感慨眼前的壯麗美景;偶遇北宋繁榮熱鬧的街景時,張擇端繪製《清明上河圖》這樣的傳世名畫,記錄下當時的市井風光與淳樸民風;邂逅漢陽江口的知音時,伯牙譜寫出《高山流水》,拉近了秋夜裡兩位

知己彼此的心靈。我們寫詩,我們作畫,我們譜曲,我們盡情發揮著創造力去描繪我們的所見所聞,我們因此成為人類的一分子,這既是智慧的意義,也是我們生活的意義。

但是,人類的創造力真的不能賦予機器創造力嗎?答案顯然是否定的。

在埃米爾.博雷爾1913 年發表的《靜態力學與不可逆性》論文中,曾提出這樣的思想實驗:假設猴子學會了隨意按下打字機的按鈕,當無限隻猴子在無限台打字機上隨機亂敲,並持續無限久的時間,在某個時刻,將會有猴子能打出莎士比亞的全部著作。雖然最初這只是一個說明概率理論的例子,但它也詮釋了機器具備創造力的可能性。只不過具備的條件過於苛刻,需要在隨機性上疊加無窮的時間量度。

在科學家們的不懈努力下,這個時間量度從無限被縮減至了有限。隨著深度學習的發展和基礎模型的廣泛應用,生成式人工智慧已經走向成熟,人們沿著機器學習的路,探索出如今的智能創作。在智能創作時代,機器能夠寫詩,能夠作畫,能夠譜曲,甚至能夠與人類自然流暢地對話。生成

式AI 將帶來一場深刻的生產力變革,而這場變革也會影響人們工作與生活的方方面面。本書希望透過生動的比喻和有趣的案例,用淺顯易懂的語言,讓每個人都能真切地參與這一次轟轟烈烈的科技革命,一起迎接全新的智能創作時代。

名人推薦

各領域專家一致推薦——

Jenny|JC財經觀點創辦人

于為暢|自媒體事業教練

朱楚文|科技財經主播主持人

陳縕儂|台灣大學資訊工程學系副教授

程世嘉|iKala 共同創辦人暨執行長

黃思齊|我是文案創辦人

NeKo嗚喵|說書YouTuber

(依姓氏筆畫排序)

AI生成時代:從ChatGPT到繪圖、音樂、影片,利用智能創作自我加值、簡化工作,成為未來關鍵人才
AIGC:智能創作時代
作者:杜雨、張孜銘
編者:鄭淇丰
出版社:英屬維京群島商高寶國際有限公司台灣分公司
出版日期:2023-03-11
ISBN:9789865066857
定價:520元
特價:79折  410
特價期間:2024-06-12 ~ 2024-07-31其他版本:二手書 67 折, 348 元起