作者簡介
謝孟諺(Mr. GoGo),一位擁有豐富IT經驗的專業人士,曾任電腦教師、臺灣知識庫電子商務事業群總經理,目前為「無遠弗屆教學工作室」的負責人。作者曾經擔任電腦老師,十分了解AI和機器學習技術的發展,這也是他對生成式AI產生興趣的原因之一。而目前市面上出現數百家AI相關產品,大多數人都沒有方向,不知道要怎麼學習,作者因此決定撰寫本書,讓更多人了解和應用生成式AI技術。在作者職業生涯中,曾經擔任過事業群總經理,負責網路營運和網路推廣等方面的工作,熟悉網路行銷和市場推廣等技術,並能運用技術和資源創造價值。目前為「無遠弗屆教學工作室」負責人,致力為學生提供最好的教學體驗,已開發許多IT技術、網路行銷和網站架設等課程,並透過這些課程幫助許多學生實現夢想。無遠弗屆教學教室網站:https://gogoplus.netYoutube頻道7萬訂閱Line官方帳號6,300追蹤
作者自序
ChatGPT,這個名字對許多人來說似乎既熟悉又陌生,但究竟它代表了什麼?讓我們深入探究。首先,讓我們將這個名字拆解為兩部分:「Chat」和「GPT」。GPT,或稱為「生成式預測模型」,是一種人工智慧技術,它在近年來已經逐漸融入我們的日常生活。回顧歷史,你還記得二十年前,那個震撼世界的時刻嗎?當時,深藍電腦1戰勝世界國際象棋冠軍;如果這對你來說很遙遠,那或許你會記得2016年,當AlphaGo2(一款人工智慧系統)擊敗世界圍棋冠軍。不管你是否記得這些事件,它們都標誌著一個重要的事實:即使在那時,人們也沒有預見到人工智慧將在我們生活中扮演如此關鍵的角色。然而,2021年11月,ChatGPT的出現顛覆了我們對人工智慧的認知。而這個名字中的「GPT」三個字母,標誌著一個新時代的開始,一個人工智慧不僅僅在專業領域發揮作用,更是日常生活中不可或缺的一部分。ChatGPT的創新之處,在於它將先進的AI技術融入日常溝通,打開了人工智慧與人類互動的新篇章。為什麼叫做GPT?跟以往人工智慧有什麼不同?GPT 是 Generative Pre-trained Transformer 的縮寫,意即生成式預訓練的 Transformer 模型。現在讓我們來逐一了解這三個字代表什麼意思。首先來談談「G」,這代表「Generative」,中文翻譯為「生成式」。這表示這種 AI 模型的主要功能是創造出新的資料。AI 有許多不同的種類,過去我們較常見的是用於分辨型的 AI,比如手機上用於解鎖的人臉識別功能,就是利用分辨型 AI 達成的。然而,生成式 AI 則是一項相對於識別更為複雜的技術,它能夠創造出新的文字、圖片、影片等各種類型的資料。接下來是「P」,代表「Pre-trained」,中文解釋為「預訓練」。這指的是 AI 模型在使用之前已經完成了一定程度的訓練。GPT 模型的訓練最初是採用「無監督式」,即不涉及人工干預,也無需對數據進行特定的標注,而是將大量網絡上的資料直接輸入模型中進行學習。經過無監督式訓練的階段後,模型會進一步進行「微調」,這一階段涉及人類的介入,以調整和優化模型,使其輸出更符合人類的偏好和需求。最後的「T」代表「Transformer」,是由Google大腦(Google Brain)在 2017 年提出的一種深度學習模型架構,其核心機制是基於「注意力機制 (attention mechanism) 」來進行預測。GPT 就是建立在這種 Transformer 架構之上,並在此基礎上進行進一步的發展和優化。 透過對「Chat」和「GPT」兩詞的深入理解,我們可以揭示ChatGPT這款聊天機器人的本質:它是一種生成式的人工智慧。這種AI能創造全新的內容,且經過特殊的預訓練,使其能夠生成更接近人類偏好的回答,營造出彷佛擁有智慧的錯覺。在這個技術領域裡,GPT可被視為生成式人工智慧的「大腦」,而Chat則是指專注於對話的機器人。目前,一些知名的對話AI包括ChatGPT、Claude3、Bing和Google Bard。另外,我們還有針對圖像創作的AI,如Midjueny、DALL-E、PlayGround和Stable Diffusion等,以及專注於影片創作的AI,如Runway、Stable Video 和Pika等。隨著技術的進步,我們可以期待越來越多這樣的應用將逐漸出現在我們的日常生活中。換個角度來看,生成式人工智慧主要擅長於模仿人類的語言模式,從而提供看似準確的回答。然而,這並不意味著ChatGPT對現實世界有深入的理解,因此,它偶爾給出錯誤的回答也是在所難免的。雖然許多開發生成式AI的公司都致力於改善這一問題,但目前仍然沒有任何一家能夠保證完全避免錯誤。按照現有技術水平,完全避免這些錯誤似乎還不太可能。因此,使用AI技術的每個人都應承擔起核查信息真實性的責任。這不僅是對技術進步的尊重,也是對倫理的重視。想像一下,如果你是一位主廚,而ChatGPT是你的助理廚師,作為主廚,你有責任監督助理廚師的工作,以確保最終成品的品質。畢竟,不能讓助理廚師隨意烹飪,否則主廚又有何用?如果你能夠理解這一點,你將會擁有一位強大而且永不疲憊的助手,幫助你完成許多工作。我們正處於一個AI技術蓬勃發展的時代,各種創新的AI應用層出不窮,遠遠超出了ChatGPT的內容生成範疇。在這個快速變化的環境中,僅僅掌握ChatGPT等對話型AI的知識遠遠不夠,要想在未來的AI領域中脫穎而出,你需要採用一種多元化的學習策略,深入了解並掌握廣泛的AI技術。本書旨在提供一個全面的AI技術概覽,從基礎到進階,涵蓋了當今最激動人心的技術進展。其中包括AI在圖像生成、影片製作、面部替換(AI換臉)、聲音複製以及個人數字化複製等領域的應用。這些技術的發展不僅推動了媒體和娛樂行業的創新,也為健康、教育、安全等領域提供了前所未有的解決方案。本書將帶領讀者逐步了解這些技術背後的原理,探討它們的應用場景以及潛在的挑戰。我們將深入研究AI如何模仿、擴展,甚至超越人類的創造力,同時闡述如何在道德和法律框架內負責任地使用這些強大的工具。閱讀本書後,你將對AI的廣泛應用有一個清晰的認識,並且對於如何在未來的工作和生活中利用這些技術有更深的理解。無論你是AI領域的新手,還是有經驗的從業者,這本書都將為你提供寶貴的知識和洞察力,幫助你在AI時代保持競爭力。註1:「深藍(Deep Blue)」是一台由IBM開發的超級電腦,它在1997年戰勝了當時的世界國際象棋冠軍加里‧卡斯帕羅夫(Garry Kasparov)。這是人工智能領域的一個重大突破,因為它標誌著計算機程序首次在這種高水平的智力遊戲中戰勝了人類冠軍。深藍的勝利不僅展示了計算機處理複雜任務的能力,也引發了對人工智能發展潛力和未來影響的廣泛討論。註2:AlphaGo 是由 Google DeepMind 開發的一款人工智能程式,它在2016年戰勝了世界圍棋冠軍李世石(Lee Sedol)。這場比賽是人工智能發展史上的一個重要里程碑,因為圍棋被認為是所有棋類遊戲中最複雜的,在此之前普遍認為人工智能在可預見的未來難以在這個領域戰勝頂尖的人類選手。AlphaGo的勝利不僅展示了深度學習和人工智能技術的巨大潛力,也引發了對人工智能在各行各業應用前景的廣泛討論。
章節目錄
前言人工智慧通用知識篇第一章 更具人性且靈活的內容生成式人工智慧1-1 聽得懂人話的ChatGPT 1-2 比ChatGPT更接近人類的Claude 3 1-3 工作上最得力的AI小幫手—Copilot 1-4 拆解及組織內容更為出色的大型語言模型—Gemini 第二章 動動手指即有你想要的圖片—圖片生成式人工智慧2-1 圖片生成式AI的演變史2-2 只要打字,你也能成為藝術家—Dall-E2-3 透過對話下達關鍵指令,即可生成你想要的圖片—Dall-E 32-4 零基礎也可使用的圖片生成式AI—Stable Diffusion2-5首屈一指的AI生圖網站—Midjourney第三章 不會攝影也能生成影片—影片生成式人工智慧3-1 地表最強AI 影片生成長度—Sora 3-2 無需任何圖片或影像即可生成新的影片—Runway3-3 讓你的文字「動」起來—Pika3-4 免安裝即可快速生成影片—Stable Video Diffusion人工智慧多媒體進階技術篇第四章 以假亂真連專家也難分辨—人工智慧換臉(變臉)技術4-1 真假難辨的深度偽造技術(Deepfake),好用卻也危險 4-2 什麼是AI換臉技術?4-3 AI換臉到底是怎麼辦到的?4-4 一鍵生成,傻瓜換臉軟體—Swapface4-5 萬能君,三合一換臉軟體—Roop、FaceFusion、Rope4-6 蘋果電腦(Mac)或電腦小白皆可使用的換臉軟體—AKOOL第五章 親耳聽到不一定是真的—人工智慧複製(克隆)聲音5-1 人工智慧複製聲音從何開始?5-2 文本即可生成語音,超逼真—十一實驗室(ElevenLabs)5-3 只需1分鐘即可克隆聲音—GPT-SoVITS第六章 人工智慧創造一個人—數位人、數字人、虛擬人6-1 數字人的演變史6-2 數位人、數字人、虛擬人,你分清楚嗎? 6-3 D-ID讓靜態人臉照片說話了 6-4 免費照片數字人—萬能君,三合一換臉軟體6-5 創建專屬你的數字人—小冰數字人6-6 免費真人數字人—萬能君,三合一換臉軟體第七章 付費內容生成式人工智慧,你該選擇哪一個?7-1 Claude 3的評價7-2 付費ChatGPT4的評價7-3 付費Google Gemini的評價7-4 綜合比較與建議第八章 ChatGPT APP實用範例8-1 製作食譜8-2 規劃旅遊行程8-3 掌握時勢不脫節8-4 簡化複雜問題8-5 學習英文8-6 工作旅行翻譯機附錄:免費使用Suno AI創作屬於你自己的歌