สเตเบิลดิฟฟิวชัน

สเตเบิลดิฟฟิวชัน
นักพัฒนากลุ่ม CompVis (มหาวิทยาลัยมิวนิก)[1]
วันที่เปิดตัว22 สิงหาคม 2022
รุ่นเสถียร
SDXL 1.0 (ตัวแบบ)[2] / 26 กรกฎาคม 2023
ที่เก็บข้อมูลgithub.com/Stability-AI/stablediffusion
ภาษาที่เขียนไพธอน
ระบบปฏิบัติการระบบปฏิบัติใด ๆ ที่รองรับ CUDA
ประเภทtext-to-image
สัญญาอนุญาตCreative ML OpenRAIL-M
เว็บไซต์stability.ai

สเตเบิลดิฟฟิวชัน (Stable Diffusion) คือตัวแบบปัญญาประดิษฐ์แบบรู้สร้างซึ่งเปิดตัวในปี 2022 โดยพื้นฐานแล้วจะทำการสร้างภาพตามข้อความสั่ง (text-to-image) แต่นอกจากนี้ยังสามารถสร้างภาพขึ้นจากภาพ (image-to-image) การวาดเติมภายใน (inpainting), การวาดเติมภายนอก (outpainting) ได้ด้วย[3]

สเตเบิลดิฟฟิวชันเป็นแบบจำลองแบบแพร่แบบแฝงชนิดหนึ่งซึ่งอาศัยโครงข่ายประสาทเทียมทำการเรียนรู้เชิงลึก พัฒนาขึ้นโดยกลุ่ม CompVis ที่มหาวิทยาลัยมิวนิก โดยเป็นผลงานร่วมกันระหว่างบริษัท Stability AI, CompVis LMU และ Runway โดยได้รับการสนับสนุนจาก EleutherAI และ LAION[4][1][5] ในเดือนตุลาคม 2022 ทาง Stability AI ระดมทุนได้ 101 ล้านดอลลาร์สหรัฐ[6]

รหัสต้นทางและค่าพารามิเตอร์น้ำหนักของสเตเบิลดิฟฟิวชันนั้นได้รับการเปิดเป็นสาธารณะ[1] และสามารถทำงานบนฮาร์ดแวร์สำหรับผู้บริโภคส่วนใหญ่ที่มีการติดตั้ง GPU ที่มี VRAM อย่างน้อย 8GB จึงกล่าวได้ว่าสเตเบิลดิฟฟิวชันนั้นมีความแตกต่างจากตัวแบบแปลงข้อความเป็นรูปภาพแบบดั้งเดิมที่เป็นซอฟต์แวร์จำกัดสิทธิ์ เช่น DALL-E และมิดเจอร์นีย์ ซึ่งเข้าถึงได้ผ่านบริการคลาวด์เท่านั้น[7][8]

สเตเบิลดิฟฟิวชันได้ทำการกวาดรวบรวมข้อมูลภาพนับพันล้านภาพจากอินเทอร์เน็ตเพื่อใช้เป็นข้อมูลในการเรียนรู้ แต่ภาพเหล่านี้ส่วนใหญ่มีลิขสิทธิ์ และไม่ได้รับความยินยอม จึงมีข้อพิพาทว่าภาพดังกล่าวละเมิดกฎหมายหรือไม่ อยู่ภายใต้การใช้งานโดยชอบหรือไม่ และเป็นไปอย่างถูกต้องหรือไม่ โดยทาง Stability AI ได้ถูกฟ้องร้องมากมายหลายคดี[9]

เทคโนโลยี

โครงสร้างสถาปัตยกรรมของสเตเบิลดิฟฟิวชัน

โครงสร้างสถาปัตยกรรม

สเตเบิลดิฟฟิวชันได้รับการสร้างขึ้นมาจากแบบจำลองแบบแพร่ชนิดหนึ่งที่เรียกว่า แบบจำลองการแพร่แบบแฝง (latent diffusion model, LDM) [1] เริ่มปรากฏการใช้งานตั้งแต่ในปี 2015 โดยได้รับการฝึกเพื่อจุดประสงค์ในการกำจัดสัญญาณรบกวนแบบเกาส์ ที่ถูกเพิ่มเข้าไปในภาพต้นฉบับสำหรับฝึกเรียนรู้อย่างต่อเนื่อง และใช้ตัวเข้ารหัสอัตโนมัติ (autoencoder)

ตัวแบบสเตเบิลดิฟฟิวชันประกอบขึ้นจาก 3 ส่วนหลักคือ ตัวเข้ารหัสอัตโนมัติแบบแปรผัน (VAE), U-Net และตัวเข้ารหัสข้อความ[10] VAE จะทำการบีบย่อจากปริภูมิพิกเซลไปเป็นปริภูมิแฝงซึ่งอยู่ในมิติที่ต่ำกว่า เพื่อจับความหมายพื้นฐานของภาพ[11] ค่าที่ถูกแปลงให้อยู่ในรูปของปริภูมิแฝงนี้จะเข้าสู่กระบวนการที่เรียกว่ากระบวนการแพร่ไปข้างหน้า (forward diffusion process) ซึ่งมีการป้อนสัญญาณรบกวนแบบเกาส์ให้อย่างต่อเนื่อง[10] ก้อน U-Net ที่มีส่วนประกอบของ ResNet จะทำการลดสัญญาณรบกวนจากผลลัพธ์ที่ผ่านกระบวนการแพร่ไปข้างหน้า กระบวนการนี้เรียกว่ากระบวนการแพร่ย้อนกลับ (reverse diffusion process) โดยค่าที่ได้นี้จะยังอยู่ในรูปของปริภูมิแฝง และท้ายที่สุด ตัวถอดรหัสของ VAE จะแปลงค่าในปริภูมิแฝงกลับไปเป็นปริภูมิพิกเซล แล้วสร้างเป็นภาพสุดท้ายขึ้นมา[10]

กระบวนการลดสัญญาณรบกวนสามารถปรับเงื่อนไขได้อย่างยืดหยุ่นด้วยการป้อนข้อความ รูปภาพ หรือรูปแบบอื่น ๆ ข้อมูลสำหรับให้เงื่อนไขซึ่งผ่านการเข้ารหัสจะถูกส่งไปยัง U-Net สำหรับกำจัดสัญญาณรบกวนโดยกลไกความใส่ใจแบบไขว้ (cross-attention)[10] สำหรับกรณีที่ให้เงื่อนไขโดยการป้อนข้อความ ข้อความที่ป้อนเข้าไปจะถูกแปลงให้อยู่ในรูปของปริภูมิฝังโดยใช้ตัวเข้ารหัสข้อความ CLIP ViT-L/14 ที่ได้รับการฝึกมาเรียบร้อยแล้ว[1] นักวิจัยได้อธิบายว่าข้อได้เปรียบของ LDM คือช่วยเพิ่มประสิทธิภาพการคำนวณสำหรับการเรียนรู้และการสร้างสรรค์[12][13]

ข้อมูลการเรียนรู้

สเตเบิลดิฟฟิวชันทำการเรียนรู้จากคู่ของรูปภาพและคำบรรยายที่ได้มาจากชุดข้อมูล LAION-5B ซึ่งเป็นชุดข้อมูลที่เปิดเผยต่อสาธารณะซึ่งได้มาจากคอมมอนครอวล์ซึ่งได้รวบรวมข้อมูลจากเว็บไซต์ คู่ของรุปภาพและข้อความ 5 พันล้านคู่ถูกจัดประเภทตามภาษา ถูกกรองตามความละเอียดภาพ ความน่าจะเป็นที่จะมีลายน้ำ รวมถึงคะแนนด้านสุนทรียภาพ ทำเป็นชุดข้อมูลแยกกัน[14] ชุดข้อมูลนี้สร้างขึ้นโดย LAION ซึ่งเป็นองค์การไม่แสวงหาผลกำไรของเยอรมนี โดยได้รับการสนับสนุนเงินทุนจากบริษัท Stability AI[14][15] ตัวแบบสเตเบิลดิฟฟิวชันได้รับการฝึกจากชุดย่อยสามชุดของ LAION-5B: laion2B-en, laion-high-solution และ laion-aesthetics v2 5+[14] การวิเคราะห์ข้อมูลการฝึกอบรมโดยบุคคลที่สามสำหรับตัวแบบนี้พบว่าจากรูปภาพ 12 ล้านภาพที่ดึงมาจากชุดข้อมูลแบบกว้างดั้งเดิมที่ใช้นั้น มีประมาณ 47% มาจากโดเมนที่แตกต่างกัน 100 โดเมน โดยพบว่าที่มาจาก Pinterest คิดเป็น 8.5% และตามด้วยเว็บไซต์ เช่น WordPress, Blogspot, Flickr, DeviantArt และ Wikimedia Commons[16][14]

กระบวนการเรียนรู้

ตัวแบบนี้เริ่มทำการเรียนรู้ครั้งแรกจาก laion2B-en และ laion-high-resolution และหลายครั้งล่าสุดได้เรียนรู้จาก LAION-Aesthetics v2 5+ โดย LAION-Aesthetics v2 5+ นั้นเป็นชุดข้อมูลย่อยของภาพพร้อมคำบรรยาย 600 ล้านภาพซึ่งได้รับการคาดการณ์ว่าเมื่อ LAION-Aesthetics Predictor V2 ถามผู้คนว่าพวกเขาชอบภาพนั้นมากเพียงใด พวกเขาจะให้คะแนนโดยเฉลี่ย 5 เต็ม 10[17][14][18] ชุดย่อย LAION-Aesthetics v2 5+ ไม่รวมภาพความละเอียดต่ำและภาพที่ LAION-5B-WatermarkDetection ตรวจพบว่าน่าจะมีลายน้ำด้วยความน่าจะเป็น 80% ขึ้นไป[14] ในการฝึกครั้งสุดท้ายนั้น 10% ของเงื่อนไขประกอบข้อความ (คำบรรยาย) ได้ถูกลบทิ้งเพื่อปรับปรุงคำแนะนำการแพร่แบบปราศจากตัวแยกประเภท[19]

ตัวแบบทำการเรียนรู้โดย NVIDIA A100 256 เครื่องบน AWS ในราคา 600,000 เหรียญสหรัฐ โดยใช้เวลารัน GPU ทั้งหมด 150,000 ชั่วโมง[20][21][22]

ขีดจำกัด

สเตเบิลดิฟฟิวชันมีปัญหา เช่น คุณภาพถดถอยและความไม่ถูกต้องภายใต้เงื่อนไขบางประการ รุ่นเริ่มต้นของตัวแบบนี้ได้รับการฝึกฝนบนชุดข้อมูลที่ประกอบด้วยรูปภาพที่มีความละเอียด 512×512 ดังนั้นหากขนาดภาพที่ผู้ใช้ต้องการสร้างแตกต่างจากความละเอียด 512×512 นี้คุณภาพของรูปภาพที่สร้างได้จะลดลงอย่างมาก[23] ในการอัปเดตเป็นรุ่น 2.0 ได้ใช้ความสามารถในการสร้างภาพที่ความละเอียด 768×768[24] ความท้าทายอีกประการหนึ่งคือคุณภาพข้อมูลของส่วนแขนขาในชุดข้อมูล LAION ต่ำ จึงเป็นอุปสรรคต่อการสร้างภาพแขนขาของมนุษย์[25] การขาดคุณสมบัติที่เป็นตัวแทนในชุดข้อมูลแสดงให้เห็นว่าตัวแบบไม่ได้รับการฝึกมาให้ทำความเข้าใจโครงสร้างแขนขาและใบหน้าของมนุษย์มาอย่างดีนัก จึงมักสับสนเมื่อถูกสั่งให้สร้างภาพดังกล่าว[26] มีการยืนยันแล้วว่าเป็นเรื่องยากที่จะสร้างภาพแขนขา ไม่เพียงแต่แขนขาของมนุษย์เท่านั้น แต่ยังรวมถึงแขนขาของสัตว์ด้วย และการพยายามสร้างรูปม้าล้มเหลว 25% จากทั้งหมด[27]

การเข้าถึงสำหรับนักพัฒนาแต่ละรายก็เป็นปัญหาเช่นกัน การปรับแต่งตัวแบบสำหรับกรณีการใช้งานแบบใหม่ที่ไม่ถูกรวมอยู่ในชุดข้อมูล เช่น การสร้างตัวละครอนิเมะต้องใช้ข้อมูลการเรียนรู้และการฝึกอบรมใหม่[28] อย่างไรก็ตาม กระบวนการปรับแต่งอย่างละเอียดนี้มีความอ่อนไหวต่อคุณภาพของข้อมูลใหม่ รูปภาพความละเอียดต่ำหรือรูปภาพที่มีความละเอียดแตกต่างจากข้อมูลการฝึกดั้งเดิมไม่เพียงแต่ป้องกันไม่ให้โมเดลเรียนรู้งานใหม่เท่านั้น แต่ยังช่วยลดประสิทธิภาพโดยรวมของโมเดลอีกด้วย นอกจากนี้ แม้ว่าโมเดลจะได้รับการฝึกโดยใช้รูปภาพคุณภาพสูง แต่การรันโมเดลบนคอมพิวเตอร์ผู้บริโภคทั่วไปก็เป็นเรื่องยาก ตัวอย่างเช่น กระบวนการเรียนรู้ของตัวแบบที่ชื่อ waifu-diffusion ต้องใช้ VRAM ขั้นต่ำ 30GB[29] แต่ GPU สำหรับผู้บริโภคทั่วไป เช่น GeForce 30 ของ NVIDIA มีความจุ VRAM ประมาณ 12GB[30] จึงเกินกว่าทรัพยากรปกติที่คนทั่วไปมี

ทางผู้พัฒนาสเตเบิลดิฟฟิวชันได้ยอมรับว่าตัวแบบได้รับการฝึกจากภาพที่มีข้อความบรรยายเป็นภาษาอังกฤษเป็นหลัก ซึ่งอาจก่อให้เกิดความโน้มเอียงเชิงขั้นตอนวิธี[22] ผู้พัฒนายังได้ชี้ให้เห็นว่ากระบวนการการเรียนรู้ยังขาดข้อมูลจากชุมชนและวัฒนธรรมอื่น ๆ ส่งผลให้ภาพที่ผลิตจากมุมมองของชาวตะวันตกและตอกย้ำอคติทางสังคม นอกจากนี้ ข้อความสั่งที่เขียนเป็นภาษาอังกฤษจะให้ภาพที่แม่นยำมากกว่าข้อความที่เขียนในภาษาอื่น และมีความโน้มเอียงไปทางวัฒนธรรมตะวันตก (หรือคนขาว)[22]

ความสามารถ

ตัวแบบสเตเบิลดิฟฟิวชันมีความสามารถในการสร้างภาพใหม่ตั้งแต่เริ่มต้นโดยการป้อนข้อความสั่งที่อธิบายองค์ประกอบที่จะรวมหรือจะไม่รวมอยู่ในภาพที่จะสร้าง[1] นอกจากนี้ยังสามารถเตรียมภาพที่มีอยู่เดิม เอามาสั่งให้ทำการวาดใหม่ได้ด้วยกลไกการลดสัญญาณรบกวนการแพร่ เพื่อรวมใส่ประกอบใหม่ ๆ ที่อธิบายไว้ในข้อความคำสั่งที่ป้อนให้[31][1] นอกจากนี้ยังสามารถทำการแก้ภาพโดยกระบวนการวาดเติมภาพภายใน (inpainting) และการวาดเติมภาพภายนอก (outpainting) มีการใช้งานโอเพนซอร์สที่แตกต่างกันมากมาย[32]

ในการใช้งานสเตเบิลดิฟฟิวชันนั้น แนะนำให้รันด้วย VRAM อย่างน้อย 10GB แต่หากมี VRAM น้อยกว่านั้น ก็สามารถอ่านค่าน้ำหนักด้วยความแม่นยำ float16 แทนค่าตั้งต้น float32 เพื่อประหยัด VRAM ได้ โดยแลกกับประสิทธิภาพที่ลดลงไประดับหนึ่ง[23]

การสร้างภาพตามข้อความ (text-to-image)

ผลของข้อความสั่งเชิงลบในการสร้างภาพ
  • บน: ไม่มีการป้อนข้อความสั่งเชิงลบ
  • กลาง: "green trees"
  • ล่าง: "round stones, round rocks"

กระบวนการสร้างรูปภาพจากข้อความเรียกว่า txt2img (หรือ text-to-image, t2i) โดยมีพารามิเตอร์ทางเลือกต่าง ๆ เช่น วิธีการสุ่มตัวอย่าง ความละเอียดของภาพเป็นต้น กระบวนการนี้สร้างไฟล์รูปภาพตามการตีความข้อความสั่งป้อนเข้าไป[1] รูปภาพที่สร้างขึ้นจะถูกฝังด้วยลายน้ำดิจิทัลที่มองไม่เห็นเพื่อระบุว่าถูกสร้างขึ้นโดยสเตเบิลดิฟฟิวชัน[33] แต่หากปรับขนาดหรือทำการหมุนก็จะหายไป[1]

การสร้าง txt2img แต่ละรายการจะมีค่าเริ่มต้นเฉพาะที่ส่งผลต่อภาพที่สร้างได้ ผู้ใช้สามารถเลือกที่จะสุ่มค่าเริ่มต้นเพื่อให้ได้ผลลัพธ์ที่แตกต่างกัน หรือใช้ค่าเริ่มต้นเดียวกันเพื่อให้ได้ผลลัพธ์เดียวกันกับรูปภาพที่สร้างไว้ก่อนหน้านี้[23] นอกจากนี้ยังสามารถปรับจำนวนขั้นตอนการอนุมานของตัวสุ่มตัวอย่างได้อีกด้วย การเพิ่มค่าจำนวนขั้นจะทำให้ใช้เวลาในการสร้างนานขึ้น ในขณะที่การลดค่าเกินไปได้ภาพที่ไม่ชัดเจน[23] การปรับค่ามาตราส่วน CFG (classifier-free guidance scale) มีผลต่อความเที่ยงตรงของภาพที่มีต่อข้อความป้อนเข้า[19] ในการทดลองสร้างอาจใช้ค่า CFG ที่ต่ำ และเมื่อต้องการสร้างภาพที่ระบุชัดเจนจึงค่อยใช้ค่าสูง[23]

ความสามารถอื่น ๆ ของ txt2img เช่น การกำหนดค่าน้ำหนักความสำคัญให้กับข้อความสั่งบางส่วน เช่นใส่วงเล็บครอบข้อความสั่งที่ต้องการเน้นว่ามีความสำคัญ[34] อีกวิธีหนึ่งในการปรับน้ำหนักบางส่วนของข้อความสั่งคือการระบุข้อความสั่งเชิงลบ (negative prompt) ช่วยให้ผู้ใช้ระบุลักษณะที่ต้องการหลีกเลี่ยงสิ่งที่ไม่ต้องการจะได้เมื่อสร้างรูปภาพขึ้น[32]

การสร้างภาพจากภาพ (image-to-image)

ผลของ img2img ในการสร้างภาพ
  • บน: ภาพต้นฉบับที่สร้างโดยสเตเบิลดิฟฟิวชัน 1.5
  • ล่าง: ภาพปรับแก้ที่สร้างโดยสเตเบิลดิฟฟิวชัน XL

สเตเบิลดิฟฟิวชันยังมีความสามารถอีกแบบหนึ่งที่เรียกว่า img2img (หรือ image-to-image, i2i) ซึ่งใช้ข้อความสั่งประกอบกับรูปภาพที่เตรียมไว้ และระบุค่าความเข้มระหว่าง 0.0 ถึง 1.0 ความสามารถนี้จะช่วยทำการสร้างรูปภาพใหม่ตามรูปภาพต้นฉบับ ซึ่งมีองค์ประกอบตามที่ระบุในข้อความสั่ง ค่าความเข้มแสดงถึงปริมาณสัญญาณรบกวนที่ป้อนเพิ่มให้กับภาพที่ส่งออก หากค่าความเข้มสูงจะทำให้เกิดองค์ประกอบใหม่เพิ่มเติมในภาพมากขึ้น แต่อาจสร้างภาพที่ไม่ตรงกับความหมายตามข้อความที่ระบุ[1]

img2img สามารถเพิ่มสัญญาณรบกวนให้กับภาพต้นฉบับได้ ดังนั้นจึงอาจเป็นประโยชน์สำหรับการปกปิดแหล่งข้อมูลหรือการต่อขยายข้อมูล โดยเปลี่ยนลักษณะโดยรวมของข้อมูลรูปภาพ[35] นอกจากนี้ยังอาจใช้สำหรับการขยายขนาด โดยเพิ่มความละเอียด ภาพด้วยการเติมรายละเอียดให้กับภาพมากขึ้น[35] นอกจากนี้แล้วยังมีการทดลองใช้สเตเบิลดิฟฟิวชันเป็นเครื่องมือบีบอัดรูปภาพอีกด้วย เมื่อเปรียบเทียบกับ JPEG และ WebP วิธีการสมัยใหม่ที่ใช้ในการบีบอัดภาพของสเตเบิลดิฟฟิวชัน มีข้อจำกัดในการรักษาข้อความขนาดเล็กและใบหน้า[36]

การวาดเติมภาพภายใน (inpainting) คือการปรับเปลี่ยนบางส่วนของภาพเดิมที่มีอยู่ โดยเติมภาพในพื้นที่ส่วนที่ระบุด้วยเนื้อหาที่สร้างขึ้นใหม่ตามข้อความสั่งที่ป้อนเข้าไป[32] ทาง Stability AI ได้สร้างตัวแบบเฉพาะที่ได้รับการปรับแต่งอย่างละเอียดโดยเฉพาะสำหรับใช้เติมภาพภายในเมื่อครั้งเปิดตัวสเตเบิลดิฟฟิวชัน 2.0[24] นอกจากนี้ยังมีการวาดเติมภาพภายนอก (outpainting) ซึ่งตรงกันข้ามกับการเติมภาพภายใน[32] คือช่วยให้สามารถขยายภาพเกินความละเอียดดั้งเดิมและเติมเนื้อหาที่สร้างขึ้นตามข้อความสั่งลงในที่ว่าง

สเตเบิลดิฟฟิวชัน 2.0 ซึ่งเปิดตัวเมื่อวันที่ 24 พฤศจิกายน 2022 ได้เปิดตัวตัวแบบเชิงลึกที่มีชื่อว่า deep2img ตัวแบบนี้อนุมานความลึกของรูปภาพป้อนเข้าที่ให้มา แล้วสร้างรูปภาพใหม่ตามข้อความสั่งและข้อมูลเชิงลึก ทำให้รูปภาพที่ได้ออกมานั้นสามารถรักษาความสอดคล้องและความลึกของรูปภาพที่ป้อนเข้า[24]

การใช้งาน ข้อพิพาท และการดำเนินคดี

สเตเบิลดิฟฟิวชัน ไม่เรียกร้องสิทธิ์ใด ๆ ในรูปภาพที่สร้างขึ้น และให้สิทธิ์แก่ผู้ใช้ในการใช้รูปภาพใด ๆ ที่สร้างจากตัวแบบโดยอิสระ ตราบใดที่เนื้อหาของรูปภาพไม่ผิดกฎหมายหรือเป็นอันตรายต่อบุคคลใด ๆ อย่างไรก็ตาม สเตเบิลดิฟฟิวชันและตัวแบบช่วยสร้างอื่น ๆ เรียนรู้จากภาพที่มีลิขสิทธิ์โดยไม่ได้รับความยินยอมจากผู้ถือสิทธิ์ ทำให้เกิดการถกเถียงกันเรื่องจริยธรรมในการเป็นเจ้าของและเสรีภาพที่ผู้ใช้สามารถใช้ภาพ[37]

นักวารสารศาสตร์ นาโอมิ ไคลน์ ได้วิจารณ์เทคโนโลยีปัญญาประดิษฐ์และบริษัทที่เกี่ยวข้องอย่างรุนแรง โดยกล่าวว่าเป็น "การขโมยที่ยิ่งใหญ่ที่สุดในประวัติศาสตร์ของมนุษย์" กล่าวคือ บริษัทปัญญาประดิษฐ์กำลังผูกขาดความรู้ของมนุษย์ทั้งหมดที่เผยแพร่บนอินเทอร์เน็ตโดยยัดไว้ในผลิตภัณฑ์ของตน และผลงานที่ผู้คนได้ทำมาตลอดทั้งชีวิตกำลังถูกใช้เป็นข้อมูลการฝึกโดยไม่ได้รับความยินยอมหรือได้รับอนุญาต[38]

อรวินท์ นรยานัน (Arvind Narayanan) นักวิทยาศาสตร์คอมพิวเตอร์ และศาสตราจารย์แห่ง มหาวิทยาลัยพรินซ์ตัน กล่าวว่า บริษัทที่พัฒนาปัญญาประดิษฐ์แบบรู้สร้างภาพกำลังพัฒนาและปรับใช้ในลักษณะที่ไม่เป็นมิตรต่อศิลปิน เช่น การรวบรวมภาพการฝึกอบรมโดยไม่ได้รับความยินยอมหรือการชดเชย นักพัฒนาสามารถปฏิบัติต่อศิลปินในฐานะหุ้นส่วนและผู้มีส่วนได้ส่วนเสียมากกว่ามองว่าเป็นแค่วัตถุดิบสำหรับการฝึกปัญญาประดิษฐ์[9]

เมื่อวันที่ 3 เมษายน 2023 มหาวิทยาลัยโตเกียวได้ออกแถลงการณ์ที่ลงนามโดยผู้อำนวยการและรองประธานคุนิฟุมิ โอตะ โดยแจ้งเตือนนักศึกษาและคณาจารย์ทุกคนที่ใช้ปัญญาประดิษฐ์แบบรู้สร้าง เช่น มิดเจอร์นีย์ และ สเตเบิลดิฟฟิวชัน ปัญญาประดิษฐ์แบบรู้สร้างภาพได้ดึงเนื้อหาจากอินเทอร์เน็ต เรียนรู้จากอินเทอร์เน็ต แล้วสร้างภาพขึ้นมา โดยผู้สร้างข้อมูลต้นฉบับเหล่านี้กำลังหยิบยกประเด็นปัญหาโดยอ้างว่า ลิขสิทธิ์ของตนได้ถูกละเมิดโดยที่พวกเขาไม่รู้ตัว เขากล่าวถึงความเป็นไปได้ที่เนื้อหาที่สร้างโดยปัญญาประดิษฐ์แบบรู้สร้างภาพเหล่านี้อาจกลายเป็นประเด็นของการฟ้องร้องได้ในอนาคต[39]

อ้างอิง

  1. 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 "Stable Diffusion Repository on GitHub". CompVis - Machine Vision and Learning Research Group, LMU Munich. 17 September 2022. สืบค้นเมื่อ 17 September 2022.
  2. "Announcing SDXL 1.0". stability.ai. เก็บจากแหล่งเดิมเมื่อ July 26, 2023. สืบค้นเมื่อ 2023-07-26.
  3. "Diffuse The Rest - a Hugging Face Space by huggingface". huggingface.co. เก็บจากแหล่งเดิมเมื่อ 2022-09-05. สืบค้นเมื่อ 2022-09-05.
  4. "Stable Diffusion Launch Announcement". Stability.Ai. เก็บจากแหล่งเดิมเมื่อ 2022-09-05. สืบค้นเมื่อ 2022-09-06.
  5. "Revolutionizing image generation by AI: Turning text into images". LMU Munich. สืบค้นเมื่อ 17 September 2022.
  6. Wiggers, Kyle (17 October 2022). "Stability AI, the startup behind Stable Diffusion, raises $101M". Techcrunch (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-10-17.
  7. "The new killer app: Creating AI art will absolutely crush your PC". PCWorld. เก็บจากแหล่งเดิมเมื่อ 2022-08-31. สืบค้นเมื่อ 2022-08-31.
  8. Vincent, James (15 September 2022). "Anyone can use this AI art generator — that's the risk". The Verge. สืบค้นเมื่อ 2022-11-30.
  9. 9.0 9.1 "Artists are alarmed by AI — and they're fighting back". The Washington Post (ภาษาอังกฤษ). สืบค้นเมื่อ 2023-02-18.
  10. 10.0 10.1 10.2 10.3 Alammar, Jay. "The Illustrated Stable Diffusion". jalammar.github.io. สืบค้นเมื่อ 2022-10-31.
  11. "High-Resolution Image Synthesis with Latent Diffusion Models". Machine Vision & Learning Group (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-11-04.
  12. "Stable Diffusion launch announcement". Stability.Ai (ภาษาอังกฤษแบบบริติช). สืบค้นเมื่อ 2022-11-02.
  13. Rombach; Blattmann; Lorenz; Esser; Ommer (June 2022). High-Resolution Image Synthesis with Latent Diffusion Models (PDF). International Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA. pp. 10684–10695. arXiv:2112.10752.
  14. 14.0 14.1 14.2 14.3 14.4 14.5 Baio, Andy (2022-08-30). "Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator". Waxy.org (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-11-02.
  15. "This artist is dominating AI-generated art. And he's not happy about it". MIT Technology Review (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-11-02.
  16. Ivanovs, Alex (2022-09-08). "Stable Diffusion: Tutorials, Resources, and Tools". Stack Diary (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-11-02.
  17. Schuhmann, Christoph (2022-11-02), CLIP+MLP Aesthetic Score Predictor, สืบค้นเมื่อ 2022-11-02
  18. "LAION-Aesthetics | LAION". laion.ai (ภาษาอังกฤษ). เก็บจากแหล่งเดิมเมื่อ 2022-08-26. สืบค้นเมื่อ 2022-09-02.
  19. 19.0 19.1 Ho, Jonathan; Salimans, Tim (2022-07-25). "Classifier-Free Diffusion Guidance". arXiv:2207.12598 [cs.LG].Ho, Jonathan; Salimans, Tim (25 July 2022). "Classifier-Free Diffusion Guidance". arXiv:2207.12598 [cs.LG]。
  20. Wiggers, Kyle (2022-08-12). "A startup wants to democratize the tech behind DALL-E 2, consequences be damned". TechCrunch (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-11-02.
  21. Mostaque, Emad (August 28, 2022). "Cost of construction". Twitter (ภาษาอังกฤษ). เก็บจากแหล่งเดิมเมื่อ 2022-09-06. สืบค้นเมื่อ 2022-09-06.
  22. 22.0 22.1 22.2 "CompVis/stable-diffusion-v1-4 · Hugging Face". huggingface.co. สืบค้นเมื่อ 2022-11-02.
  23. 23.0 23.1 23.2 23.3 23.4 "Stable Diffusion with 🧨 Diffusers". huggingface.co. สืบค้นเมื่อ 2022-10-31.
  24. 24.0 24.1 24.2 "Stable Diffusion 2.0 Release". stability.ai. สืบค้นเมื่อ 2022-11-24.
  25. "LAION". laion.ai (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-10-31.
  26. "Generating images with Stable Diffusion". Paperspace Blog (ภาษาอังกฤษ). 2022-08-24. สืบค้นเมื่อ 2022-10-31.
  27. François Chollet. "(If you were wondering how often Stable Diffusion will give you a horse with more than 4 legs (or sometimes less) when you ask it for a photo of a horse: in my experience it's about 20-25% of the time.)". Twitter (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-10-31.
  28. "hakurei/waifu-diffusion · Hugging Face". huggingface.co. สืบค้นเมื่อ 2022-10-31.
  29. Mercurio, Anthony (2022-10-31), Waifu Diffusion, สืบค้นเมื่อ 2022-10-31
  30. Smith, Ryan. "NVIDIA Quietly Launches GeForce RTX 3080 12GB: More VRAM, More Power, More Money". www.anandtech.com. สืบค้นเมื่อ 2022-10-31.
  31. Meng, Chenlin; He, Yutong (August 2, 2021). "SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations". arXiv:2108.01073 [cs.CV].
  32. 32.0 32.1 32.2 32.3 "Stable Diffusion web UI". GitHub. 10 November 2022. สืบค้นเมื่อ 2022-11-30.
  33. invisible-watermark, Shield Mountain, 2022-11-02, สืบค้นเมื่อ 2022-11-02
  34. "stable-diffusion-tools/emphasis at master · JohannesGaessler/stable-diffusion-tools". GitHub (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-11-02.
  35. 35.0 35.1 Luzi, Lorenzo; Siahkoohi, Ali (2022-10-21). "Boomerang: Local sampling on image manifolds using diffusion models". arXiv:2210.12100 [cs.CV].
  36. Bühlmann, Matthias (2022-09-28). "Stable Diffusion Based Image Compression". Medium (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-11-02.
  37. Cai, Kenrick. "Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion". Forbes (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-10-31.
  38. ナオミ・クライン、中村峻太郎(訳)「「幻覚を見ている」のはAIの機械ではなく、その製作者たちだ」『世界』岩波書店 2023年7月号 p85~95
  39. "生成系AI(ChatGPT, BingAI, Bard, Midjourney, Stable Diffusion等)について". 東京大学. สืบค้นเมื่อ 2023-04-05.

Read other articles:

More LoveSingle by Smokey Robinson and the Miraclesfrom the album Make It Happen B-sideSwept for You BabyReleasedMay 26, 1967RecordedLos Angeles, California (instrumentation) Hitsville USA (Studio A) (vocals); April 26, 1967GenreSoulLength2:49LabelTamlaT 54152Songwriter(s)Smokey RobinsonProducer(s)Smokey RobinsonSmokey Robinson and the Miracles singles chronology The Love I Saw In You Was Just a Mirage (1967) More Love (1967) I Second That Emotion (1967) More Love is a 1967 hit single recorde...

 

Gandaria Bunga lavender dihampiri lebahCommon connotationsLavender     Koordinat warnaTriplet hex#B57EDCsRGBB    (r, g, b)(181, 126, 220)HSV       (h, s, v)(275°, 43%, 86%)SumberDaftar Istilah WarnaMaerz dan Paul[1]B: Dinormalkan ke [0–255] (bita) Gandaria (peramban) Jadeitit gandariaCommon connotationsLavender     Koordinat warnaTriplet hex#E6E6FAsRGBB    (r, g, b)(230, 230, 250)HSV       (h, s...

 

An approach to strength training The term suspension training refers to an approach to strength training that uses a system of ropes and webbing called a suspension trainer to allow users to work against their own body weight.[1] outdoor workout with a Sling Trainer Description Group suspension training. The field of suspension training is a form of resistance training that includes bodyweight exercises in which a variety of multi-planar, compound exercise movements can be performed. ...

هذه المقالة يتيمة إذ تصل إليها مقالات أخرى قليلة جدًا. فضلًا، ساعد بإضافة وصلة إليها في مقالات متعلقة بها. (نوفمبر 2019) ماري إي. هيويت   معلومات شخصية الميلاد 20 مارس 1807[1]  الولايات المتحدة  تاريخ الوفاة 17 سبتمبر 1884 (77 سنة) [1]  مواطنة الولايات المتحدة  الحياة...

 

У Вікіпедії є статті про інші значення цього терміна: Тересва. Тересва Тересва біля с. Нересниці48°19′53″ пн. ш. 23°55′38″ сх. д. / 48.331460000028° пн. ш. 23.92742000002778013° сх. д. / 48.331460000028; 23.92742000002778013Витік • координати 48°19′53″ пн. ш. 23°55′38″ сх. д.&...

 

Фазліддін Гаїбназаров Загальна інформаціяПовне ім'я Гаїбназаров Фазліддін Хасанбаєвич (узб. Fazliddin Hasanboyevich G'oibnazarov)Громадянство  УзбекистанНародився 16 червня 1991(1991-06-16) (32 роки)Ташкентська область, Узбецька РСР, СРСРВагова категорія Легка (англ. Lightweight) (до 61,2 кг)Зріст 169 см

Angkatan Bersenjata AustriaBundesheerLambang BundesheerDidirikan18 Maret 1920Formasi terkini15 Mei 1955AngkatanAngkatan Darat AustriaAngkatan Udara AustriaPasukan Khusus AustriaMarkas besarWina, AustriaKepemimpinanPresidenAlexander Van der BellenKanselirKarl NehammerMenteri PertahananKlaudia TannerKepala Staf UmumJenderal Robert BriegerKekuatan personelUsia penerimaan17Wajib militer6 bulanKetersediaanmenurut usia1.941.110 laki-laki, umur 16-49, 1.910.434 perempuan, um...

 

Outlaw motorcycle club in the United States Pagan's MCFounded1959[1]Founded atPrince George's County, MarylandTypeOutlaw motorcycle clubRegion Over 100 chapters in East Coast of the United States, West Coast of the United States and Puerto RicoMembership Estimated to have over 1500 members[2]National PresidentTank [3] Pagan's Motorcycle Club, or simply the Pagans, is an outlaw motorcycle club formed by Lou Dobkin in 1957 in Prince George's County, Maryland, United Stat...

 

General and statesman in Flanders (1522–1568) Count of Egmont redirects here. For other Counts of Egmont, see List of Lords and Counts of Egmont. Lamoral, Count of EgmontPortrait of Lamoral, Count of Egmont by Frans Pourbus the Elder.Born(1522-11-18)18 November 1522Died5 June 1568(1568-06-05) (aged 45) Lamoral, Count of Egmont, Prince of Gavere (18 November 1522 – 5 June 1568) was a general and statesman in the Spanish Netherlands just before the start of the Eighty Years' War, whose...

United States historic placeGros Cap CemeteryU.S. National Register of Historic PlacesMichigan State Historic Site Show map of MichiganShow map of the United StatesLocationSoutheast of Gros Cap on US 2Nearest cityGros Cap, MichiganCoordinates45°52′13″N 84°47′57″W / 45.87028°N 84.79917°W / 45.87028; -84.79917Area5.5 acres (2.2 ha)Built1889NRHP reference No.71000406[1]Significant datesAdded to NRHPApril 16, 1971Designated MSHS...

 

العلاقات السعودية الغيانية السعودية غيانا   السعودية   غيانا تعديل مصدري - تعديل   العلاقات السعودية الغيانية هي العلاقات الثنائية التي تجمع بين السعودية وغيانا.[1][2][3][4][5] مقارنة بين البلدين هذه مقارنة عامة ومرجعية للدولتين: وجه المقارنة ال

 

U.S. solar X-ray and surveillance satellite SOLRAD 3Transit 4A, Injun 1 and SOLRAD 3 satellitesNamesGRAB 2SOLar RADiation 3SR 3GREB 2Mission typeSolar X-raysOperatorUnited States Naval Research Laboratory (USNRL)Harvard designation1961 Omicron 2COSPAR ID1961-015B SATCAT no.00117Mission duration62 years, 5 months and 7 days (in orbit) Spacecraft propertiesSpacecraft typeSOLRADManufacturerNaval Research Laboratory (NRL)Launch mass25 kg (55 lb)Dimensions51 cm (20...

アンドリュー・アトキンソン・ハンフリーズAndrew Atkinson Humphreys アンドリュー・アトキンソン・ハンフリーズ将軍渾名 Old Goggle Eyes(年取ったギョロ目)生誕 1810年11月2日ペンシルベニア州フィラデルフィア死没 1883年12月27日(満73歳没)ワシントンD.C.所属組織 アメリカ合衆国陸軍軍歴 1831年-1879年最終階級 少将指揮 第2軍団、アメリカ陸軍工兵司令部戦闘 セミノール戦争...

 

Historic district in Massachusetts, United States United States historic placeHarvard Shaker Village Historic DistrictU.S. National Register of Historic PlacesU.S. Historic district South Family DwellingShow map of MassachusettsShow map of the United StatesLocationHarvard, MassachusettsCoordinates42°31′57″N 71°33′33″W / 42.53250°N 71.55917°W / 42.53250; -71.55917ArchitectJohnson, Enfield Shaker MosesArchitectural styleGreek Revival, FederalNRHP re...

 

Edi SukmoroEdi SukmoroPT Kereta Api Indonesia (Persero) (direktur utama) ke-23Masa jabatan27 Oktober 2014 – 8 Mei 2020PendahuluIgnasius JonanPenggantiDidiek Hartantyo Informasi pribadiLahir15 Maret 1959 (umur 64)Semarang, Jawa TengahKebangsaanIndonesiaSuami/istriAdriani Sidauruk SukmoroAlma materInstitut Teknologi Bandung University of Melbourne, AustraliaPekerjaanPengusahaSunting kotak info • L • B Edi Sukmoro (lahir 15 Maret 1959) adalah direktur utama PT K...

Mexican politician Óscar Cantón ZetinaBorn (1953-08-01) 1 August 1953 (age 70)Centro, Tabasco, MexicoNationalityMexicanAlma materNational Autonomous University of MexicoOccupationPoliticianPolitical party PRI (1975–2006) PRD (2006–present) Óscar Cantón Zetina (born 1 August 1953) is a Mexican politician affiliated with the Party of the Democratic Revolution (previously to the Institutional Revolutionary Party). As of 2014 he served as Senator of the LIV, LV, LVIII and L...

 

Italian politician Margherita CogoPresident of Trentino-Alto AdigeIn office11 March 1999 – 14 March 2002Preceded byTarcisio GrandiSucceeded byCarlo Andreotti Personal detailsBorn (1951-10-02) 2 October 1951 (age 72)Tione di Trento, ItalyPolitical partyDemocrats of the LeftAlma materUniversity of PaduaProfessionPolitician Margherita Cogo (born 2 October 1951) was the first woman to be President of the Italian autonomous region of Trentino-Alto Adige/Südtirol and also the regio...

 

هذه المقالة يتيمة إذ تصل إليها مقالات أخرى قليلة جدًا. فضلًا، ساعد بإضافة وصلة إليها في مقالات متعلقة بها. (أبريل 2019) هنري تشارلز ستانلي   معلومات شخصية تاريخ الميلاد سنة 1840  تاريخ الوفاة سنة 1921 (80–81 سنة)  مواطنة أستراليا  الحياة العملية المهنة مهندس  اللغات ال...

Bharat Rang MahotsavGenreTheatreDatesThird week of JanuaryLocation(s)New DelhiYears active1999 – presentFounded1999Patron(s)National School of DramaWebsiteOfficial website Bharat Rang Mahotsav (BRM) (भारत रंग महोत्सव) or the National Theatre Festival, started in 1999, is the annual theatre festival organised by National School of Drama (NSD), New Delhi. The festival was started to showcase works of Indian theatre practitioners, and it has grown over the years to ...

 

Front page of The Leven Lever, 14 June 1919 The Leven Lever was a newspaper published in Ulverstone, Tasmania, from 1919-1920.[1] History The Leven Lever was published weekly. The first edition was published on 14 June 1919 and the newspaper ran until its last edition on 11 December 1920.[1] It was a free community newspaper distributed in the Ulverstone, formerly Leven, Tasmania, municipality on the north west coast of Tasmania.[2] Digitisation This paper has been dig...

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!