08. 초간단 LoRA 만드는 법 | 스테이블 디퓨전 - Stable Diffusion | The simplest way to create a LoRA
TLDR이번 영상에서는 스테이블 디퓨전에서 LoRA(Low-Rank Adaptation of Large Language Models) 모델을 쉽게 생성하는 방법을 소개합니다. LoRA는 인물, 배경, 소품 등 다양한 피사체를 학습하여 작은 용량으로 다양한 결과를 얻을 수 있습니다. 영상에서는 코야 뒤ui를 사용하여 LoRA를 생성하는 과정을 안내하며, 토치와 딥러닝 관련 소프트웨어를 설치하고, 학습에 사용할 이미지를 준비하는 방법에 대해 설명합니다. 또한, 학습 과정과 결과물을 보여줍니다. LoRA를 사용하여 몇 장의 이미지만으로도 다양한 효과를 낼 수 있음을 강조하며, 3070 GPU로 학습하는 데 시간이 걸린다는 점을 언급합니다.
Takeaways
- 🎨 LoRA는 'Low-Rank Adaptation of Large Language Models'의 줄임말로, 스테이블 디퓨전에 추가적으로 모델을 적용할 때 사용됩니다.
- 🖼️ LoRA는 인물, 배경, 소품 등 다양한 피사체를 학습할 수 있으며, 적은 용량으로도 다양한 결과물을 얻을 수 있습니다.
- 💻 LoRA를 만들기 위해 Python 3.10과 Visual Studio가 설치되어 있어야 하며, Koya GUI를 이용한 설치 과정이 필요합니다.
- 🔧 설치 과정 중 Torch 버전을 선택하고 다양한 설정을 적용하는 단계가 포함되어 있습니다.
- 🖼️ 학습에 사용할 이미지는 고해상도이며 블러가 없는 것이 좋고, 512x512 해상도로 변환하는 것이 권장됩니다.
- 📂 학습 전, 이미지에 대한 텍스트 캡션을 추가하여 핵심 키워드를 포함한 텍스트 파일을 생성해야 합니다.
- 📝 텍스트 파일에 로라를 특정할 수 있는 핵심 키워드를 입력하고, 이미지 폴더 구조를 설정합니다.
- ⚙️ 트레이닝 스텝 수와 이미지 수를 조절하여 학습 시간을 단축할 수 있지만, 디테일에 영향을 줄 수 있습니다.
- 🚀 DreamBooth LoRA 탭을 이용하여 학습을 시작하며, 기본적으로 v1.5 모델을 많이 사용합니다.
- 🧠 GPU 성능에 따라 학습 시간이 다르며, 3070으로는 약 40분이 소요되며, 4090과 같은 고성능 GPU가 더 적합합니다.
Q & A
로라(LoRA)는 무엇이며, 어떤 용도로 사용됩니까?
-로라(LoRA)는 'Low-Rank Adaptation of Large Language Models'의 줄임말로, 기존 모델의 세팅에 추가적인 적용을 위한 기술입니다. 인물, 배경, 소품 등 다양한 피사체를 학습해 얻을 수 있으며, 작은 용량으로도 다양한 결과물을 얻을 수 있습니다.
로라 모델을 만들기 위해 필요한 기본적인 프로그램은 무엇입니까?
-로라 모델을 만들기 위해 필요한 기본적인 프로그램은 Python 3.10과 Visual Studio가 설치되어 있어야 합니다.
로라 모델을 학습시키기 위해 사용된 소프트웨어는 무엇입니까?
-로라 모델을 학습시키기 위해 사용된 소프트웨어는 코야 뒤 UI를 사용합니다.
로라 학습을 위한 이미지는 어떤 특징이 필요합니까?
-로라 학습을 위한 이미지는 선명하고 블러가 없는 것이 좋으며, 고해상도 이미지를 사용해도 좋습니다. GPU 메모리가 넉넉하지 않은 경우, 이미지 수량은 10장으로 제안됩니다.
로라 학습을 시작하기 전에 어떤 준비물이 필요합니까?
-로라 학습을 시작하기 전에 텍스트 캡션을 위한 코리아 SS를 열고, 유틸리티 탭에서 플립 캡셔닝을 클릭하여 이미지 폴더에 텍스트 파일을 생성해야 합니다.
로라 학습을 위한 폴더는 어떻게 구성되어야 합니까?
-로라 학습을 위한 폴더는 '이미지 로그 모델 폴더'를 만들고, 그 안에 '150 언더바 토토 폴더'를 만들어야 합니다. 여기서 폴더 숫자는 최대 트레이닝 스텝 값 1500을 이미지 수로 나눈 값입니다.
로라 학습을 위한 트레이닝 파라미터는 어떻게 설정합니까?
-로라 학습을 위한 트레이닝 파라미터는 기본 설정을 그대로 두고, 메모리 절약을 위해 어드밴스 설정에서 메모리 효과 버튼과 그라디언트 체크 포인트를 체크합니다.
로라 학습이 완료되었을 때 어떤 파일이 생성됩니까?
-로라 학습이 완료되면 모델 폴더에 로라는 생성됩니다. 이 파일명을 바꾸고 스테이블 디퓨저 모델들이 로라 폴더로 이동시켜야 합니다.
로라를 적용한 후 생성된 결과물은 어떤 특징을 가집니까?
-로라를 적용한 후 생성된 결과물은 핵심 키워드에 따라 인물, 모자, 질감 등이 적용된 것을 볼 수 있습니다. 예를 들어, '토토' 키워드로 생성된 이미지는 토토 인형의 특징이 모자 형태와 질감에 적용된 것을 볼 수 있습니다.
로라 학습에 시간이 많이 걸리는 이유는 무엇입니까?
-로라 학습에 시간이 많이 걸리는 이유는 GPU의 성능에 따라 학습 시간이 결정되며, 3070 GPU로 학습시 약 40분 정도 소요됩니다. 더 빠른 학습을 원한다면 4090 등의 고성능 GPU가 필요하다는 것을 절실히 느낄 수 있습니다.
Outlines
💻 Setting Up Lora Model with KoYa UI
The video script outlines the process of creating a Lora model named 'Rora' using KoYa UI. Lora is an abbreviation for Low-Rank Adaptation of Large Language Models, which allows for the application of existing vertical models. The script details the prerequisites, including Python 3.10 and Visual Studio, and provides step-by-step instructions for installation using a setup batch file. It covers the installation process, driver setup, and the configuration of the training environment. The script also explains how to prepare images for training, suggesting high-resolution, clear images and offering tips on resizing and adjusting brightness for optimal results. Additionally, it describes the process of generating text captions for the images to be used in training.
🚀 Training the Rora Model and Generating Outputs
This section of the script describes the training of the Rora model, starting with selecting the source model and setting up the training parameters. It emphasizes the importance of choosing the right model version and adjusting training steps to balance between training time and model detail. The script provides instructions on how to initiate the training process and estimates the time required for completion. Upon successful training, it explains how to move the generated model files and demonstrates the use of the Rora model by generating images using a core keyword 'Toto'. The script showcases the versatility of the model by applying it to different prompts and image types, including an animated style and a real-life model, highlighting the potential of Lora models to create diverse outputs from a limited number of images.
Mindmap
Keywords
로라(LoRA)
스테이블 디퓨저(Stable Diffusion)
코야(KoYa)
파이썬(Python)
GPU
트레이닝(Training)
핵심 키워드(Core Keywords)
드림 부스(DreamBooth)
리모델링(Remodeling)
고라파덕(Gorafad)
Highlights
스테이블 디퓨저에서 로라(LoRA)를 만들어보겠습니다.
로라는 로우랭크 어댑테이션 오브 라지 랭귀지 모델스의 줄임말입니다.
로라는 인물, 배경, 소품 등 다양한 피사체를 학습해 얻을 수 있습니다.
로라는 작은 용량으로도 다양한 결과물을 얻을 수 있습니다.
코야 뒤ui를 사용하여 로라를 만들 것입니다.
파이썬 3.10과 비주얼 스튜디오가 필요합니다.
설치 명령을 카피하여 실행합니다.
토치 업그레이드와 버전 선택은 1번을 누릅니다.
디스 머신과 노후디스트리뷰티드 트레이닝을 선택합니다.
CPU 원리에서도 토치 다이나모와 딥스피드를 사용할 수 있습니다.
드라이버를 설치하기 위해 잉크 파일을 다운로드합니다.
업데이트 ps1을 마우스 오른쪽 버튼으로 파워쉘에서 실행합니다.
이미지의 선명도와 해상도는 학습에 중요합니다.
GPU 메모리가 넉넉하지 않으므로, 이미지 수량은 10장으로 제안됩니다.
텍스트 캡션을 위해 코리아 ss를 열고 플립 캡셔닝을 클릭합니다.
로라를 특정할 수 있는 핵심 키워드를 첫 마리에 넣어줍니다.
로라 학습을 위해 드림 부스 로라 탭을 클릭하여 소스 모델을 선택합니다.
트레이닝 파라미터 탭에서 메모리 절약을 위한 설정을 합니다.
로라 학습은 3070으로 약 40분 소요됩니다.
로라를 불러와 가중치를 주고 생성해보았습니다.
로라를 사용하면 몇 장 안되는 이미지로 다양한 효과를 낼 수 있습니다.
로라 학습에 4090 GPU가 필요하다는 것을 절실히 느낍니다.