본문 바로가기

컴퓨터/인공지능

OmniGen: Unified Image Generation 논문에서 사용한 평가 지표

https://arxiv.org/abs/2409.11340

 

OmniGen: Unified Image Generation

The emergence of Large Language Models (LLMs) has unified language generation tasks and revolutionized human-machine interaction. However, in the realm of image generation, a unified model capable of handling various tasks within a single framework remains

arxiv.org

논문 원문 링크

 

https://discuss.pytorch.kr/t/omnigen-unified-image-generation/5418

 

OmniGen, 통합 이미지 생성 모델에 대한 연구 (Unified Image Generation)

OmniGen 연구 개요 대규모 언어 모델(LLM, Large Language Model)은 다양한 자연어 처리(NLP, Natural Language Processing) 작업을 하나의 통합 모델로 수행하며 인공지능과의 상호작용을 혁신하였습니다. 하지만,

discuss.pytorch.kr

논문 리뷰 글

 

Table 2에서 GenEval이라는 벤치마크를 사용함(아래 링크)

https://arxiv.org/abs/2310.11513

 

GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment

Recent breakthroughs in diffusion models, multimodal pretraining, and efficient finetuning have led to an explosion of text-to-image generative models. Given human evaluation is expensive and difficult to scale, automated methods are critical for evaluatin

arxiv.org

 

https://hyunsooworld.tistory.com/entry/%EC%83%9D%EC%84%B1%EB%AA%A8%EB%8D%B8%EC%9D%98-%ED%8F%89%EA%B0%80%EC%A7%80%ED%91%9C-%ED%86%BA%EC%95%84%EB%B3%B4%EA%B8%B0Inception-FID-LPIPS-CLIP-score-etc

 

생성모델의 평가지표 톺아보기(Inception, FID, LPIPS, CLIP score, etc ..)

생성모델 관련 연구를 하며, 또 몇번의 인턴 면접을 보며, 생성모델을 평가하는 메트릭에 대해 "잘" 알고있는 것이 매우 중요하다는 생각이 든다. 사실 이미지를 잘 생성한다라는 것을 수치적으

hyunsooworld.tistory.com

평가지표 관련 개념 참고 글

 

Table 3에 쓰인 Emu Edit(Meta에서 만든 인페이팅 model) test dataset,

DreamBooth(DreamBench, Google Research) dataset

https://arxiv.org/abs/2311.10089

 

Emu Edit: Precise Image Editing via Recognition and Generation Tasks

Instruction-based image editing holds immense potential for a variety of applications, as it enables users to perform any editing operation using a natural language instruction. However, current models in this domain often struggle with accurately executin

arxiv.org

 

https://arxiv.org/abs/2208.12242

 

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

Large text-to-image models achieved a remarkable leap in the evolution of AI, enabling high-quality and diverse synthesis of images from a given text prompt. However, these models lack the ability to mimic the appearance of subjects in a given reference se

arxiv.org

논문에서 Clip-I, Clip-T (DreamBooth) 라는 개념이 나옴

Clip-I는 생성된 이미지가 원본 이미지의 구조를 얼마나 보존했는지,

Clip-T는 생성된 이미지가 얼마나 프롬프트를 잘 따랐는지를 봄.

 

OmniGen은 104개의 A800 gpu를 사용함

'컴퓨터 > 인공지능' 카테고리의 다른 글

Voice ai 관련 중요한 한국인 저자 논문  (0) 2024.12.26
comfyui group 비활성화 방법  (0) 2024.12.26
comfyui 설치  (0) 2024.12.07
이미지 생성 관련 정보 공유 커뮤니티 - civitai  (1) 2024.12.04
flux gguf 강의  (0) 2024.12.04