Skip to content

Latest commit

 

History

History
254 lines (144 loc) · 9.31 KB

README.md

File metadata and controls

254 lines (144 loc) · 9.31 KB

Gemini 1.5 Pro 멀티모달 프롬프트 실습

목표

Gemini 1.5의 멀티모달 기능을 몇가지 시나리오로 손쉽게 테스트해 봅니다.:

  • Vertex AI Generative AI 콘솔을 이용해 봅니다.
  • 텍스트, 이미지, 문서, 음성, 동영상 데이터로 할 수 있는 시나리오를 살펴봅니다.
  • Cloud Run 에 대한 사용방법을 간단히 습득합니다.
  • Gemini API 를 이용해 만든 간단한 Prompt editor 툴을 이용해 좀더 대용량의 데이터로 실습을 해봅니다.
  • https://github.com/jk1333/prompt_tester

Task 1. Vertex AI 에서 Generative AI 테스트 해보기

Google Cloud 콘솔에서 "vertex ai" 를 타이핑 하면 나오는 AI Studio 를 클릭합니다.

아래 화면과 같이 Multimodal 을 클릭하여 나오는 여러 샘플들을 하나씩 동작시켜 봅니다.

image

Task 2. Vertex AI의 Gemini API 로 만든 프롬프트 앱 배포 해보기

  • YouTube Data 접근을 위한 키 생성

검색창에 "youtube data api" 를 타이핑 하여 검색되는 YouTube Data API 를 선택합니다.

image

ENABLE 을 누릅니다

Enable이 완료되면 우측 상단에 팝업이 뜨는 CREATE CREDENTIALS 를 누릅니다.

(혹은 검색창에서 "Credentials" 를 검색하면 나오는 APIs & Services를 들어갑니다)

image

아래의 내용을 참고하여 키를 생성합니다.

image

image

나오는 키값을 별도의 메모장에 복사해 두고 DONE 을 누릅니다.

  • Vertex AI API 활성화

검색창에 "vertex ai api" 를 검색 후 Market place에서 해당 항목을 클릭, Enable 합니다.

image

  • Multimodal 을 위한 멀티미디어 데이터 저장을 위한 Cloud Storage 생성

검색창에 "Cloud Storage" 를 검색하여 나오는 메뉴에 들어갑니다.

image

메뉴 상단의 CREATE 버튼을 누릅니다.

image

Bucket 이름에는 Global Unique 하도록 이름을 하나 지정하고 적어둡니다.

메모장에 해당 Bucket 이름을 적어둡니다.

Location type에는 Region 을 선택하고 asia-northeast1 (Tokyo) 를 선택합니다.

나머지는 Default 값을 두고 생성 및 Confirm 을 누릅니다.

  • Prompt tester를 Cloud Run에 배포

메뉴에서 "cloud run" 을 검색합니다.

상단의 + DEPLOY CONTAINER -> Service 를 클릭합니다

image

Container image URL에는 아래의 내용을 입력합니다.

asia-northeast1-docker.pkg.dev/sandbox-373102/education/prompt_tester:v1

나머지 항목은 아래와 같이 설정합니다.

image

하단의 Container(s), Volumes, Networking, Security 를 클릭합니다.

image

메모리는 4G를 줍니다.

VARIABLES & SECRETS 탭에서 메모장에 기록해둔 값을 아래를 참고하여 입력합니다.

image

Key Value
BUCKET_ROOT 메모장에 적어둔값
YT_DATA_API_KEY 메모장에 적어둔값
DEFAULT_YT_VIDEO https://www.youtube.com/watch?v=hMKMSRKV1Xg

Security 항목으로 옮겨 Service account 항목을 Qwiklabs User Service Account 로 변경합니다.

image

하단의 내용을 참고하여 값을 업데이트 합니다.

Request timeout 은 300 -> 3600 으로 업데이트

Execution environment 는 Default -> Second generation 으로 업데이트 합니다.

image

CREATE 를 클릭합니다.

image

배포가 완료되면 URL이 활성화 됩니다.

image

  • Prompt tester 실행

좌측 창에서 Text가 선택된 상태로 Add를 누릅니다.

image

아래와 같이 입력 후 Gemini 1.5 Flash 및 Pro 버튼을 눌러 동작을 확인합니다.

image

상단의 Samples 버튼을 클릭하여 images.zip 파일을 다운받아 둡니다.

Task 3. 프롬프트 앱에서 시나리오 동작 해보기

1. 스타일 분석 및 추천 (Image + Text)

Image:

full_1.jpg

Text:

위 사진의 상의 셔츠를 바탕으로 하의에 어울리는 추천 스타일 및 피해야할 스타일을 한글로 추천해주세요

image

2. 의류 선택 추천 (Image + Text + Image)

Image:

pants_1.jpg, pants_2.jpg, pants_3.jpg, pants_4.jpg, pants_5.jpg

Text:

아래의 셔츠의 스타일을 설명하고, 위 바지들로 부터 이 셔츠와 어울리는 바지를 추천하고 추천 사유를 한글로 설명해 주세요. 그리고 비추천하는 스타일도 설명해 주세요.

Image:

top4.jpg

image

3. PDF 문서 분석 (PDF + Text)

**PDF(다운로드 후 앱에 업로드): **

https://m.kisrating.com/fileDown.do?menuCd=R2&gubun=9&fileName=CI20230710-1.pdf&writedate=20230710

Text:

첨부 보고서의 제목을 작성하고, 보고서의 내용을 요약해 주세요. 각 회사별로 매출 증대를 위해 추천할 내용을 알려주세요

image

4. 비디오 요약-외국어 (Audio from YT + Text)

Video from YT:

https://www.youtube.com/watch?v=F22D0jCGdLU

Text:

본 음성의 내용을 시간, 화자를 포함하여 한글 자막형태로 만들어 주세요. 등장인물1, 등장인물2 와 같은 형태로 화자를 설명해 주세요

image

5. 비디오 요약-한국어 (Video from YT + Text)

Video from YT:

https://www.youtube.com/watch?v=hMKMSRKV1Xg

Text:

첨부의 비디오를 방문 시간 및 장소 기준으로 요약해 주세요

image

6. 커맨트 분석 (Comments from YT + Text)

Comments from YT:

https://www.youtube.com/watch?v=hMKMSRKV1Xg

Text:

다음의 유투부 커맨트를 긍정, 부정으로 나누어 분류해 주세요. 예시로 각각 5개씩 선정해서 설명해 주세요.

image

7. 인급동 목록 분석 (Trends from YT + Text)

Trends from YT:

KR, All

Text:

위 내용을 유투브의 실시간 인기 영상 목록입니다. 이를 이용하여 유투브의 트랜드를 분석해 주세요.

image

8. Google Search ground (Google Grounding Checkbox + Text)

Text:

장충 체육관 위치를 알려주세요.

image