Gemini 1.5의 멀티모달 기능을 몇가지 시나리오로 손쉽게 테스트해 봅니다.:
- Vertex AI Generative AI 콘솔을 이용해 봅니다.
- 텍스트, 이미지, 문서, 음성, 동영상 데이터로 할 수 있는 시나리오를 살펴봅니다.
- Cloud Run 에 대한 사용방법을 간단히 습득합니다.
- Gemini API 를 이용해 만든 간단한 Prompt editor 툴을 이용해 좀더 대용량의 데이터로 실습을 해봅니다.
- https://github.com/jk1333/prompt_tester
Google Cloud 콘솔에서 "vertex ai" 를 타이핑 하면 나오는 AI Studio 를 클릭합니다.
아래 화면과 같이 Multimodal 을 클릭하여 나오는 여러 샘플들을 하나씩 동작시켜 봅니다.
- YouTube Data 접근을 위한 키 생성
검색창에 "youtube data api" 를 타이핑 하여 검색되는 YouTube Data API 를 선택합니다.
ENABLE 을 누릅니다
Enable이 완료되면 우측 상단에 팝업이 뜨는 CREATE CREDENTIALS 를 누릅니다.
(혹은 검색창에서 "Credentials" 를 검색하면 나오는 APIs & Services를 들어갑니다)
아래의 내용을 참고하여 키를 생성합니다.
나오는 키값을 별도의 메모장에 복사해 두고 DONE 을 누릅니다.
- Vertex AI API 활성화
검색창에 "vertex ai api" 를 검색 후 Market place에서 해당 항목을 클릭, Enable 합니다.
- Multimodal 을 위한 멀티미디어 데이터 저장을 위한 Cloud Storage 생성
검색창에 "Cloud Storage" 를 검색하여 나오는 메뉴에 들어갑니다.
메뉴 상단의 CREATE 버튼을 누릅니다.
Bucket 이름에는 Global Unique 하도록 이름을 하나 지정하고 적어둡니다.
메모장에 해당 Bucket 이름을 적어둡니다.
Location type에는 Region 을 선택하고 asia-northeast1 (Tokyo) 를 선택합니다.
나머지는 Default 값을 두고 생성 및 Confirm 을 누릅니다.
- Prompt tester를 Cloud Run에 배포
메뉴에서 "cloud run" 을 검색합니다.
상단의 + DEPLOY CONTAINER -> Service 를 클릭합니다
Container image URL에는 아래의 내용을 입력합니다.
asia-northeast1-docker.pkg.dev/sandbox-373102/education/prompt_tester:v1 |
---|
나머지 항목은 아래와 같이 설정합니다.
하단의 Container(s), Volumes, Networking, Security 를 클릭합니다.
메모리는 4G를 줍니다.
VARIABLES & SECRETS 탭에서 메모장에 기록해둔 값을 아래를 참고하여 입력합니다.
Key | Value |
---|---|
BUCKET_ROOT | 메모장에 적어둔값 |
YT_DATA_API_KEY | 메모장에 적어둔값 |
DEFAULT_YT_VIDEO | https://www.youtube.com/watch?v=hMKMSRKV1Xg |
Security 항목으로 옮겨 Service account 항목을 Qwiklabs User Service Account 로 변경합니다.
하단의 내용을 참고하여 값을 업데이트 합니다.
Request timeout 은 300 -> 3600 으로 업데이트
Execution environment 는 Default -> Second generation 으로 업데이트 합니다.
CREATE 를 클릭합니다.
배포가 완료되면 URL이 활성화 됩니다.
- Prompt tester 실행
좌측 창에서 Text가 선택된 상태로 Add를 누릅니다.
아래와 같이 입력 후 Gemini 1.5 Flash 및 Pro 버튼을 눌러 동작을 확인합니다.
상단의 Samples 버튼을 클릭하여 images.zip 파일을 다운받아 둡니다.
1. 스타일 분석 및 추천 (Image + Text)
Image:
full_1.jpg
Text:
위 사진의 상의 셔츠를 바탕으로 하의에 어울리는 추천 스타일 및 피해야할 스타일을 한글로 추천해주세요
2. 의류 선택 추천 (Image + Text + Image)
Image:
pants_1.jpg, pants_2.jpg, pants_3.jpg, pants_4.jpg, pants_5.jpg
Text:
아래의 셔츠의 스타일을 설명하고, 위 바지들로 부터 이 셔츠와 어울리는 바지를 추천하고 추천 사유를 한글로 설명해 주세요. 그리고 비추천하는 스타일도 설명해 주세요.
Image:
top4.jpg
3. PDF 문서 분석 (PDF + Text)
**PDF(다운로드 후 앱에 업로드): **
https://m.kisrating.com/fileDown.do?menuCd=R2&gubun=9&fileName=CI20230710-1.pdf&writedate=20230710
Text:
첨부 보고서의 제목을 작성하고, 보고서의 내용을 요약해 주세요. 각 회사별로 매출 증대를 위해 추천할 내용을 알려주세요
4. 비디오 요약-외국어 (Audio from YT + Text)
Video from YT:
https://www.youtube.com/watch?v=F22D0jCGdLU
Text:
본 음성의 내용을 시간, 화자를 포함하여 한글 자막형태로 만들어 주세요. 등장인물1, 등장인물2 와 같은 형태로 화자를 설명해 주세요
5. 비디오 요약-한국어 (Video from YT + Text)
Video from YT:
https://www.youtube.com/watch?v=hMKMSRKV1Xg
Text:
첨부의 비디오를 방문 시간 및 장소 기준으로 요약해 주세요
6. 커맨트 분석 (Comments from YT + Text)
Comments from YT:
https://www.youtube.com/watch?v=hMKMSRKV1Xg
Text:
다음의 유투부 커맨트를 긍정, 부정으로 나누어 분류해 주세요. 예시로 각각 5개씩 선정해서 설명해 주세요.
7. 인급동 목록 분석 (Trends from YT + Text)
Trends from YT:
KR, All
Text:
위 내용을 유투브의 실시간 인기 영상 목록입니다. 이를 이용하여 유투브의 트랜드를 분석해 주세요.
8. Google Search ground (Google Grounding Checkbox + Text)
Text:
장충 체육관 위치를 알려주세요.