核心功能
Agent 驱动的全模态 AI 创作能力
Agent 智能调度
意图分析 + 自动路由,智能匹配最佳生成模型
文生图
基于 Gemini 生成高质量图片,支持风格控制
文生视频
对接 Google Veo 模型,文字描述直接生成视频
图生图 / 图生视频
以图片为基础进行二次创作和视频生成
TTS 语音合成
文本转语音,支持多种音色和语速控制
灵感广场
社区创作分享与发现,激发创作灵感
技术架构
Agent 智能调度链路
内容输入
意图分析
模型路由
多模态生成
内容输出
项目亮点
为什么这个项目值得学
01
智能生成 Agent:意图分析 + 自动路由到最佳模型
02
多模态覆盖:文生图/视频/音频 + 图生图/视频
03
创作工作台 + 灵感广场 + 资产管理三位一体
04
对接 Google 最新 Gemini & Veo 模型
教学资料
配套 5 份教学资料,覆盖从入门到面试
文档
00-环境准备与运行
开发环境搭建、API Key 配置
文档
01-项目演示与介绍
功能演示、创作流程、核心概念
文档
02-项目架构设计
系统架构、Agent 设计、模型路由
文档
03-核心设计详解
Agent 意图分析、多模态调度实现
互动课件
面试叙事导航图
面试叙事导航(研究生 / 求职双版本)