想象一下,你站在一个巨大的虚拟世界的前面, 一个由人工智能交织在一起的场景-- 一个活的人物,一个多彩的视角,一个窒息的故事。它不是科幻小说,而是大模型技术的现实。
2024年,随着索拉技术的到来,人们目睹了知识创造的惊人突破,不仅破坏了传统的视频制作,而且还在人工智能领域带来了深刻的转变。
当伊隆·麦斯(Elon Mask)赞美索拉的技术并赞美其创新“愿意赌博和输输的人 ” 时,我们知道这不仅仅是一个技术飞跃,而且是未来智能世界的大胆预言。 从美国到中国,从初级市场到三级市场,生产模型的趋势像树枝一样蔓延到全球的每个角落,激发了数百万企业家和技术球迷的无限想象力。
然而,Sora模型并非开放源码,计算培训费用高昂使许多科学家和开发商望而却步。
Yoyo教授对人工智能技术开始时人工智能的算术瓶颈十分关切,2021年,率领上午技术小组启动了大型模型Colossal-AI深学习加速系统,使人工智能培训能够推广到数以千计的处理者,不丧失准确性,为大型模型培训、微调和推理任务提供高效和低成本的解决方案。
该工具被开放源码激活,成为可缩放人工智能领域增长最快的开放源码项目之一。 早期技术进一步启动了晨云平台,核心是Colossal-AI系统,预先放置了丰富的大型模型镜,为科学家和大型模型开发者提供了快速获取高端计算的途径。
晨间云平台由晨间技术发射,其数学选择了多种应用,界面简单,默认的与AI相关的巨型镜像,为科学家和大型模型开发者提供了一个快速访问高端计算的新途径。 它让每个创造者在智慧创造的海洋中轻松地旅行。
视频制作、图像制作和文本制作都可供使用。
用户使用 Open-Sora 生成的视频
但GPU资源不仅昂贵而且稀缺,供应商通常还要求用户支付预付捐款,并每年或每月支付首期付款。 晨云不仅提供了容易使用的AI解决方案,而且还为广泛的AI开发商和其他人提供了廉价计算:
H800:最适合处理具有强大分布式计算和数据处理能力的大型模型(十亿至十亿参数)。
H800 配置: NVLink: GPU: 8 x H800- 80G SXM NVLink CPU: 2 x 8470-52c 内存: 32 x 64G 集群网络: 8 x 400G ROCE: 2x 960G NVME 本地存储: 4*7.68 T NVME
A800: 适合大规模深入学习模式的培训和高性能计算任务,特别是在需要高内存和带宽的情况下。
A800 配置: CPU: 2* Intel Xeon Platinum 8358P@ 2. 60GHz 32 核内存: 1024GB 硬磁盘: 2 *SSD 960G+1* 7.68T NVME SSD 网络: 4* 200Gbps IB 计算 +2* 200Gbps IB 存储 +2* 200Gbps IB 存储 +2* 10Gbps Eth NIC GPU: 8 * Nvidia A800 80G SXM + Nvlink
4090: 适合中大型模型和高绩效独立培训开发工作站的培训和推理。
4090 配置: CPU: Intel 8352V* *2 RAM: DR4 3200 64G*16 系统磁盘: 480G SATA SSD*2突袭1 数据磁盘: 3.84T NVME U.2*1 GPU: 4090Turbo *8 Netcard: 25G 光门户网卡(不包括模块) * 2突袭卡: 突袭卡*1, 支持RAID 0、 1、 5、 6、 10、 50 和 60, 缓冲动力源: 冗余后超过 4,000W, 支持加热管理卡: 远程 BMC 管理
使用 FaceFusion 等工具创建
AI 数字人改变面孔短视频
@Jack-Cui 博客
现在,AI数字人非常热,所有类型的数字人都带来了带有具体行动的视频,提前录制,然后使用AI面对面的算法驱动面孔和完成创建行动。 UP 大师分享了他们自己使用FaceFusion开源工具在早云平台上用4090张视频卡完成的视频项目。
UP 的主人说, “ 选择创建一个新的云主机, 4090卡通常足够。 4090 值是高的, 所以是每小时1.59美元。 当然这里有80GB标记的 H800 和 A800 。 镜子装满了由所有者为您准备的镜子。 点击以创建它。 玩得开心 。 ”
使用稳定的传播和开放空间
等待创造故事的工具。
@Crossin 的编程类
Crossinsin也用晨云写作和展示故事的短片。
脚本: 首先, 创建故事脚本。 UP的主要想法是使用Meta最近几天刚刚发行的开放源码大语言模型Llama 3。 作者制作了一个四格漫画漫画,由一只想学烹饪的猫主演,并要求模型提供中国图表字幕和英语提示。
1 curl -fsSL https://ollama.com/install.sh | sh
2 ollama serve
3 ollama run llama3
绘图 : 用脚本和提示, 作者然后开始绘制插图 。 默认的晨云为 Snable Difulte WebUI 提供了一个镜像, 并选择创建主机的镜子( 建议选择 1 卡 H800 机器), 并直接激活 StableDifulte 的网页版本 。 添加由 llama3 生成的提示稍作修改, 并设置下面的绘图数量, 然后获得一个与剧情相容的插图 。 然后 UP 大师试图使用晨云提供 OpenSora 镜, 将插图进一步转换为动态内容 。
1 cd /root/stable-diffusion-webuibash webui.sh -f
2 sh- CNg- L 本地端口: 127.0.0.1: 7860 root@ colunn 主机地址 - p 端口号
声音: 最后, UP 大师通过语音合成开放源码工具包只给 Cqui-TTS 提供了一篇故事。 通过管道指令安装支持多种语言,包括中文。
使用 tts 命令将 llama3 生成的地图描述转换为声音, 并将其与先前生成的视频整合 。
1 pip install TTS
2 tts-text “要求转换为语音文本内容” -- -- model_name “tts_models/zh-CN/baker/tacotron2-DC-GST” -- --out_path peak.wav
最后影响图
UP的所有者说,“在这个演示中,我使用基本模型和默认配置,以便你能够微调和优化它。虽然这些功能在市场上存在,但可以实现。但是,对于那些学习AI的人来说,作为AI的产生者,而不是消费者,他们必须自行部署和开发它。在这种情况下,特别是对于学生党来说,云服务的价值很高。假设预算只有3000美元,不能使用带有4090张卡的计算机,但是在晨云上,4,090个云主每天平均使用2美元,每天平均4小时,他们可以使用375天。而且比你自己的计算机更容易根据你的需要迅速升级和扩大。 ”
随着早期科技创新的步伐,我们正处在一个新时代的开端。 这是一个由人工智能驱动的创造时代,一个充满无限可能性的智力未来。 早期科技不仅为我们打开了大门,也展示了一个新的创造世界。
* 地图头图来源:中国视觉
这篇文章是来自远征公园的原始文章, 请联系未与外界联系, GeekparkGO。
报告/反应
注册有任何问题请添加 微信:MVIP619 拉你进入群
打开微信扫一扫
添加客服
进入交流群
发表评论