AI框架

OpenNof1 – 开源的AI自主交易系统,实时交易监控

OpenNof1 是 AI 自主交易系统,支持为用户提供自动化交易决策和风险管理。OpenNof1支持多种 AI 提供商(如 OpenAI、DeepSeek 等),能通过实时市场数据处理和极简主义界面,帮助用户在币安合约等平台上进行交易。

KaLM-Embedding – 腾讯推出的文本嵌入模型系列

KaLM-Embedding 是腾讯团队推出的一系列高性能文本嵌入模型,通过先进的训练技术和高质量数据提升文本嵌入的性能。最新版本 KaLM-Embedding-V2 在架构和训练方法上进行了多项创新,例如移除因果注意力掩码以实现双向表示学习

NocoBase – 开源AI无代码开发平台,通过配置完成应用开发

NocoBase 是开源、数据优先的AI无代码或低代码平台。以微内核+插件化为核心,所有功能(权限、工作流、API、主题等)均可按需插拔,支持 Node.js 与主流数据库。开发者先建模,系统自动生成表结构与接口;再配合可视化页面设计器,拖拽区块即可搭出复杂后台。

OmniVinci – NVIDIA推出的全模态大语言模型

OmniVinci是NVIDIA推出的全模态大语言模型,专门处理视觉、听觉、语言和推理的多模态任务。通过独特的OmnialignNet技术实现跨模态语义对齐,Temporal Embedding Grouping机制解决时序同步问题,采用Constrained Rotary Time Embedding优化时间感知能力。

UNO-Bench – 美团LongCat推出的全模态大模型评测基准

UNO-Bench是美团LongCat团队推出的全模态大模型评测基准。UNO-Bench针对现有评测体系的不足,通过高质量、多样化的数据构建,精准衡量模型的单模态与全模态能力。

Kosmos – FutureHouse 推出的AI科学家系统

Kosmos 是新一代 AI 科学家,由 FutureHouse 推出的自动化科研系统 Robin 升级而来。Kosmos采用结构化世界模型,能高效整合海量信息,单次运行可解析 1500 篇论文、执行 42000 行代码,处理规模远超同类系统。

SAIL-Embedding – 抖音联合港中文推出的全模态嵌入模型

SAIL-Embedding是字节跳动抖音SAIL团队和香港中文大学MMLab联合开发的全模态(omni-modal)嵌入基础模型。解决多模态信息检索和推荐系统中的实际应用问题,通过支持任意模态输入(包括文本、视觉和音频),生成统一且信息丰富的表示,支持多模态检索和分类任务。

BettaFish – 开源的多Agent舆情分析系统,自动采集、分析

BettaFish(微舆) 是开源的多智能体舆情分析系统,能帮助用户快速了解公众对事件、品牌或产品的看法。系统通过自然语言驱动,用户只需像聊天一样提出需求,系统能自动完成全网舆情的采集、分析和预测。

LTX-2 – Lightricks推出的电影级AI视频生成模型

LTX-2 是 Lightricks 开发的先进 AI 视频生成模型,专为高质量视频创作设计。能以原生 4K 分辨率和 50fps 的帧率生成电影级视频,支持多模态输入,包括文字、图片和草图,同时提供精细控制功能,可调节镜头角度、物体动作、时间节奏等。

Sonic-3 – Cartesia推出的实时语音对话模型

Sonic-3是Cartesia最新发布的语音AI引擎,是当前市场上速度最快、最自然的实时语音对话模型。采用创新的“状态空间模型”(SSM)架构,非传统的Transformer模型,能更有效地模拟人类思维,记住对话主题和情绪,无需每次都从头分析上下文。

Glyph – 智谱联合清华开源的视觉文本压缩框架

Glyph 是智谱联合清华大学 CoAI 实验室开源的创新框架,能通过视觉 - 文本压缩解决大语言模型(LLM)上下文过长的问题。框架将长文本渲染为图像,用视觉语言模型(VLM)处理图像,实现 3 - 4 倍的上下文压缩。

Nof1.ai交易提示词 – 为AI交易系统设计的模板

Nof1.ai交易提示词是为AI交易系统设计的详细输入模板,提供全面的市场数据、技术指标和账户信息。提示词包括多个币种的当前价格、EMA、MACD、RSI等指标,及账户的持仓详情和性能指标。

Baichuan-M2 Plus – 百川智能推出的循证增强医疗大模型

Baichuan-M2 Plus 是百川智能推出的循证增强医疗大模型,基于 Baichuan-M2 医疗推理模型升级而来,通过首创的六源循证推理(EAR)范式,结合 PICO 智能检索和循证强化训练机制,显著降低医疗幻觉率,提升回答的可信度和专业性。

混元世界模型1.1 – 腾讯混元开源的3D世界生成模型

混元世界模型1.1(HunyuanWorld-Mirror)是腾讯发布的开源3D世界生成模型。支持多视图图像、视频等多种输入方式,可输出点云、深度图、相机参数等多种3D几何预测结果。模型采用纯前馈架构,可在单张显卡上部署,处理8-32视图输入时,本地耗时仅1秒,实现秒级推理。

PaddleOCR-VL – 百度飞桨开源的多模态文档解析模型

PaddleOCR-VL是百度飞桨团队开源的多模态文档解析模型,参数量仅0.9B,专为低算力设备优化。在国际权威评测OmnidocBench V1.5中以92.6分登顶全球第一,超越GPT-4o等主流模型。

UniPixel – 香港理工联合腾讯推出的像素级多模态大模型

UniPixel是香港理工大学和腾讯ARC Lab团队开发的首个统一像素级多模态大模型,专注于图像/视频的精细理解与交互。能在单个模型中完成对象指代、像素级分割和区域推理三大任务,通过创新设计的"对象记忆机制"和统一视觉编码方式,实现了对视频中目标的精准追踪与语义理解。

DiaMoE-TTS – 清华联合巨人网络开源的多方言TTS框架

DiaMoE-TTS 是清华大学和巨人网络联合推出的多方言语音合成(TTS)框架。框架基于国际音标(IPA)统一输入体系,结合方言感知的 Mixture-of-Experts(MoE)架构和低资源适配策略(PEFT),实现低成本、低门槛的多方言语音合成。

Local-NotebookLM – 开源PDF转播客AI工具,自定义音频

Local-NotebookLM 是开源的本地 AI 工具,能将 PDF 文档转换为引人入胜的音频内容,如播客、访谈、辩论等。支持多种输出格式和内容风格,用户可以根据需求选择不同的音频长度和风格,如短篇、中篇、长篇,以及正常、轻松、正式、技术、学术等风格。

Get Jobs – 开源的AI简历投递工具,支持多平台投递

Get Jobs是开源的自动化简历投递工具,能帮助用户高效地在多个招聘平台(如Boss直聘、猎聘、拉勾、51job、智联招聘等)上投递简历。

SAIL-VL2 – 字节抖音联合国立大学开源的视觉语言模型

SAIL-VL2 是抖音团队和新加坡国立大学联合开发的开源视觉语言基础模型,专注于多模态理解和推理。由视觉编码器 SAIL-ViT、视觉-语言适配器和大语言模型组成,采用渐进式训练框架,从视觉预训练到多模态融合,最终通过 SFT-RL 混合范式提升性能。