@ppio
百川智能开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。
具备多维度能力的文本嵌入模型,可同时实现密集检索、多向量检索和稀疏检索三大核心功能。该模型设计上兼容超过100种语言,并支持从短句到长达8192词元的长文本等多种输入形式。在跨语言检索任务中,BGE-M3展现出显著优势,其性能在MIRACL、MKQA等国际基准测试中位居前列。此外,针对长文档检索场景,该模型在MLDR、NarritiveQA等数据集上的表现同样达到行业领先水平。
DeepSeek R1是DeepSeek团队发布的最新开源模型,具备非常强悍的推理性能,尤其在数学、编程和推理任务上达到了与OpenAI的o1模型相当的水平。
基于 Qwen 2.5 32B 的蒸馏大语言模型,通过使用 DeepSeek R1 的输出进行训练而得。该模型在多个基准测试中超越了 OpenAI 的 o1-mini,取得了密集模型(dense models)的最新技术领先成果(state-of-the-art)。
DeepSeek R1 Distill Llama 70B是基于Llama3.3 70B的大型语言模型,该模型利用DeepSeek R1输出的微调,实现了与大型前沿模型相当的竞争性能。
DeepSeek R1 Distill Llama 8B 是一种基于 Llama-3.1-8B-Instruct 的蒸馏大语言模型,通过使用 DeepSeek R1 的输出进行训练而得。
基于 Qwen 2.5 14B 的蒸馏大语言模型,通过使用 DeepSeek R1 的输出进行训练而得。该模型在多个基准测试中超越了 OpenAI 的 o1-mini,取得了密集模型(dense models)的最新技术领先成果(state-of-the-art)。该模型通过从 DeepSeek R1 的输出中进行微调,展现了与更大规模的前沿模型相当的竞争性能。
DeepSeek团队发布的最新开源模型,具备非常强悍的推理性能,尤其在数学、编程和推理任务上达到了与OpenAI的o1模型相当的水平。
深度求索(DeepSeek)团队旗舰级对话模型系列的最新版本,采用混合专家(Mixture-of-Experts, MoE)架构,参数量达685B参数。
DeepSeek-V3在推理速度方面实现了比之前模型的重大突破。在开源模型中排名第一,并可与全球最先进的闭源模型相媲美。DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了全面验证。此外,DeepSeek-V3 开创了一种用于负载均衡的辅助无损策略,并设定了多标记预测训练目标以获得更强的性能。
DeepSeek-V3 在推理速度方面实现了比之前模型的重大突破。在开源模型中排名第一,并可与全球最先进的闭源模型相媲美。DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了全面验证。此外,DeepSeek-V3 开创了一种用于负载均衡的辅助无损策略,并设定了多标记预测训练目标以获得更强的性能。
基于Gemini 2.0架构打造的开源大语言模型,该模型支持32K tokens长上下文处理,具备跨文本、图像和短视频的多模态推理能力;通过原生140种语言理解与官方量化技术,可在降低50%显存占用的同时保持高精度输出;同时具备增强的数学计算、逻辑推理和对话功能(包括结构化输出)。
智谱AI发布的GLM-4系列最新一代预训练模型的开源版本。
Meta最新一代的Llama 3.1模型系列,70B(700亿参数)的指令微调版本针对高质量对话场景进行了优化。在业界评估中,与领先的闭源模型相比,它展现出了强劲的性能。
Meta最新一代的Llama 3.1模型系列,8B(80亿参数)的指令微调版本特别快速高效。在业界评估中,表现出强劲的性能,超越了很多领先的闭源模型。
拥有 30 亿参数的多语言大型语言模型,专为高级自然语言处理任务(如对话生成、推理和总结)而优化。该模型采用最新的 Transformer 架构,支持包括英语、西班牙语和印地语在内的八种语言,并可以适配其他语言。 Llama 3.2 3B 模型基于 9 万亿标记进行训练,在遵循指令、复杂推理和工具使用方面表现出色。其平衡的性能使其成为在多语言环境中需要文本生成的准确性和效率的应用场景的理想选择。
一款多语言的大型语言模型(LLM),经过预训练和指令微调的生成模型,包含 700 亿参数(输入文本/输出文本)。Llama 3.3 的指令微调文本模型专为多语言对话场景优化,在常见行业基准测试中,其表现优于许多现有的开源和闭源聊天模型。 支持的语言包括:英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
Meta 基于混合专家(MoE)架构开发的高性能多模态语言模型,每次推理动态激活 170 亿参数(总参数量达 4000 亿),集成 128 个专家模块。该模型支持 12 种语言的文本/图像输入及文本/代码输出,专为视觉-语言任务优化,通过指令微调实现类助手交互、图像推理和通用多模态应用。
Meta 开发的混合专家(MoE)语言模型,从 1090 亿总参数中动态激活 170 亿参数,支持文本和图像的多模态输入,并能以 12 种语言输出文本和代码。该模型专为智能助手交互和视觉推理设计,每次推理调用 16 个专家模块,具备 1000 万 token 的超长上下文窗口,训练数据规模达 40 万亿 token。
阿里云发布的最新大语言模型系列之一,在编码和数学等领域具有显著改进的能力,提供多语言支持,覆盖超过 29 种语言,包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出(尤其是 JSON)方面都有显著提升。
阿里云发布的最新大语言模型系列之一,在编码和数学等领域具有显著改进的能力。该模型还提供了多语言支持,覆盖超过 29 种语言,包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出(尤其是 JSON)方面都有显著提升。
Qwen 大语言模型的最新系列,知识储备显著提升,并在编程和数学能力上有大幅增强;在指令理解与执行、生成长文本(超过8K tokens)、理解结构化数据(如表格)、以及生成结构化输出(尤其是 JSON)方面表现大幅提升。对多样化的系统提示更具适应性,增强了角色扮演实现和聊天机器人的条件设定能力;长上下文支持扩展至最多 128K tokens,最多可生成 8K tokens 的内容;多语言支持涵盖超过 29 种语言,包括中文、英文、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
Qwen2.5 系列最新推出的视觉语言模型,具备更强的视觉理解能力,能够识别常见物体、分析文本、图表和布局;作为视觉代理能够推理并动态指导工具使用;支持理解超过 1 小时的长视频并捕捉关键事件;能够通过生成边界框或点准确定位图像中的物体;支持生成结构化输出,尤其适用于发票、表格等扫描数据。模型在多项基准测试中表现出色,包括图像、视频和代理任务评测。
Qwen 系列的推理模型,与传统的指令调优模型相比,QwQ 具备思考和推理能力,能够在下游任务中实现显著增强的性能,尤其是在解决困难问题方面。QwQ-32B 是中型推理模型,能够在与最先进的推理模型(如 DeepSeek-R1、o1-mini)的对比中取得有竞争力的性能。
零一万物最新开源微调模型,340亿参数,微调支持多种对话场景,高质量训练数据,对齐人类偏好。
零一万物的最新开源微调模型,90亿参数,微调支持多种对话场景,高质量训练数据,对齐人类偏好。
Specialized in Next.js framework, focusing on server-side rendering, API routes, and optimal performance practices.