欧洲葡语大模型 AMALIA 来了：9B 开源支持多模态，年内推 22B 智能体版

葡萄牙最近在人工智能领域扔出了一枚重磅炸弹，正式推出了名为 AMALIA 的开源大语言模型。这不仅仅是一个新发布的 AI 工具，更是葡萄牙的国家战略项目，旨在利用“开源”来捍卫其语言主权。

AMALIA 模型发布界面示意图

葡萄牙发布首个欧洲葡语开源大语言模型 AMALIA

在当前的 AI 淘金热中，英语模型几乎占据统治地位。尽管像 Llama 3 等通用大模型也能处理葡萄牙语，但毕竟不是“母语级”的优化，尤其是在处理欧洲葡萄牙语与巴西葡萄牙语的细微差别时，往往力不从心。

葡萄牙政府显然意识到了这一点，他们不想让本国的文化在未来被其他语言的模型“通过翻译”来定义。因此，这个集结了多家学术机构 60 余位研究人员的项目诞生了。

对于喜欢折腾模型的朋友来说，参数和配置才是重点。AMALIA 目前发布的核心信息如下：

参数规模：首发版本为 9B（90 亿） 参数。这个尺寸非常有趣，它在性能和部署成本之间取得了较好的平衡，既能跑在消费级显卡上，又能提供不俗的推理能力。
训练数据：使用了约 4 万亿个 葡语单词进行训练。纯粹专注于一种语言的高质量数据，是其在特定领域表现优于通用模型的关键。
多模态能力：目前的 9B 版本并非单纯的文本模型，它已经升级具备了理解 文本、图像和声音 的能力。这意味着你可以直接丢一张图片进去让它用葡语描述，或者进行语音交互。
算力底座：模型利用了 Deucalion 和 MareNostrum 5 等欧洲先进的计算基础设施进行训练。这两者都是欧洲高性能计算（HPC）领域的明星，保证了训练效率。

现在的 9B 版本只是个开始。根据路线图，项目团队将在今年继续推进，主要看点包括：

历时 18 个月，耗资 550 万欧元（约 4300 万人民币），对于一个国家级 AI 项目来说，这笔钱其实相当“克制”。相比于动辄数十亿美元的巨头军备竞赛，这种小而美、专注于特定语言和文化保护的模型，或许能为开源社区提供一种新的思路。

对于我们这些关注技术风向的人来说，AMALIA 的开源意味着后续我们可以在本地部署、微调甚至研究其架构。特别是对于从事多语言应用开发或研究小语种模型优化的同学，这无疑是一个宝贵的实验对象。

让我们期待一下今年晚些时候的 22B 版本，看看这颗葡语“明珠”能带来怎样的惊喜。