Ep.908 超軽量0.9Bの衝撃──Z.aiが放つドキュメント理解の特化型AI「GLM-OCR」(2026年2月5日配信)
Impossibile aggiungere al carrello
Rimozione dalla Lista desideri non riuscita.
Non è stato possibile aggiungere il titolo alla Libreria
Non è stato possibile seguire il Podcast
Esecuzione del comando Non seguire più non riuscita
-
Letto da:
-
Di:
A proposito di questo titolo
2026年2月3日、AI開発組織のZ.aiは、ドキュメント解析に特化した革新的な小型モデル「GLM-OCR」を公開しました。このモデルは、わずか9億パラメータ(0.9B)という極めて軽量な設計でありながら、ドキュメント理解のベンチマークである「OmniDocBench V1.5」において94.62というスコアを叩き出し、世界1位を獲得したことで業界に大きな衝撃を与えています。
従来の高性能なドキュメント解析AIは、数十億から数千億のパラメータを持つ巨大なモデルが主流であり、運用には高価なGPUサーバーが不可欠でした。しかし、このGLM-OCRは、独自の「マルチトークン予測(MTP)」損失関数と、安定した強化学習プロセスを導入することで、小型ながらも複雑な表、高度な数式、さらには印影や手書き文字が混在するビジネス文書を正確にデジタル化する能力を備えています。
技術的な背景としては、大規模な画像・テキストデータで事前学習された視覚エンコーダー「CogViT」と、0.5Bサイズの軽量な言語デコーダーを組み合わせたアーキテクチャを採用しています。さらに、ドキュメントのレイアウト解析には定評のある「PP-DocLayout-V3」を統合した2段階のパイプラインを構築しており、単なる文字の読み取りにとどまらず、文書の構造そのものを正確に把握することが可能です。
競合となるDeepSeek-OCRやQwen2.5-VLといったモデルと比較しても、GLM-OCRは推論効率の高さが際立っています。PDFの解析速度では1秒間に1.86ページという高いスループットを実現しており、これは大量の書類を抱える企業のバックオフィス業務や、モバイル端末などのエッジデバイスでの活用において、決定的な優位性を持つことになります。
今回のリリースにより、これまで多額のコストがかかっていた商用のOCRサービスに頼ることなく、オープンソースの技術だけで、最高水準の文書自動化システムを構築できる道が開かれました。AIによるドキュメント処理の民主化が、また一歩大きく前進したと言えるでしょう。