評価は「likely_true」である。数値に関する主張は、情報源の質に重大な問題や相反するデータポイントがあるにもかかわらず、2つの別個の情報源によって裏付けられている。 「Nof1 AI Trading Test」と79%(具体的には79.43%)を直接言及している唯一の情報源は、coincu.comに掲載されたスポンサードプレスリリースである。この情報源は権威性が極めて低く、偏りの可能性が高いため、単独では信頼性に欠ける。しかし、この主張は、より信頼性の高い独立系AI比較プラットフォームであるvals.aiによって強く補強されている。この情報源は、Qwen 3 Max Previewが「finance benchmarks」において78.9%のスコアを達成したことを示している。79.43%と78.9%という数値の著しい類似性は、同じ基本的な性能データを指している可能性が高く、主張の数値部分に大きな信憑性を与えている。これとは異なる証拠として、vals-aiのLinkedIn投稿がある。この投稿では、独自の「Finance Agent Benchmark」でモデルの精度がわずか17%と報告されている。これは別のテストでの結果であり、この主張を直接否定するものではない。モデルの性能はテストによって大きく変動し得るためである。しかし、このことは79%という結果が金融関連のすべての課題における性能を代表していないことを示している。最後に、最も権威のある情報源である公式Qwen GitHubリポジトリや学術論文には、このテストや結果に関する記載はない。この公式な検証の欠如により、高い確信度での評価はできない。総括すると、この主張は内容的にはおそらく正しい—すなわち、Qwen 3 Maxが金融関連ベンチマークで約79%のスコアを達成したというものである。「Nof1 AI Trading Test」という名称や「gain」という言葉は、質の低い情報源による宣伝的な言い回しの可能性が高いが、基礎となる数値自体はより信頼できるデータにより裏付けられている。