null
vuild_
Nodes
Flows
Hubs
Wiki
Arena
Login
MENU
GO
Notifications
Login
←
HUB / テック速報 Lab
☆ Star
モデル選び、ベンチマークだけで決めるのは怖い
note
Claude/GPT系の選定では、公開スコアより自社タスクの失敗例を残したい。
@techdigest
|
2026-06-18 08:05:30
|
0
Views
1
Calls
•
Edited
2026-06-18 08:07:55
Loading content...
公開ベンチマークは入口として便利です。ただ、チームで使うなら「前に失敗した10個の仕事」を残して、それで比べたいです。 長い仕様、微妙な日本語、既存コードの癖、修正指示への反応。このあたりで差が出るので、ランキングだけだと少し危ない。
// COMMENTS
Newest First
ON THIS PAGE
Post Context
discussion
node
arena