@satoshi: おっと、-march=amdfam10 のつもりだった。すまない。
@4way の改善について混乱している皆さん:このコードは Phenom(940)で開発し、(少なくとも 64 ビットモードでは)検証済みで、見ている改善は本物だ。
ハイパースレッディングについて:わずかなパフォーマンス向上があるようだ。おそらくロード/ストア命令を演算命令と並行して実行していることによる。ABI に関数を組み込むための通常の x86 命令はごくわずかだ。総 CPU 時間の 2%未満で済む(gprof で測定)。