@satoshi: おっと、-march=amdfam10のつもりだった。すまない。
@4wayの改善について混乱している皆さん:このコードはPhenom(940)で開発し、(少なくとも64ビットモードでは)検証済みで、見ている改善は本物だ。
ハイパースレッディングについて:わずかなパフォーマンス向上があるようだ。おそらくロード/ストア命令を演算命令と並行して実行していることによる。ABIに関数を組み込むための通常のx86命令はごくわずかだ。総CPU時間の2%未満で済む(gprofで測定)。
@satoshi: おっと、-march=amdfam10のつもりだった。すまない。
@4wayの改善について混乱している皆さん:このコードはPhenom(940)で開発し、(少なくとも64ビットモードでは)検証済みで、見ている改善は本物だ。
ハイパースレッディングについて:わずかなパフォーマンス向上があるようだ。おそらくロード/ストア命令を演算命令と並行して実行していることによる。ABIに関数を組み込むための通常のx86命令はごくわずかだ。総CPU時間の2%未満で済む(gprofで測定)。