Re: tcatm の 4-way SSE2 Linux 32/64 ビット版が 0.3.10 に搭載

人物: tcatm

@satoshi: おっと、-march=amdfam10 のつもりだった。すまない。

@4way の改善について混乱している皆さん:このコードは Phenom(940)で開発し、(少なくとも 64 ビットモードでは)検証済みで、見ている改善は本物だ。

ハイパースレッディングについて:わずかなパフォーマンス向上があるようだ。おそらくロード/ストア命令を演算命令と並行して実行していることによる。ABI に関数を組み込むための通常の x86 命令はごくわずかだ。総 CPU 時間の 2%未満で済む(gprof で測定)。