Кто считает, что под Cygwin -- считает неправильно. Под Цыгвином он выполняется за 10 секунд. А на виртуальной машине с FreeBSD -- за 8. Ну да, компилятор другой, православный clang, а не gcc. Не поленился, поставил gcc на BSD. То же самое, но в профиль.
Так что если нужна высокая производительность -- выгоднее ставить виртуалку. Так и запишем...
А код -- чисто так, загрузить процессор. 2^30 раз вычисляет значение квадратного корня в 8 нитях.