float和double之间的区别是什么？

Question

更多

VaioIsBorn

问题

float和double之间的区别是什么？

我读过关于双精度和单精度之间的区别。然而，在大多数情况下，"float "和 "double "似乎是可以互换的，也就是说，使用一个或另一个似乎不会影响结果。情况真的是这样吗？什么时候浮点数和双数可以互换？它们之间有什么区别？

nbro

已编辑的问题 10日三月 2018 в 11:00

编程

c++

c

precision

floating-point

热门视频

« 前进

下一步 »

解决方案/答案

Alok Singhal

5日三月 2010 в 5:57

更多

给出一元二次方程。 x² &减; 4.0000000 x + 3.9999999 = 0，精确到10位有效数字的根数为，r₁ = 2.000316228和r₂ = 1.999683772。

使用float和double，我们可以写一个测试程序。

#include <stdio.h>
#include <math.h>

void dbl_solve(double a, double b, double c)
{
    double d = b*b - 4.0*a*c;
    double sd = sqrt(d);
    double r1 = (-b + sd) / (2.0*a);
    double r2 = (-b - sd) / (2.0*a);
    printf("%.5f\t%.5f\n", r1, r2);
}

void flt_solve(float a, float b, float c)
{
    float d = b*b - 4.0f*a*c;
    float sd = sqrtf(d);
    float r1 = (-b + sd) / (2.0f*a);
    float r2 = (-b - sd) / (2.0f*a);
    printf("%.5f\t%.5f\n", r1, r2);
}   

int main(void)
{
    float fa = 1.0f;
    float fb = -4.0000000f;
    float fc = 3.9999999f;
    double da = 1.0;
    double db = -4.0000000;
    double dc = 3.9999999;
    flt_solve(fa, fb, fc);
    dbl_solve(da, db, dc);
    return 0;
}

运行程序给我。

2.00000 2.00000
2.00032 1.99968

注意，数字不大'，但使用浮点还是会有取消效果。

(事实上，上述方法并不是使用单精度或双精度浮点数解二次方程的最佳方法，但即使使用[更稳定的方法][1]，答案也不会改变)。

[1]: http://en.wikipedia.org/wiki/Quadratic_equation#Floating_point_implementation

26

0

Elliscope Fang

20日十月 2015 в 6:51

更多

我刚刚遇到了一个错误，我花了很长时间才弄清楚，而且有可能给你一个很好的浮点精度的例子。

#include <iostream>
#include <iomanip>

int main(){
  for(float t=0;t<1;t+=0.01){
     std::cout << std::fixed << std::setprecision(6) << t << std::endl;
  }
}

输出是

如你所见，0.83之后，精度明显下降。

但是，如果我把t设置成双倍，这样的问题就不会发生了'。

我花了五个小时才意识到这个小错误，这毁了我的程序。

nbro

编辑本段答案10日三月 2018 в 11:06

7

0

添加问题

岚，巗峃，。

全部

技术

文化/娱乐

生活/艺术

科学

专业的

业务

用户

全部

新的

热门

1

2

3

4

5

您有问题吗？将问题添加到网站上并立即得到答复

zh.kzen.dev

kennytm · Accepted Answer · 2010-03-05T13:06:43+00:00

巨大的差异。

顾名思义，double`的精度是float`^[1]的2倍。一般来说，一个double有15位小数点的精度，而float有7位。

这里'是如何计算位数的。

{fnTahomafs10bord0shad01cH00FFFF}> double有52个mantissa位+1个隐藏位。 log(2⁵³)÷log(10)=15.95位数。

float有23个mantissa位+1个隐藏位。 log(2²⁴)÷log(10)=7.22位。

这种精度损失可能会导致在重复计算时积累更大的截断误差，例如：{{6656520}}}。

float a = 1.f / 81;
float b = 0;
for (int i = 0; i < 729; ++ i)
    b += a;
printf("%.7g\n", b); // prints 9.000023

而

double a = 1.0 / 81;
double b = 0;
for (int i = 0; i < 729; ++ i)
    b += a;
printf("%.15g\n", b); // prints 8.99999999999996

另外，float的最大值约为3e38，但double约为1.7e308，所以用float可以打出"无穷大&quot。 (即对于一些简单的事情，例如，计算60的阶乘，使用 "float "比使用 "double "更容易。计算60的阶乘。

在测试过程中，可能有一些测试用例包含了这些巨大的数字，如果你使用浮点数，可能会导致你的程序失败。

当然，有时候，即使是double也不够精确，因此我们有时候会有long double^{[1]</sup&gt。
(上面的例子在Mac上给出了9.000000000000000066)，但是所有的浮点类型都会出现舍入误差，所以如果精度非常重要(如
货币处理），你应该使用int或分数类。}

此外，不要用+=来求很多浮点数的和，因为错误会迅速积累。如果你使用的是Python，请使用fsum。否则，请尝试实现 Kahan 求和算法。

＆lt;sup>[1].C和C++标准没有规定 "float"、"double "和 "long double "的表示方法。 C和C++标准没有规定float、double和long double的表示方法。有可能这三种都是以IEEE双精度的方式实现的。然而，对于大多数架构（gcc、MSVC; x86、x64、ARM）"float "确实是IEEE单精度浮点数（二进制32），"double "是IEEE双精度浮点数（二进制64）.