Skip to content

8卡分布式训练在多轮epoch后NaN报错? #36

@RyGuxch

Description

@RyGuxch

我想询问我使用 COCO 数据集进行 8 卡 3090 分布式训练,在训练3-4个epoch后,会出现数值 NaN,这是什么原因?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions