✨
Singularity
中文
中文
  • 概述
    • 什么是Singularity
    • V1或V2
  • 安装
    • 下载二进制文件
    • 通过Docker安装
    • 从源代码构建
    • 部署到生产环境
  • 数据准备
    • 快速入门
    • 性能调优
  • 内容分发
    • 分发CAR文件
  • 交易处理
    • 创建交易计划
  • 主题
    • 内嵌准备
    • 基准测试
  • 💻CLI 参考
    • 菜单
    • Ez准备
    • 版本
    • 管理员
      • 初始化
      • 重置
      • 迁移数据集
      • 迁移计划
    • 下载
    • 提取Car
    • 交易
      • 计划
        • 创建
        • 列表
        • 更新
        • 暂停
        • 恢复
      • 手动发送
      • 列表
    • 运行
      • API
      • 数据集处理器
      • 内容提供者
      • 交易跟踪器
      • 交易发布者
      • 下载服务器
    • 钱包
      • 导入
      • 列表
      • 删除
    • 存储
      • 创建
        • Acd
        • Azureblob
        • B2
        • Box
        • Drive
        • Dropbox
        • Fichier
        • Filefabric
        • Ftp
        • Google Cloud Storage
        • Gphotos
        • Hdfs
        • Hidrive
        • Http
        • Internetarchive
        • Jottacloud
        • Koofr / Digi Storage
          • Digistorage
          • Koofr / Digi Storage
          • 其他
        • 本地
        • Mailru
        • Mega
        • Netstorage
        • Onedrive
        • Opendrive
        • Oos
          • Env_auth
          • Instance_principal_auth
          • No_auth
          • Resource_principal_auth
          • User_principal_auth
        • Pcloud
        • Premiumizeme
        • Putio
        • Qingstor
        • AWS S3和兼容存储
          • Aws
          • 阿里云
          • Arvancloud
          • Ceph
          • Chinamobile
          • Cloudflare
          • Digitalocean
          • Dreamhost
          • 华为云
          • Ibmcos
          • Idrive
          • Ionos
          • Liara
          • Lyvecloud
          • Minio
          • 网易云
          • 其他
          • Qiniu
          • Rackcorp
          • Scaleway
          • Seaweedfs
          • Stackpath
          • Storj
          • 腾讯云
          • Wasabi
        • Seafile
        • Sftp
        • Sharefile
        • Sia
        • Smb
        • Storj
          • 已存在
          • 新建
        • 蓝奏云
        • Swift
        • Uptobox
        • Webdav
        • Yandex
        • Zoho
      • 浏览
      • 列表
      • 删除
      • 更新
        • Acd
        • Azureblob
        • B2
        • Box
        • Drive
        • Dropbox
        • Fichier
        • Filefabric
        • Ftp
        • Google Cloud Storage
        • Gphotos
        • Hdfs
        • Hidrive
        • Http
        • Internetarchive
        • Jottacloud
        • Koofr / Digi Storage
          • Digistorage
          • Koofr / Digi Storage
          • 其他
        • 本地
        • Mailru
        • Mega
        • Netstorage
        • Onedrive
        • Opendrive
        • Oos
          • Env_auth
          • Instance_principal_auth
          • No_auth
          • Resource_principal_auth
          • User_principal_auth
        • Pcloud
        • Premiumizeme
        • Putio
        • Qingstor
        • AWS S3和兼容存储
          • Aws
          • 阿里云
          • Arvancloud
          • Ceph
          • Chinamobile
          • Cloudflare
          • Digitalocean
          • Dreamhost
          • 华为云
          • Ibmcos
          • Idrive
          • Ionos
          • Liara
          • Lyvecloud
          • Minio
          • 网易云
          • 其他
          • Qiniu
          • Rackcorp
          • Scaleway
          • Seaweedfs
          • Stackpath
          • Storj
          • 腾讯云
          • Wasabi
        • Seafile
        • Sftp
        • Sharefile
        • Sia
        • Smb
        • Storj
          • 已存在
          • 新建
        • 蓝奏云
        • Swift
        • Uptobox
        • Webdav
        • Yandex
        • Zoho
      • 重命名
    • 准备
      • 创建
      • 列表
      • 状态
      • 重命名
      • 附加来源
      • 附加输出
      • 分离输出
      • 开始扫描
      • 暂停扫描
      • 开始打包
      • 暂停打包
      • 开始Daggen
      • 暂停Daggen
      • 列表片段
      • 添加片段
      • 浏览
      • 附加钱包
      • 列表钱包
      • 分离钱包
  • 🌐Web API 参考
    • 交易计划
    • 交易
    • 文件
    • 作业
    • 片段
    • 准备
    • 存储
    • 钱包关联
    • 钱包
    • 规范
  • ❓常见问题
    • 数据库已锁定
Powered by GitBook
On this page
  • 内行准备
  • DAG 更新
  • 数据准备中的并行处理
  • 扫描
  • 打包
  • 使用服务器的最后修改时间
  • 重试策略
  • 网络请求重试
  • 网络 IO 重试
  • 跳过无法访问的文件

Was this helpful?

Edit on GitHub
  1. 数据准备

性能调优

Previous快速入门Next分发CAR文件

Last updated 1 year ago

Was this helpful?

Singularity 提供了一系列的配置选项,允许用户优化数据准备的性能。本指南将阐述这些配置选项,并提供有效调优的指导说明。

内行准备

  • 描述:内行准备消除了需要额外磁盘空间来存储 CAR 文件的需求。然而,它会增加一定的数据库查询和存储开销。

  • 影响:这种开销通常是可以忽略不计的,但对于包含许多小文件的数据集来说,可能会变得显著。

  • 配置:要禁用内行准备,请在 singularity prep create 命令中使用 --no-inline。

  • 进一步阅读:

DAG 更新

  • 描述:在准备过程中,Singularity 会为每个目录刷新 DAG 和 CID,以便实时跟踪变化。

  • 影响:这会引入轻微的数据库开销,因为每次准备 CAR 文件时都会更新目录。

  • 配置:要禁用 DAG 更新,请在 singularity prep create 命令中使用 --no-dag。

数据准备中的并行处理

扫描

  • 描述:扫描涉及遍历源存储以整理文件列表。对于本地存储,速度较快,但对于像 S3 这样的远程存储来说可能较慢。

  • 配置:

    • 启用并行处理:在 singularity storage create 或 singularity storage update 命令中使用 --client-scan-concurrency 参数。

    • 注意:启用并行处理可能导致文件按非确定性方式处理。

打包

  • 描述:打包将多个文件合并为一个 CAR 文件,这是一个既消耗 CPU 又消耗 IO 的操作。对于网络受限的远程存储来说,增加并行处理是有益的。

  • 配置:

    • 调整并行处理:在 singularity run dataset-worker 命令中使用 --concurrency 参数。

使用服务器的最后修改时间

  • 描述:某些远程存储(如 AWS S3)提供自定义的 mtime 和服务器端的最后修改时间。默认情况下,Singularity 会检查是否存在自定义的 mtime,如果有则使用它,否则使用服务器的最后修改时间。

  • 影响:跳过检查自定义的 mtime 并直接使用服务器的最后修改时间可以减少对远程存储的请求数量。

  • 配置:要优先使用服务器的时间并避免获取对象元数据,请在 singularity storage create 或 singularity storage update 命令中使用 --client-use-server-mod-time。

重试策略

网络请求重试

  • 描述:对于失败的远程文件夹列表或文件打开操作,Singularity 利用 RClone 的重试机制。

  • 配置:要增加重试次数,请在 singularity storage create 或 singularity storage update 命令中使用 --client-low-level-retries 参数。

网络 IO 重试

  • 描述:尽管网络请求成功,但由于不稳定的网络连接,网络 IO 可能失败。Singularity 支持重试和从上次成功点继续操作。

  • 配置:请在 singularity storage create 或 singularity storage update 命令中使用以下标志。

 --client-retry-backoff value      # 重试 IO 读取错误时的延迟后退(默认值:1s)
 --client-retry-backoff-exp value  # 在重试 IO 读取错误时指数级的延迟后退(默认值:1.0)
 --client-retry-delay value        # 在重试 IO 读取错误之前的初始延迟(默认值:1s)
 --client-retry-max value          # IO 读取错误的最大重试次数(默认值:10)

跳过无法访问的文件

  • 描述:权限可能会阻止从远程存储访问某些文件。只有在尝试打开文件时,这些问题才会显现,导致打包作业失败。

  • 配置:要跳过无法访问的文件,请在 singularity storage create 或 singularity storage update 命令中使用 --client-skip-inaccessible-files。

内行准备