算法试验箱应用开发

课程介绍

课程介绍

算能SE5 计算盒是基于模组，但比模组形态的产品面向场景更加广泛的高性能、低功耗边缘计算产品，搭载算能自主研发的第三代TPU BM1684，INT8算力高达17.6TOPS，可同时处理16路高清视频，为诸多安防、泛安防、教育、金融、安检等行业项目智能运算提供算力。

SE5 计算盒是基于边缘计算的小微型服务器，基本可以支持各个行业的算法，通过完备的生态方便用户将训练好的模型移植，不光支持人脸识别算法模型，还支持数十种辅助模型，所以面向场景非常广泛。可以应用在园区、社区、商业楼宇等室内外场景，以及集成类室外半封闭场景，不需要依托X86架构服务器，充分利用其内部ARM资源，直接独立一体化开发应用。

该计算盒的算力性能高，市场竞争力强，但同样保留了一部分高精度的算力。在需要高精度算力的场景，保留了高精度优势，如动态视觉无人零售柜、智慧冰箱系统中商品识别等。SE5实际可应用场景如，作为边缘人脸服务器布置在园区，进行园区通行识别比对或园区监控；在智慧食堂进行人脸支付；在家校互联系统做学生人脸识别；在学校宿舍系统做出入管理；在餐饮系统中植入菜品识别算法进行菜品结算；替代传统安检人员识图，机器判图准确度更高、降低安检员培训成本，通行速度更快，实现智能辅助安检。可以植入的算法模型多种多样，从而实现应用场景的多样化。

本课程将对se5计算盒以及应用流程进行讲解，通过本课程你将对该试验盒有明确的了解，并熟悉将该试验盒应用到特定场景的流程。

课程特点

体系化教学：从产品介绍到环境搭建再到应用流程

Se5试验盒是什么？
应用环境如何搭建？
应用是如何开发的？

资料齐全：课程包括视频教学、文档指导、代码脚本等，详尽丰富

丰富的视频资料
详尽的应用指导
清晰的代码脚本

课程章节（ 18节课）

1_ 应用基础

开始学习

1.1 se5算法试验盒介绍

待学习

开始学习

1.2 se5算法试验盒硬件

待学习

开始学习

1.3 se5连接以及配置

待学习

开始学习

1.4 se5之WEB完整配置

待学习

开始学习

1.5 开发环境搭建

待学习

开始学习

1.6 HTTP协议介绍

待学习

开始学习

1.7 MQTT协议介绍

待学习

开始学习

1.8 邮件传输协议介绍

待学习

开始学习

2_ 应用实战

开始学习

2.1 本地MQTT服务器搭建

待学习

开始学习

2.2 Kaa云平台使用

待学习

开始学习

2.3 MQTT客户端项目Paho

待学习

开始学习

2.4 Kaa云平台连接客户端

待学习

开始学习

2.5 Kaa云平台收集数据

待学习

开始学习

2.6 Kaa云平台发送命令

待学习

开始学习

2.7 HTTP告警上报

待学习

开始学习

2.8 MQTT发布信息

待学习

开始学习

2.9 MQTT下行控制

待学习

开始学习

2.10 预警邮件推送

待学习

开始学习

课程目标

了解深度学习的基础知识
掌握TPU处理器BM1684架构和平台的算法加速使用，以及交叉编译环境的设置和使用
利用各种模型进行转换和部署

课程对象

本课程要求具备一定的Python编程基础和linux开发基础。

课程推荐

编译器开发

作为框架和硬件之间的桥梁，深度学习编译器可以实现一次性代码开发和重用各种计算能力处理器的目标。最近，算能也开源了自己开发的TPU编译工具——TPU-MLIR (Multi-Level Intermediate Representation)。TPU-MLIR是一个面向深度学习处理器的开源TPU编译器。该项目提供了完整的工具链，将各种框架下预训练的神经网络转换为可在TPU中高效运行的二进制文件bmodel，以实现更高效的推理。本课程以实际实践为驱动，引导您直观地理解、实践、掌握智能深度学习处理器的TPU编译框架。

目前，TPU-MLIR项目已应用于算能开发的最新一代深度学习处理器BM1684X。结合处理器本身的高性能ARM内核以及相应的SDK，可以实现深度学习算法的快速部署。本课程将介绍MLIR的基本语法，以及编译器中各种优化操作的实现细节，如图形优化、int8量化、算子分割、地址分配等。

与其他编译工具相比，TPU-MLIR有几个优点

1. 简单方便

通过阅读开发手册和项目中包含的示例，用户可以了解模型转换的过程和原理，并快速入门。此外，TPU-MLIR是基于当前主流编译工具库MLIR设计的，用户也可以通过它了解MLIR的应用。本项目提供了一套完整的工具链，用户可直接通过现有接口快速完成模型转换工作，无需适应不同的网络。

2. 通用性

目前，TPU- mlir已经支持TFLite和onnx两种格式，这两种格式的模型可以直接转换为TPU可用的bmodel。如果不是这两种格式呢?事实上，onnx提供了一套转换工具，可以将目前市场上主要的深度学习框架编写的模型转换为onnx格式，然后再进行bmodel转换。

3、精度与效率并存

在模型转换过程中，有时会失去精度。TPU-MLIR支持INT8对称和非对称量化，结合原开发公司的校准和tune技术，大大提高了性能，保证了模型的高精度。此外，TPU-MLIR还使用了大量的图优化和算子分割优化技术来保证模型的高效运行。

4. 实现终极性价比，构建下一代深度学习编译器

为了支持图形化计算，神经网络模型中的算子需要开发图形化版本;为了适应TPU，应该为每个运营商开发一个版本的TPU。此外，有些场景需要适应相同计算能力处理器的不同型号，每次都必须手工编译，这将非常耗时。深度学习编译器就是用来解决这些问题的。TPU-mlir的一系列自动优化工具可以节省大量的人工优化时间，因此在RISC-V上开发的模型可以顺利自由地移植到TPU上，以获得最佳的性能和性价比。

5. 完整的信息

课程包括中英文视频教学、文档指导、代码脚本等，详实丰富的视频资料详细应用指导清晰的代码脚本TPU-MLIR站在MLIR巨头的肩膀上打造，现在整个项目的所有代码都已经开源，免费向所有用户开放。

代码下载链接:https://github.com/sophgo/tpu-mlir

tpu - mlir开发参考手册:https://tpumlir.org/docs/developer_manual/01_introduction.html

总体设计思想论文:https://arxiv.org/abs/2210.15016

视频教程:https://space.bilibili.com/1829795304/channel/collectiondetail?sid=734875

课程目录

序号	课程名	课程分类	课程资料
			视频	文档	代码
1.1	Deep learning编译器基础	TPU_MLIR基础	√	√	√
1.2	MLIR基础	TPU_MLIR基础	√	√	√
1.3	MLIR基本结构	TPU_MLIR基础	√	√	√
1.4	MLIR之op定义	TPU_MLIR基础	√	√	√
1.5	TPU_MLIR介绍（一）	TPU_MLIR基础	√	√	√
1.6	TPU_MLIR介绍（二）	TPU_MLIR基础	√	√	√
1.7	TPU_MLIR介绍（三）	TPU_MLIR基础	√	√	√
1.8	量化概述	TPU_MLIR基础	√	√	√
1.9	量化推导	TPU_MLIR基础	√	√	√
1.10	量化校准	TPU_MLIR基础	√	√	√
1.11	量化感知训练（一）	TPU_MLIR基础	√	√	√
1.12	量化感知训练（二）	TPU_MLIR基础	√	√	√
2.1	Pattern Rewriting	TPU_MLIR实战	√	√	√
2.2	Dialect Conversion	TPU_MLIR实战	√	√	√
2.3	前端转换	TPU_MLIR实战	√	√	√
2.4	Lowering in TPU_MLIR	TPU_MLIR实战	√	√	√
2.5	添加新算子	TPU_MLIR实战	√	√	√
2.6	TPU_MLIR图优化	TPU_MLIR实战	√	√	√
2.7	TPU_MLIR常用操作	TPU_MLIR实战	√	√	√
2.8	TPU原理（一）	TPU_MLIR实战	√	√	√
2.9	TPU原理（二）	TPU_MLIR实战	√	√	√
2.10	后端算子实现	TPU_MLIR实战	√	√	√
2.11	TPU层优化	TPU_MLIR实战	√	√	√
2.12	bmodel生成	TPU_MLIR实战	√	√	√
2.13	To ONNX format	TPU_MLIR实战	√	√	√
2.14	Add a New Operator	TPU_MLIR实战	√	√	√
2.15	TPU_MLIR模型适配	TPU_MLIR实战	√	√	√
2.16	Fuse Preprocess	TPU_MLIR实战	√	√	√
2.17	精度验证	TPU_MLIR实战	√	√	√

Milk-V Duo开发板实践课程

本课程介绍了硬件电路的设计和基本环境的搭建，并提供了一些简单的开发示例和一些基本的深度学习示例。

Milk-V Duo是基于CV1800B的超小型嵌入式开发平台。它体积小，功能全面，配备双核，可以分别运行linux和rtos系统，并具有各种可连接的外设。

可扩展性:Milk-V Duo核心板具有多种接口，如GPIO, I2C, UART, SDIO1, SPI, ADC, PWM等。
多种可连接外设:Milk-V Duo核心板可扩展各种设备，如LED，便携式屏幕，摄像头，WIFI等。

课程特点:

内容材料丰富完整，包括开发板硬件设计、外设接口说明、基本环境设置方法、示例代码脚本等。
学习路径科学合理，从开发板的介绍和基本使用开始，引导到实际项目，充分利用开发板，为用户自身开发提供参考。
实际项目丰富，课程提供了许多实际代码使用和功能演示的示例。通过简单地修改和组合代码，可以实现不同的功能。

课程目录

SE5开发系列课

深度神经网络模型可以快速训练和测试，然后由行业部署，在现实世界中有效地执行任务。在小型、低功耗的深度学习边缘计算平台上部署这样的系统受到业界的高度青睐。本课程采用实践驱动的方法，引导你直观地学习、实践和掌握深度神经网络的知识和技术。

SOPHON深度学习微服务器SE5是采用SOPHON自主研发的第三代TPU处理器BM1684的高性能、低功耗边缘计算产品。INT8运算能力高达17.6 TOPS，支持32路全高清视频硬件解码和2路编码。本课程将快速引导您了解SE5服务器的强大功能。通过本课程，您可以了解深度学习的基础知识并掌握其基本应用。

课程的特点

1. 一站式服务

在SE5应用程序中遇到的所有常见问题都可以在这里找到。

为深度学习微服务器提供全栈解决方案
一步一步、详细而清晰地分解开发过程
支持所有主流框架，易于使用的产品

2. 系统的教学

它包括设置环境、开发应用程序、转换模型和部署产品，以及拥有镜像的实际环境等所有内容。

环境是如何构建的?
如何编译模型?
应用程序是如何开发的?
场景如何部署?

3. 完整的材料

本课程包括视频教程、文档指南、代码脚本和其他综合材料。

丰富的视频素材
详细的应用指导
清晰的代码脚本
代码下载链接:https://github.com/sophon-ai-algo/examples

4. 免费的云开发资源

在线免费申请使用SE5-16微服务器云测试空间

SE5-16微服务器云测试空间可用于在线开发和测试，支持用户数据保留和导出
SE5-16微服务器云测试空间具有与物理机环境相同的资源性能
云平台应用链接:https://account.sophgo.com/sign_in?service=https://cloud.sophgo.com&locale=zh-CN
云平台使用说明:https://cloud.sophgo.com/tpu.pdf