腾讯云AI基础建设包括,AI基础能力,算法+工程。AI基础平台,机器学习平台 TI-ONE,数据标注平台TI-DATATRUTH。AI应用平台,应用服务平台TI-Matrix。
AI行业应用:金融、工业、零售、教育、泛互。

腾讯云AI基础算法能力
人脸人体基本能力、车辆技术布局、文字识别技术、产业场景等,细化包括人脸检测、五官定位、人脸识别、人脸验证、RelD技术、车辆搜索、多目标检测、车辆属性识别、货架商品等,以及图像视频理解编辑增强、车辆AI研究、工业视觉、OCR、语音识别等。

人工智能的未来发展趋势
1、自动机器学习的自动化程度和可解释性逐步提升,机器学习每个环节都自动设计过程,推动新一代AutoML平台的建设,大众化,AutoML,全称自动化机器学习(Automated Machine Learning),神经网络NAS已经与人类专家相比较,但是设计过程还是人工在干预。
2、无监督/弱监督学习逐步成为企业降本增效利器,不使用和少使用标签,降低深度学习对标签的依赖,AI企业从迅速扩张到高效稳定运营,无监督/弱监督学习的实现,是好途径。
3、3D视觉技术助力消费升级,淡化虚实边界,3D直播带货、舞台演出、教育互动,未来内容新方向,虚拟现实、增强现实、混合现实,未来虚实融合。
4、多模态融合加速AI认知升维,AI发展的必然趋势,图像,自然语言处理的信息模态综合利用,从感知智能迈向认知智能,从图文等实质性模态,扩展到物理关系、逻辑推断、因果分析等。
5、AI推动数字内容生成向新范式演进,AI+数字内容生成,深度耦合,释放更大的科技势能,引擎级影响力,内容、技术、平台,生成新范式。
6、边缘计算与人工智能加速融合,硬件能力提升,边缘端实现深度学习,边缘端计算要满足:低模型复杂度、小模型尺寸、低模型消耗——适配不同硬件的模型压缩和优化技术,是未来的研究热点。
7、人工智能内核芯片向类脑神经计算方向演进,内核芯片向脑神经构造接近,获得类神经计算能力,定制型内核芯片演变为通用型,实现不同人工智能技术在不同任务上的计算。
8、算法公平性研究推动AI走向普惠无偏见,决策工具,公平性受到重视,人工智能治理——算法公平性,目标识别、人脸识别等,更公平。
9、隐私保护,帮助算法可持续进化,走向成熟,数据匿名化、联邦学习、差分隐私等。金融、医疗、社交,让算法可以进化。
10、向安全智能迈进,算法后门攻击、对抗样本攻击、模型窃取攻击等,带来隐患,可用、可信双轨并重。

人工智能的产业岗位分布
金字塔:源头创新人才(行业领军人物,推动技术创新和实现)、产业研发人才(前沿理论和实践结合)、应用开发人才(工具和行业需求结合,提供解决方案)、实用技能人才(理解理论,掌握基本方法)。
智能芯片人才,智能芯片架构设计、逻辑设计、物理设计、软件系统开发、系统验证。
机器学习人才、深度学习人才、智能语音产业人才、NLP、CV等。

人工智能典型岗位对能力的要求
综合能力:需求分析,问题解决,从具体抽象出解决方案
专业知识能力:背景知识,理论基础,计算机网络结构、数据结构、机器学习、深度学习等。
技能能力:编程语言,前后端开发。
工程实践能力:项目开发经验,快速选择算法,设计,算法调优。

人工智能项目开发验收与维护

模型性能评估与测试调优
分类任务的评价指标
评价指标:使用不同的性能度量,往往会产生不同的评判结果,评价指标的选择,影响性能、算法选择、特征重要性的评判的结果。
模型的泛化性:机器学习的目标是从训练领域的训练数据到任意其他数据上的性能良好,可以在未来对模型没有见过的数据进行预测,可能会产生过拟合和欠拟合的情况。
准确率:正确分类的样本数占总样本数的比例,但是对于不均衡数据而言,模型会调入“高准确率陷阱”,为避免该陷阱,引入混淆矩阵。
混淆矩阵:把样本的真实分类值作为一个维度,把预测分类值作为一个维度。
精准率和召回率,精确率取决于模型准不准,召回率看数据全不全,不可兼得,要取舍。

模型调优,过拟合与欠拟合。
调参过程类似,先找出若干模型,然后基于某种模型进行评估。算法参数一般人工设置。模型的参数一般由学习确定。参数对性能会有终身影响。拟合就是调整参数和模型,让结果无线接近真实值的过程。
偏差—方差窘境,一般而言,偏差与方差存在冲突,训练不足,徐吸气你和能力不强,偏差主导。训练加深,拟合能力增强,方差主导,训练充足后,学习器拟合能力很强,方差主导。
泛化性能是由学习算法的能力,数据的充分性,以及学习任务共同难度决定。
比较检验:机器学习恩物——>概率近似正确。测试性能不等于泛化性能,且随着测试数据集的变化而变化,很多机器学习算法本身有一定的随机性。
模型泛化性的评价,过拟合,即在训练数据上表现良好,在未知数据上表现差。欠拟合,即在训练数据和未知数据上表现都很差。解决方法是重新选数据,重新选模型。

模型的部署与维护
环境部署的选择,
生成VS开发,生产环境是软件持续运行的环境,是用户最终使用的环境。开发环境,是程序员用于编码、测试和优化代码的环境。
单机VS分布式,单机,是一台可以响应用户所有请求的机器。分布式,多台机器通过协调和通信实现共同的目标,计算机集群。

模型部署,机器模型的挑战
数据科学语言管理,python和R是最流行的语言,生产环境,转化为C++或者Java,使用容器化技术。涉及算力和GPU的分配,包括可移植性和可扩展性,批处理扩展到流处理的能力和弹性的管理。
线路图需要模型引擎、工具库、数据转换器、模型库等,需要支持常用编程脚本语言,及相关的工具库,比如docker,spark等。

模型的维护,在工业环境中开发和部署机器学习模型的流程。
流程,数据管理、模型学习、模型验证、模型部署。
模型学习包括模型选择和模型训练。
模型验证,要求:能够满足未知数据,泛化,合理处理,鲁棒性,满足需求。
步骤:
需求编码,定义:需求是测试活动的前提,性能的提升并不能转换为商业价值的增益。
形式验证:数学证明,误差范围的数值估计,现实中通过监督框架等实现。
以及测试的验证,搜集未验证的数据集。

模型部署包括:
模型集成,构建模型基础架构,实现模型,系统工程,机器学习,交叉。
模型监测,社区理解待监测数据,如何启动警报,预测偏差。
模型更新,始终反应数据的更新。

机器学习开发框架
什么事机器学习开发框架?
机器学习开发框架本质上是一种编程库或工具,目的是能够让开发人员更容易、更快速地构建机器学习模型。机器学习开发框架封装了大量的可重用代码,可以直接调用,目的是避免“重复造轮子’大幅降低开发人员的开发难度,提高开发效率。机器学习开发框架是涵盖用于分类,回归,聚类,异常检测和数据准备的各种学习方法,并且可以包含神经网络方法。

机器学习框架和深度学习框架的区别和联系。
广义上,机器学习框架包含了深度学习框架。本质上,机器学习框架涵盖分类、回归、聚类、异常检测和数据准备等各种学习方法。深度学习框架涵盖很多多隐藏层的深度神经网络拓扑。
机器学习框架:Caffe,CNTK,PyTorch,Keras,MXNet,TensorFlow。深度学习框架:深度学习框架专注于神经网络,常用的是PyTorch和TensorFlow。
TensorFlow:人数多,社区庞大,工作流程简单,api稳定,兼容性好,能在各类型机器上运行,google持续提供支持,快速迭代和完善。
PyTorch:支持GPU和动态神经网络,面向对象设计最优雅。简洁、高效、快速,追求最小的封装,符合人类思维,让用户聚焦自己的想法。

如何使用开源代码仓库
什么是开源?即源代码公开,任何人都可以获取源码,查看,修改。依托同行评审的社区生成,旨在分散、协作的方式开发。
协议包括:GPL、LGPL、BSD、MIT、APACHE、MPL。
好处:更多控制权、学习更容易、真正的安全。
发展情况:
地域性,美国66%,中国13%,其他21%。
维护者特性,企业、高校研究机构、组织和个人,各占三分之一。
时间特性,2007年后开原机器学习框架推动机器学习进步,深度学习框架开始繁荣。
编程语言特性,Python、C++、Java
框架特性,TensorFlow用户居多。

常见的开源代码托管平
Github,世界上最大的代码托管平台,面向开源和私有项目托管,5000万开发者,只支持git。
Gitlab,用于仓库管理系统的开源项目,适合团队对仓库的访问。
Bitbucket,采用Mercurial作为分布式版本控制系统,采用Mercurial作为分布式版本控制系统,无限制磁盘空间的使用。
Coding,面向开发者的云端开发平台,2014年,发布腾讯云为基础的国内第一款全云端IDE,CloudStudio。
Gitee,码云,代码托管协作开发平台,企业级代码托管服务。

对GPU和CPU的云计算的依赖
AI算力芯片
CPU,中央处理器,擅长复杂的逻辑运算和数据格式。
GPU,图形处理器,运行绘画运算,擅长图像运算和矩阵运算,加速人工智能的运算速度。
无法单独工作,必须由CPU进行控制和调用。
将在数据中心长足发展,表现为高运算性能迅速占领AI数据中心市场,浮点运算能力不断直线上升。
NPU,为物联网人工智能而设计,用于加速神经网络的运算,多用于视频和多媒体数据。
TPU,为机器学习定制的芯片,张量处理单元,30~80倍的效率提升。

AI与云计算服务
AI项目开发为何需要云计算服务?AI模型训练过程中,出现算力突增,云计算成本低,云平台提供一站式解决方案,创业公司的选择。
AI在云端和终端的算力依赖,云端AI算力提升,智能数据分析任务、训练模型任务、带宽要求不高的推理服务。
边缘+终端的AI算力,本地实时响应的推理服务、数据收集、环境感知、人机交互、不分推理决策控制任务。

机器学习开发任务实例
特征工程与机器学习——搭建一个机器学习模型,人工设计特征:实际工作中,特征比模型本身更重要。
分三步:预处理,去除噪音,例如文本中的停用词;特征提取,从原始数据中提取一些有效的特征。例如图像分类中,提取边缘、尺度不变特征变换特征等;特征转换,对特征进行一定的加工,例如升维和降维。
训练模型和测试模型:训练过程和测试过程完全独立。

开发实例:
明确任务背景和目标:
任务背景:房地产中介在交易中,给房屋进行一个合理报价,让房东和买家进行参考。
任务目标:根据已有的交易数据,训练模型,预测房屋的价格。
任务过程解析:制作数据集,数据准备、数据预处理、数据集划分;特征工程,数据理解、特征分析、特征构造;模型训练,模型优化;模型评测,输出测试集指标、判断模型可用性。

制作数据集:
数据准备:字段、数据内容等。
数据预处理:脏数据处理、缺失值处理(步骤:检查是否有确实、根据业务情况制定处理规则,取0最小值及中位数等、完成缺失值的填充)、格式转换(文本转换为数值,方法是字符串序列化,思路将字符串用同一的编号来代替)。
划分训练集和测试集:训练集用于训练,测试集对泛化效果进行评估。
特征工程:
数据理解:查看样本数据的均值、最大值、最小值、数量、标准差等;查看更详细的数据分位数信息;通过观察加深数据理解,为建模做准备。
特征分析1:通过图分析每个特征与结果的对应关系。
特征分析2:找出现有特征中,与价格的关联度(正数正相关,负数负相关,绝对值大小体现相关性),例如:房间数越多,价格越高;税率越高,价格越低;要去掉不相关的特征,收敛的更快。
特征分析3:对房间特征进行深入的分析。
特征分析4:尝试对特征之间建立关联,房屋数和老旧比例没有关联,就可以去掉1个关联特征,例如去掉老旧房屋比例(价值低)。
特征构造1:特征归一化,将所有特征区间调整为0~1之间。
特征构造2,:使用与价格关联度最大的“房间数”,和其他特征,构造二次特征,房间数税率,房间数环保指数。

模型训练:
训练过程1:按照8:2的比例将训练集数据划分为训练集和验证集。
训练过程2:线性回归;loss,损失函数、误差函数,即用1个标量来标示的训练集标签与真实标签之间的差距;MSE,均方差,参数估计值与参数值之差平方的期望值。
模型优化:
过程:模型调参,选择其他模型。
案例:选择LinearRegression后,MSE从22下降到12,因此选择新的模型。取前20个验证集数据,标注好数据与实际房价对比关系。
模型测评:使用训练好的模型,对预留的测试集数据,评测,得到MSE35。模型交付。

深度学习开发任务实例
深度学习 VS 机器学习
神经网络模型特点:端对端学习,从人类专家知识驱动AI方法论——>有监督大数据驱动的AI方法论,推动了一大类非线性映射函数问题的解决,从人工编码知识到从数据中学习知识,分而治之到全盘考虑,重算法到重数据。
实现方式的对比:
机器学习为图片分类的方法:要训练出一个分类器(非线性分类器)。
深度学习的特征提取方法:卷积,卷积是通信与新信号处理中的重要概念,在线性系统里,卷积用来描述输入信息,脉冲响应和输入信息的关系。
满足线性性和平移不变性,线性性:2个信号分别卷积再加起来,等价于先加起来,再卷积。平移不变性:先平移再卷积和先卷积再平移,是同样的结果。
机器学习:利用算法使计算机能够像人一样从数据中挖掘信息。
深度学习:相比其他方法参数更多、模型更复杂,使得数据对模型理解更深、更智能。
多隐层的深度神经网络介绍:以图像识别为例,构建一个含有2个隐藏层的前馈神经网络,学习的是神经元中的权重参数,神经网络会开发各类特征提取器,信息会被进一步压缩和抽象,卷积神经网络在语音识别和图像处理上有优势,全局共享降低网络的复杂性。

深度学习开发实例(以识别交通指示牌为例)
任务背景和目标
背景:玩具车增加识别交通指示牌的能力。
目标:利用玩具车的前置摄像头,检测交通标志的位置。
任务解析过程:明确数据采集需求、制作数据集、模型训练、模型评测。

任务需求梳理:
计算机视觉实际应用特点:
样本具象化,图像是具体表现形式,除了主体外,还有大量的信息,如背景,光照等。
算法光线敏感:侧光,面向光,背光,强光,暗光,都有影响,如果样本没有这些光线的图片,效果会欠佳。
硬件条件可能造成的图片效果偏差:带来色差、模糊、角度变化,样本如果没有这些资料,效果会欠佳。
客户理解偏差:不理解光线影响,不能清晰的表达述求,都在需求梳理时摸清,否则影响交付。

明确数据采集需求1:赛道样式,看是否有和标志类似的图案。
沟通结果:赛道样式统一、可能出现的赛道变形、转完也要能检测、有特殊标记比如结束标记行人横道等。
明确数据采集需求2:确认使用场地和光照情况;说明模型使用场景和光照;沟通过室内、侧面正面光源以及信号灯的影响等。
明确数据采集需求3:待确认需要检测的交通标志的俯仰角(pitch)、偏航角(yaw)、翻滚角(roll),明确交通标志倾斜角度范围,翻滚角:由于交通标志底部是硬座且不需要考虑交通标志倒地情况,所以翻滚角基本一致。考虑到摄像头可能的固定倾斜,此处角度设定为士10°府仰角:俯仰角可能会收到摄像头俯视情况影响,在距离远近有差异,由于摄像头视角较平,所以角度也认为 士10°偏航角:由于仿真交通标志容易被撞击发生位移,偏航角要求较高,希望在人眼可区分边界情况下均可完成检测,此处认为是 士70°,如下图最左侧与最右侧的标志。
明确数据采集需求4:待确认需要检测的交通标志包含哪些。说明详细列举所有要被检测的交通标志,未被列举的标志不会被识别以及交通标志的数量越多采集工作量越大。
沟通结果包括:1.交通标志有红、黄、绿三种颜色光;2.小人的手部会有举起、放下、平伸三种状态;3.小人存在正面、侧面、背面三种站姿。
明确数据采集需求5,待确认检测覆盖范围,需要明确范围细节,例如:1.是否包含杆体2.边缘出框情况等。
沟通结果:1.对于交通标志牌子,标注范围是交通标志牌所处范围即可。2.对于交通信号灯,标注范围是灯亮的区域。3.对于行人,标注范围是整个行人范围。4.对于边缘出框的场景,如果出框范围不超过50%,也应当予以检测。
待明确检出框分类,说明是否要对每个框体单独检出。
明确数据采集需求6,待确认需要检测的交通标志的最小框;说明需要检测的交通标志的最小框最小框越小,运算量越大,执行效率越低;同时,太小的检测框容易使标注误差变大。沟通玩具车速度较快,需要检测到距离车2米的标志,为后续的小车操控预留时间。
待确认对图片模糊程度的要求,说明实际操作中摄像头模糊效果容忍程度怎样;沟通玩具车摄像头帧率较高,且有处理算法,糊程度实际测试下来最大模糊程度。
待确认设备色差情况,说明是否存在设备色差,沟通摄像头较好,无需考虑摄像头色差,但是在部分场景下可能产生由环境光引起的色域变化和噪点。

制作数据集
数据采集,根据确认的需求,采集对应的图片,图片采集需要注意:使用真实的玩具车进行数据采集、覆盖不同场景、涵盖所有可能的光照情况、涵盖所有可能的交通标志,推动了一大类 非线性映射函数学习问题的解决。
采集数量:根据任务要求不同略有差异,玩具车场景任务较为简单,总计采集1万张图片。
采集方式:让小车在不同场景形式,使用摄像头录制视频,然后将每帧导出为jpg格式图片。

数据标准
工具:开源工具labelme。方法:将所有的交通标志类别命名为traffic、使用矩形对所有图片依次标注。注意:人工标注,矩形框要准确,否则数量再大,效果也不好。
保存格式,yolo目标检测工具,每秒处理45帧图像。保存两个文件,图片同名txt存放标注数据;classes.txt,存放标注类别。
检验,检验标注任务质量,抽查比例由具体任务决定,在标注工具中点击空格将其背景转换为绿色。
数据集拆分,将所有数据按照8:2的比例拆分为训练集(800张)与测试集(2000张)。训练集将提供跟算法组用于模型训练,测试集将提供给测试组用于验证数据的泛化效果。要用随机采样的方式划分,确保独立。

模型训练
检测算法原理1,多隐层的深度神经网络,采用yolo模型。
检测算法原理2,预处理,滑动窗口或分隔等;特征两类信息;和图片去对比,选择出一个最好的;不断拟合,差别越来越小。
训练过程:使用训练集进行训练,同步观察输出结果。

模型测评
效果与指标,使用测试数据。
困难样本考察,边缘情况,确实部分图片,手势,色差,困难样本数据。

人工智能开发目标
发现与明确问题:
目标:AI的目标是将隐藏在一大批数据背后的信息集中处理并提炼,从而总结出研究对象的内在规律。
技术角度:性能能达到预期吗?需要多少数据?能够获取到吗?需要多久?
业务角度:要解决什么问题,商业目的是什么?
数据分析:通过统计、机器学习、深度学习方法,对大量的数据进行计算、汇总和整理,最大化开发数据价值,发挥数据的作用。

开发周期内容:
收集数据:数据源和数据格式
模型探索:测试、部署、监控
模型优化

数据准备:
重要性:数据采集和数据清洗占到人工智能项目一半以上的工作,训练的数据量越大,模型越准确。建立数据标准、数据工程、专家解决方案没来减少数据准备(79%)的时间。
数据限制:时间成本、算力和数据量。
业务流程:
数据采集:观测数据、人工收集、问卷调查、线上数据库
数据清洗:有缺失的数据、有重复的数据、内容错误的数据、不需要的数据等。
数据标注:即通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习标签的过程。
数据划分:训练集用于完成模型训练任务,包括训练误差、经验误差。
测试机用于模型的泛华效果进行检验。
一般是8:2或者7:3,训练集较大。
数据验收:
合法性:数据符合定义的业务规则或约束的程度,例如约束,包括类型约束、范围约束、唯一约束。
准确性:数据接近真实值的程度。
完整性:所有必须数据的已知程度。
一致性:在一个或跨多个数据集的一致程度。

数据管理:利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程其目的在于充分有效地发挥数据的作用,实现数据有效管理的关键是数据组织。
数据管理VS数据治理:
数据管理包含数据治理,数据治理是明确数据责任,流程,确保数据资产得到产期有效的管理。数据管理包含方方面面,例如建立一个数据仓库,定义谁能来访问和管理这个数据仓库。
相关问题:数据不足,数据过小没有足够的样本量;数据隐私泄露;分类质量低;数据质量低,样本不匹配样本混乱。

数据特征工程:从原始数据转换为特征向量的过程。
特点:特征工程是机器学习中很重要的起始步骤,直接影响效果,需要大量的时间,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。
基本方法:
特征选择:从给定的特征集合中选出相关特征子集的过程,去除无关特征,降低特征学习难度,让模型简单,降低计算复杂度;抛弃这部分特征(冗余特征),可能会降低模型的性能,计算复杂度 和 模型性能 之间的取舍。要注意不能丢弃重要特征。
特征提取:一般是在特征选择之前,提取的对象是原始数据,目的是自动构建新特征(深度学习),将原始数据构建为一组具有明显物理意义(Gabor、纹理特征、几何特征)或统计意义的特征。特征提取——转换;特征选择——挑选。
特征构建:从原始数据中人工构建新的特征,观察原始数据,思考问题的潜在形式和数据结构,数据特殊性和机器学习实战有助于构建,需要创造力和想象力。