人工智能项目开发规划与准备
人工智能开发目标
发现与明确问题:
目标:AI的目标是将隐藏在一大批数据背后的信息集中处理并提炼,从而总结出研究对象的内在规律。
技术角度:性能能达到预期吗?需要多少数据?能够获取到吗?需要多久?
业务角度:要解决什么问题,商业目的是什么?
数据分析:通过统计、机器学习、深度学习方法,对大量的数据进行计算、汇总和整理,最大化开发数据价值,发挥数据的作用。
开发周期内容:
收集数据:数据源和数据格式
模型探索:测试、部署、监控
模型优化
数据准备:
重要性:数据采集和数据清洗占到人工智能项目一半以上的工作,训练的数据量越大,模型越准确。建立数据标准、数据工程、专家解决方案没来减少数据准备(79%)的时间。
数据限制:时间成本、算力和数据量。
业务流程:
数据采集:观测数据、人工收集、问卷调查、线上数据库
数据清洗:有缺失的数据、有重复的数据、内容错误的数据、不需要的数据等。
数据标注:即通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习标签的过程。
数据划分:训练集用于完成模型训练任务,包括训练误差、经验误差。
测试机用于模型的泛华效果进行检验。
一般是8:2或者7:3,训练集较大。
数据验收:
合法性:数据符合定义的业务规则或约束的程度,例如约束,包括类型约束、范围约束、唯一约束。
准确性:数据接近真实值的程度。
完整性:所有必须数据的已知程度。
一致性:在一个或跨多个数据集的一致程度。
数据管理:利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程其目的在于充分有效地发挥数据的作用,实现数据有效管理的关键是数据组织。
数据管理VS数据治理:
数据管理包含数据治理,数据治理是明确数据责任,流程,确保数据资产得到产期有效的管理。数据管理包含方方面面,例如建立一个数据仓库,定义谁能来访问和管理这个数据仓库。
相关问题:数据不足,数据过小没有足够的样本量;数据隐私泄露;分类质量低;数据质量低,样本不匹配样本混乱。
数据特征工程:从原始数据转换为特征向量的过程。
特点:特征工程是机器学习中很重要的起始步骤,直接影响效果,需要大量的时间,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。
基本方法:
特征选择:从给定的特征集合中选出相关特征子集的过程,去除无关特征,降低特征学习难度,让模型简单,降低计算复杂度;抛弃这部分特征(冗余特征),可能会降低模型的性能,计算复杂度 和 模型性能 之间的取舍。要注意不能丢弃重要特征。
特征提取:一般是在特征选择之前,提取的对象是原始数据,目的是自动构建新特征(深度学习),将原始数据构建为一组具有明显物理意义(Gabor、纹理特征、几何特征)或统计意义的特征。特征提取——转换;特征选择——挑选。
特征构建:从原始数据中人工构建新的特征,观察原始数据,思考问题的潜在形式和数据结构,数据特殊性和机器学习实战有助于构建,需要创造力和想象力。