人工智能发展的要素及技术领域
人工智能发展的成功要素
算法的进步启发人工智能的发展
2006年以来,以深度学习为代表的机器学习算法发展:卷积网络、循环网络、生成对抗网络、强化学习。
Hinton AI教父:相信大脑不是将信息存储在一个单元里面,而是分布式全息存储,坚持神经网络理论研究40年。
算法取得长足进步:1986年,Hinton在ture发表“Learning Representations by BackPropagating Errors”,第一次阐述多隐层神经网络,解决了线性不可划分难题;(表征学习)。
1989年,Hinton的学生Yann Lecun,利用卷积神经网络的技术,开发支票识别软件。
面临问题:计算性能不足、数据确实严重、问题的复杂性。
神经网络的发展现状:2006年,深度神经网络和深度学习算法,成为前沿至今。
问题突出:可解释性、网络优化、数据稀缺性、算法复杂度。
数据推动人工智能的发展
全球数据大规模增长:
21世纪头10年,互联网发展,IT蓬勃创新,大数据在互联网行业最先得到重视。
2005年,hadoop出现,大数据重大突破。
2007年,数据密集型科学出现。
Imagenet大规模数据集:
2009年,李飞飞团队发布第一个超大型图像数据库,320万个图像,目标8万个英文名词,每个500-1000个图像。
2010年,大型图像识别竞赛第一次举办。
ILSVRC竞赛—图像识别:
Top Five Category。
2012年冠军,Hinton和2个学生,错误率达到15.3%。
2015年开始错误率低于人类。
高性能计算机保驾护航:
AI芯片诞生,GPU就AI芯片的一种。
2009年,斯坦福大学的吴恩达,Large-scale Deep Unsupervised learning using Graphic Processors,参数规模达到1亿。
人工智能迅速发展的技术领域
计算机视觉
定义:Computer Vision CV,计算机如何象人类一样的看的学科。用摄影机和计算机,代替人眼,识别、监测、测量,并进一步处理,成为更适合人眼观察或仪器检测的图像。
场景:
图像分类:根据不同的语义区分图像、图像做为输入进行区分、使用深度学习和神经网络、细粒度图像分类。
应用:动物保护、目标检测、医疗诊断、鸟类保护等。
图像重建:它通过对已有的图像信息进行处理和分析,能够恢复、重建或增强缺失或损坏的图像,为各种应用领域提供高质量的图像信息。用于遥感、CT等。
目标检测:
在图像中定位感兴趣的目标,准确判断每个目标的类别,并给出每个目标的边界框。
难点和重点:小目标的高精度检测、多类别目标检测。
应用:机器人导航、自动驾驶、智能视频监督、工业检测、人脸识别等。
图像搜索:图像检索技术可以分为两类:基于文本的图像检索(TBIR)和基于内容的图像检索(CBIR)。核心在于图片特征的提取。涉及版权保护、拍照购物等。
图像分割:将数字图像分割为若干个图像子区域(像素的集合,也被称为超像素),改变图像的表达方式,以更容易理解和分析。是图像处理与理解和人工智能等多个领域中十分重要又十分困难的问题,是计算机视觉中的关键步骤。
分为三类:
语义分割:预测输入的图像的每个像素点属于哪一类标签。
实例分割:在语义分割的基础上,还要区分出同一类的不同个体。
全景分割:在实例分割的基础上,对背景的每个像素点,进行分割。
应用:医学核磁影像、遥感领域、交通领域的车辆轮廓提取。
语音技术
让智能设备能够听懂人的语音,也可以让机器说话的一种技术,涉及:数字信号处理、人工智能、语言学、数理统计、声学、情感学、心理学等;包括:语音识别技术ASR,语音合成技术TTS。
语音技术与人工智能:智能客服、智能家居等。
三个应用场景:
语音识别:目标是电脑可自动识别人类的语音为文字;语音拨号、语音导航、室内控制、文档检索、简单的听写数据录入。
语音合成:定义:采用机械的、电子的方法,实现人造语音的技术;TTS(Text-to-Speech),文语转换技术,将文本转为流利的语音。应用:人机交互、智能客服等,
声纹识别:生物认证技术的一种,根据说话人语音中生理和行为特征的语音参数自动鉴别说话人身份的一种技术。交叉运用了生理学、心理学、语音信号处理、模式识别、统计分析和人工智能综合知识。应用:移动互联网、通信、门禁等。
自然语言处理:Natual Language Processing,NLP,包括自然语言识别和自然语言生成,用途是从非结构化的文本数据中,发掘洞见,并访问这些信息,生成新的理解。
自然语言处理与人工智能:用机器来处理大规模的自然语言信息。人工智能、计算机、信息工程的交叉学科。由于语言是人类思维的证明,因此自然语言处理是人工智能的最高境界,被誉为“人工智能皇冠上的明珠”。
应用场景:
文本分类:Text Categorization,将文本按照一定的分类体系或者标准自动的分类打标签。新闻分类、邮件自动回复、广告过滤、内容审核等。
机器翻译:Machine Translation,属于计算机语言学的范畴,利用计算机程序将文字或者演说从一种语言翻译成另一种语言。使用一种基于语言规则的语法,文字依据语言学的规则来翻译,即1个最合适的目标语言的字词将会替代源语言。
成功的关键:能够优先解决对自然语言的正确认知和辨识。
应用:在线多语言翻译、语言同传、翻译机(微信翻译等)、跨语言检索。
知识图谱。
对话系统:Dialogue System,对话系统,也称会话代理,一种模拟人类与人交谈的计算机系统,旨在可以与人类形成连贯通顺的对话,通信方式主要有语音/文本/图片,当然也可以手势/触觉等其他方式。
类别:任何导向型对话系统和非任务导向型对话系统(聊天机器人)。
应用:聊天机器人、语言助手、智能客服。
信息检索。
文本生成。