模式识别算法
最近青润去了一趟阿坝州红原县,是为了我们的牦牛穿戴设备过去进行运动数据采样的,结果遇到了一家深圳做车联网公司的cto,这位年轻的cto宣称自己公司有几十位来自bat的大数据专家程序员,年薪都是百万以上的,轻松搞定模式识别算法,并直言模式识别和大数据没有区别。
青润听到这里,只好不再言语,还好,他们的产品有重大设计缺陷,被畜牧局的领导看出来了,所以,后续就不多说了,我们还在继续推动有角动物智能放牧机器人的研发,目前预计在2018年11月份前后会推出第一批产品。2019年初完成量产第一批。
闲话说完,现在和大家聊聊什么是大数据,大数据如何计算人/动物的各种行为特征和结果,什么是模式识别,以及什么才是人工智能算法。网上各种误传的资料和信息太多,受骗的人也太多了。
1、大数据
曾经在10年前,csdn组织的大会上电信研究院的一位领导上去讲了电信的大数据,我听了一半就听不下去了,实在是太烂了。后来和电信研究院的弟兄聊天,谈到这个事情,我也没记住这位所谓领导的名字和title。总之一句话:数据量巨大的公司在中国很多,但是,真正的大数据非常少。
千万不要看数据量到了多少GB、TB、PB、EB、ZB、YB、BB、NB、DB等等等等就认为是大数据了,这充其量只是数据量巨大而已。
未经整理清洗转换优化的数据都是不可用的,这样的数据哪怕说遍布全世界有多少多少万台服务器也不能说它是大数据,只是数据量巨大。
我们的通信运营商基本上都在这个层面,嗯,虽然我曾经是运营商的工作人员,也不能不这样说,毕竟这是现实,了解青润的人都知道,青润从不撒谎,所以,老领导对青润也没有办法,有时候只能呵呵的看着青润指责曾经的弟兄做的不好。
忘记多少年前了,在blog.csdn.net/tsingrun上,青润发过一篇文章,写的就是上面的这个问题,并且直言,这么多所谓大数据的专家和企业,居然都忘记了大数据的起源,早年是数据存储,然后是数据挖掘,最后是数据仓库等概念,这里面涉及到数据获取,数据整理,数据清洗,数据转换,数据存储,数据挖掘,数据抽取,然后这些数据才能真正使用,而这个过程中,数据转换和数据挖掘中就有很多模型构建的问题,只有经过了模型构建,才能让数据具有更高的可识别性,才能真正用来进行大数据的处理,过去曾经简单称之为数据分析,后来拓展了很多概念,包括数据引导,数据推送等等内容后,成为了大数据的全貌。
好,说了这么多,大数据里面也有模型构建,你青润为什么觉得人家做不了动物的运动数据分析呢?
2、模式识别
动物会有很多种动作,大动作和小动作,人也是动物的一种,就更多了。
我们目前使用的运动传感器,获得的曲线并不是简单的上下震动,而是有很多形态的,比如下面这个示意图,就是运动传感器获得的运动情况的示意:
另一个侧面看,上面的波形就是这样的:
这是一个三维的震动波形示意图,实际上会拆分出来下面这张图上两个波形的组合(当然,下图也是示意,不是实际的拆分,那会比较麻烦),甚至更多组合形态:
换个角度看:
这上面可能对应的动作有很多种,比如我们目前已经采集到的就有:
夏天吃草(经过观察和冬天吃草,以及吃饲料都是有区别的),喝水,走路,小步跑,快速奔跑,卧下休息,反刍,睡觉,站立不动,甩耳朵。
目前至少还有:生病(各个部位各种病症对应的动作都会有差别),受伤(和生病类似,比如人的头疼,胃疼和腿疼的时候的运动姿态也是不同的),发情,交配(包括成功和不成功等多种形态,还有母牛的躲避动作)
这么多种动作,甚至很多动作是相互组合起来的,简单的只是通过远距离获得的简化后的波形图来分析,是根本不可能分析清楚牦牛到底在做什么动作。
有人可能会问:发送简化后的是无法处理的,那如果直接发送原始波形图呢?如果这样那就可能更混乱了,因为没有原始数据建模,你根本无法提取出来特征值,也就无法进行拆分计算等操作。
人脸识别技术在最初,就是取一些人的脸部特征,进行手工标定眼睛、嘴巴、鼻子、耳朵、眉毛等部位,基于这些特征进行很长时间的样本抽取后,才能对不需要标定的人脸进行分析,如果一开始就让机器完全自己学习,那是根本不可能的。
下面这张图是当年我们进行近红外人脸识别的一个处理图,我存了十多年了:
大家可以看到这张图并不好看,但是,这个弟兄早已是世界十大婚礼摄影师,业内非常有名,做个广告,有需要拍婚礼或者孩子照片的,可以联系,应该会有优惠,Leon Wong,也可以自行搜索。
基于这样的图样和标定,然后抽取出特征值数据,当有新的运动数据波形的时候,就与我们的特征值进行同样的计算,也获取特征值,两个特征值进行数值异或,就可以得到一个结果,这个结果的相似度决定了两个动作是否是同一个,同样,也决定了人脸是不是同一个。
但是,所有的大数据的操作和提升,必须是在有一个基础特征标定的前提下进行的。
比如说大家都知道的阿尔法狗,如果不事先标定告诉它这是围棋棋盘,棋子需要放在交叉点上,你觉得它能下棋么?能战胜人类棋手?别开玩笑了,怎么可能。基础规则不定义,不写入,它都不知道那是不是棋子,也就不存在学习和使用的问题,更不用说下棋了。
这里面我们提取出来的特征,以及特征提取过程中的算法和后续的匹配识别算法,就是模式设定以及模式识别的过程。
好像写了不少了,关于人工智能算法部分,后续再做补充吧,今天先到这里,明天要去拉萨,今天还有个弟兄要见。
下一篇再见!