请问自变量与因变量的取样频率不一样,有适合这种情况的模型么?

0
已邀请:
0

天善小编 - 微信直播问题收集 2016-07-27 回答

David Chiu:自变量跟因变量的取样频率不一样? 是分开取的吗, 怎么会不一样?

曹敏:比如说对生产过程中的某个属性,取样频率是10分钟一次,但是最后的因变量,也就是测试指标,是1小时每次~

David Chiu:哦,那通常就是看资料特徵, 适合取中间值, 中位数, 时间一开始最初始值, 或最后一个值,要数据实验才知道哪一个比较恰当

曹敏:这样做就会丢失很多数据信息了,数据量也会变得比较小。还有其他什么方法么,听说虚拟变量可以,没用过,请问行嘛?

David Chiu :Dummy Variable 不适合用在这个案例上,数据少一些,倒不是重点,还是要先探索一下这自变量跟因变量的关系,相识我们之前做产线感测器的数据,多数的资料不太重要,因为他会一直发类似的数据,所以我们只有取一个代表点来用就好。

不过有另外一种方法,有时我们会决定这时间的数字是否异常,我们会这样做,去平均线或是boolean通道 。没有超过这些接线的可以给他一个类别0,超过的给1,天数据跟月数据的方法差不多。

叶鹏:你好,关于天数据的销售预测您会怎么做,请给些建议?月数据周期性明显些,天数据不明显啊

曹敏:但是这跟因变量如何联系起来呢?

David Chiu:惟一要注意的是,消费者周间与周末购买的品项不太相同,所以建模型是根据周做周期,但也要考虑月的因素,通常月底的销售量会比较好,猜测是当天发工资。

叶鹏:这种模式用什么机器模型学习比较好呢?

David Chiu:特征选择还是比较重要

叶鹏:我目前做的是回归分析,模式还没分析抽取,特征我大概能列出一些

David Chiu:我们之前是做分类,我只是先预测这个客户会不会买,然后再测算是否购买去推算金额。

叶鹏:怎么选出显著的呢,但是明天你不知道哪些客户来啊

David Chiu:有很多方法, 用rminer 她就可以根据不同算法帮你挑显著的,rminer 是R的一個套件,https://cran.r-project.org/web ... r.pdf

叶鹏:嗯,好的,我记下了,谢谢

要回复问题请先登录注册