1、阅读文献首先你得先有个大方向,可以是你自己感兴趣的,也可以是在导师的引导下,但最好是两者结合,不然看那么多干货,我选择原地爆炸。一芫王墙错般是确定个核心词,然后在下载相关文献。刚开始看文献,看的特别慢,而且,你几乎看不懂他说的是什么意思,没关系,大家都这样。不过前几篇,你最好按着顺序看下来,从头看到尾,理解他的作用机制,这个变量是如何影响另一个变量的,模型一定要重点看,这是你要学习借鉴的地方,包括变量的量化以及数据的来源,不管你想的有多美,找不到数据,还是没用。看第一遍的时候,可以在文献中做适当的标记,还可以写写感想。但是,看完整篇之后一定要把认为最关键的另外摘录下来!你可以快速浏览全篇,重点看标记的地方,摘录下来!录下来!下来!请记住我爱的忠告,不然,你会忘得.....我摘录的内容(仅供参考):题目与作者信息(参考文献格式)、作用机制、假设、模型、变量量化、数据来源。建议最好摘录20篇以上,然后对看过的文献进行适当的归类与总结,你会慢慢发现这些文献的相通处。记得读文献时适当回顾之前读过的文献,你可能会在看某篇时产生灵感,记得一定要写下来。
2、确定基本模型关键是要确定主要解释变量以及被解释变量。做好上述工作之后,你需要重读自己摘录的论文信息,然后可以适当组合创新,选择核心变量,然后再进一步搜索相关的文献,不断进行补充与优化。在我看来,问题的确定与基本模型的确定几乎是一致的。不同文献对同一变量可能采取不同的量化方式。确定好主要变量之后,你可以在这些文献中,选择最适合自己论文的量化方法,还可以为之后的稳健性检验做准备。
3、下载数据接下来就是找数据了你得知道你每个变量对应的数据,然后去数据库里找。我论文研究的问题是与企业相关的,所以可以利用上市公司的相关信息。手头有的资源是Wind金融数据库(万德)和CSMAR数据库(国泰安),如下对这两个数据库就企业类数据谈谈看法。因为之后数据处理用的是stata软件,对导入数据有一定的要求,所以还要考虑到之后数据整理的方便性。万德数据库只能在特定电脑使用,从万德上下载数据,一个数据表可以同时下载一个公司的各种信息,但是只可以下载一个时间截点的信息,就是截面数据的样式,你的面板数据跨越几个时间点你就需要下载几个数据表,然后在对下载的数据表进行合并(不停的粘贴复制)。国泰安是移动网页型,只要有网址,账号就可以随时随地使用,从上面可以直接下载面板数据样式,但是企业的不同信息存在可能存在于不同的数据表,也就是说,下载完数据后,你也需要合并匹配,并且难度更大,因为不同数据表的样本数可能不是完全相同的。如果是截面数据,或则时间期数不多的面板数据,建议使用万德。如果面板数据的跨时间期数较多,建议运用国泰安。前提是你有的选择。我的是季度数据,而且跨了几个年份,所以选择国泰安(我能说我这个颜狗在看到国泰安的界面时瞬间就被圈粉了嘛)!但是后期数据整理时,那个不同数据表之间的匹配还是折磨死我了,所以我没思考出,到底是不是万德更胜一筹,但是,对他的界面实在无爱,原谅我的不理性。友情提示:下载数据时,不要担心自己下载的数据信息会不会太多,时间跨度会不会太大。我因为缺少部分信息,在整理报表时不知道返工了多少回,简直泪目。整理到一半,发现不对劲,又重新回头下载,反反复复.......特别是关于数据统计方面的信息一定要下载清楚,比如股票代码,报表截止日期,报表类型等。
4、选择数据报表类型从国泰安下载下来的数据有可能分属于不同的报表类型,我第一次没有下载报表类型这一信息,然后有些变量在同一时间点有两个不同的数据,简直乱了套,后来才发现是报表类型那出了问题。报表类型分为A、B两种。A代表母公司报表,B代表总公司报表,下载的数据这二者是混在一起的,所以我们一般要对此先进行分类,一般采取母公司报表数据进行问题研究。
5、数据删除1.删除金融类企业的数据:金融类杠杆率大,各指标情况同其他企业差距很大,所以研究企业类问题时一般默认删除。2.删除空白数据:如果该企业此月份的某一数据缺失,那整行数据都需要进行删除3.删除不合理数据:你需要对各指标的合理区间进行判断,也许该指标的数据不可能出现负值,也许不可能大于一,你需要删除合理区间意外的数据4.删除乱码:有些数据是通过数据间的运算得到,所以有可能得到乱码,也需要筛选出来一并删除删除数据时可以巧用Excel中的筛选功能。这是就要佩服2007版本的office,可以之间筛选出某一数据进行局部删除,而WPS就不能。
6、数据整合这时候需要把分散在不同Excel表格中的数据整合到一个表中,空白数据的删除一定要在此项工作之前,因为,当你运用vlookup等函数将表格匹配到一起时,空白处还自动填充成0。在运用Excel进行数据处理时。一定记得问度娘,可以是很小白的问题,你会发现原来Excel还可以这样操作!
7、数据变换Stata只会识别数值型数据,只认英文和阿拉伯数字,所以不合格的当你导入stata时通通标红。我遇见的几种情况:股票代码000001,000002——NO;日期2018/01/01/ 、20180101——NO;78%——NO;文本类数据——更不可以至于具体某种情况如何变换成标准样式,请问度娘,千万别直接手动变换啊!我用过vlookup,中间还经常匹配不起来,特别是运用文字信息时,你需要比对进行匹配的ID是否一样,比如广东和广东省就不可以;对日期的处理运用过Excel中“分列”,left等。
8、运用stata进行数据处理同之前说的,我研究问题用的是各企业的面板数据,所以下列只是我在用stata时处理面板数据的常用命令的介绍。再说一次,这也不是stata教程,stata的基础操作还需要你们自己了解,包括数据如何导入,软件的安装等。