博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
weka文本分类之二 批量过滤
阅读量:4919 次
发布时间:2019-06-11

本文共 1761 字,大约阅读时间需要 5 分钟。

在前一篇文本分类基础之上,由于在文本分类过程中 需要分开测试集训练集,因此采用weka为过滤器配置的批量过滤BatchFiltering,网上资料很少,因此经过实验可以实现,对训练集 测试集分开。测试集按照训练集的特征进行下面的运算:

1.训练集和测试集生成向量空间

java weka.core.converters.TextDirectoryLoader -dir C:\Users\HP_xiaochao\Desktop\微博关键词搜索\segment > C:\Users\HP_xiaochao\Desktop\微博关键词搜索\weka\train_keyword_wb.arff
java weka.core.converters.TextDirectoryLoader -dir C:\Users\HP_xiaochao\Desktop\微博关键词搜索\test > C:\Users\HP_xiaochao\Desktop\微博关键词搜索\weka\test_keyword_wb.arff
2.批量生成词向量
实用过滤器的批量过滤命令 测试集 训练集统一
java weka.filters.unsupervised.attribute.StringToWordVector -R first-last -W 1000 -prune-rate -1.0 -C -T -I -N 0 -stemmer weka.core.stemmers.NullStemmer -stopwords-handler weka.core.stopwords.Null -M 1 -tokenizer "weka.core.tokenizers.WordTokenizer -delimiters \" \\r\\n\\t.,;:\\\'\\\"()?!\"" -b -i C:\Users\HP_xiaochao\Desktop\微博关键词搜索\weka\train_keyword_wb.arff -o C:\Users\HP_xiaochao\Desktop\微博关键词搜索\weka\train_keyword_wb_vsm0.arff -r C:\Users\HP_xiaochao\Desktop\微博关键词搜索\weka\test_keyword_wb.arff -s C:\Users\HP_xiaochao\Desktop\微博关键词搜索\weka\test_keyword_wb_vsm0.arff
3.批量特征选择

java weka.filters.supervised.attribute.AttributeSelection -E "weka.attributeSelection.InfoGainAttributeEval " -S "weka.attributeSelection.Ranker -T -1.7976931348623157E308 -N 500" -b -i C:\Users\HP_xiaochao\Desktop\微博关键词搜索\weka\train_keyword_wb_vsm0.arff -o C:\Users\HP_xiaochao\Desktop\微博关键词搜索\weka\train_keyword_wb_vsm0_as.arff -r C:\Users\HP_xiaochao\Desktop\微博关键词搜索\weka\test_keyword_wb_vsm0.arff -s C:\Users\HP_xiaochao\Desktop\微博关键词搜索\weka\test_keyword_wb_vsm0_as.arff

如果直接运行上面的命令会报错,因为weka并没有把词向量数据文件 中的第一个属性 当成类标签,因此需要把该属性变成类标签后再执行:在weka中打开数据文件,edit 把第一个属性 当作类属性,weka默认是把左右一个属性当作类标签的

4.分开测试 训练

接下来的过程 就是通常的分类过程了。作者不贴出来了。

    

转载于:https://www.cnblogs.com/dasheng-maritime/p/6160441.html

你可能感兴趣的文章
浅谈php web安全
查看>>
转载:C++运算符优先级
查看>>
《A Survey of Answer Extraction Techniques in Factoid Question Answering》Reading Notes
查看>>
查询数据库中的满足特定条件的数据
查看>>
权限修饰符(访问指示符)——《Thinking in Java》随笔006
查看>>
FMX下Edit只能输入数字
查看>>
java根据模板生成pdf
查看>>
基础数据类型长度
查看>>
C# 4.0 并行计算部分
查看>>
矩阵树定理学习笔记
查看>>
把查询的结果组织为一串字符(eg:板板鞋,兵乓球,篮球,足球)
查看>>
浅谈Python中with(上下文管理器)的用法
查看>>
php引用变量
查看>>
二级指针详解
查看>>
jquery的offset().top与javascript的offsetTop区别?
查看>>
js中事件处理程序的内存优化
查看>>
SQL基础常用语法
查看>>
八大排序算法总结与java实现
查看>>
求职面试的时候如何谈薪酬待遇
查看>>
某idol的人气调查
查看>>