关于我们

质量为本、客户为根、勇于拼搏、务实创新

< 返回新闻公共列表

云南大王-关键词匹配优化(第1篇)—— 测试计算过程

发布时间:2020-04-13 00:00:00
昨天大致把思路理清楚了,用one-hot的方式把关键词按字拆开编码,今天尝试可行性。 目前主流的文本向量化方式主要包括one-hot、tf (term-frequency)和tf-idf (term frequency–inverse document frequency)这三种,越往后准确度应该越高。 我的需求比较简单,只有一百多个相对较短的关键词,所以先用one-hot方式向量化,把整个流程跑通,再回来测试准确度的区别。 分词的话可以用python的jieba包,因为词语比较短,所以也先不分词了,按字拆分。 一百多个词拆下来一共200多个关键字,感觉也还ok。 思路的验证是在Excel中做的,毕竟数据量小,看起来也方便。 流程是:先用vba把词拆成字(用Excel公式也可以完成);用vba的字典功能把字去重放到首行;然后用countif公式得出one-hot编码。 后面遇到新词之后计算新词的编码,对比两个向量就可以计算相似度了。 向量的相似度用 余弦相似度 方法,不赘述,具体解释可以百度,公式如下。 找了一段用numpy计算余弦相似度的代码,进行测试。 import numpy as np def cos_sim(vector_a, vector_b): """ 计算两个向量之间的余弦相似度 :param vector_a: 向量 a :param vector_b: 向量 b :return: sim """ vector_a = np.mat(vector_a) vector_b = np.mat(vector_b) num = float(vector_a * vector_b.T) denom = np.linalg.norm(vector_a) * np.linalg.norm(vector_b) sim = num / denom return sim print( cos_sim(np.array([[1, 1, 1,1,1,1,1,1]]),np.array([[1, 2, 1,1,1,1,1,1]])) ) 成功计算出这两个测试向量的相似度 目前整个计算流程基本算是跑通了,接下来就是用C#实现以上功能。

相关阅读

云南网站建设初期应该注意哪些问题云南网站建设中原创文章对网站起什么作用Javascript中如何中断forEach循环云南零售小程序前景怎么样?如何优化WEB应用数据库访问慢的问题?Javascript中用let和var声明变量的区别是什么redis 的主从复制和哨兵?递归和迭代有何区别?<input> 标签的 readonly 属性怎么用?云南网站建设中网页版商城如何保证网站安全云南企业官网如何推广云南企业网站建设为什么把文章类型的栏目排在前面云南餐饮小程序能带给餐饮业什么?云南网站建设需要注意什么地方云南云服务器配置如何选择合适的云南网站建设和网站设计有何区别?云南网站建设—企业官网的好处在哪?云南做小程序的优势在哪?为什么建议做小程序?网站为什么要配置ssl证书?网站为什么要做seo,做seo有什么好处?微信小程序_企业付款到零钱 API 开发如何利用缓存提高asp.net网站访问速度中小型企业如何选择服务器配置?如何优化中小型企业网站C#.net做网站后台 需要记录日志基于asp.net企业门户网站设计霓裳民族服装seo优化分析建议Javascript的函数封装认识及使用Ajax请求中data与后端的交互有哪几种方法JavaScript如何实现组合模式???SQL之子查询的基本用法有哪些?什么是静态测试、动态测试、黑盒测试、白盒测试、α测试 β测试?C# 引入委托的目的是什么c# 委托的本质是什么C# DataGridView添加新行的2个方法C#支付宝扫码支付代码完整版c# MVC 微信支付教程系列之扫码支付代码实例Redis基础通用操作指令有哪些?String、StringBuffer和StringBuilder的各自用法常见的一些Dos命令有哪些?如何在C#中复制一个Windows窗体类前端js中的运算符的种类,=、==与===的有何区别?网站前端怎么设置页面禁止转载?解决XSS脚本攻击恶意代码的方法你知道?javascript 之 apply()、call() 探索net core实现跨域ASP.NET Core程序部署到LinuxASP.NET Core使用AutoMapper.NET Core:处理全局异常.NET Core在ASP.NET Core WebApi中使用CookieASP.NET Core:ASP.NET Core中使用NLog记录日志如何重启iis服务器SQL Server代理服务无法启动怎么办js 判断手机版与PC版自适应跳转升级版 PC版手机版界面对应跳转IIS服务器SSL证书安装js 判断手机版与PC版自适应跳转C#截取字符串的方法C# 中使用正则表达式验证手机号、身份证号码强制性修改div框里出现的css值VS2017调试代码显示“当前无法命中断点,还没有为该文档加载任何符号”js获取当前域名、Url、相对路径和参数以及指定参数JavaScript数组整理C# 对象和类型总结关于javascript跳转与返回和刷新页面Express中的中间件简介及用法JS的原型和继承webstorm的 Emmet 快捷方式什么是Redis缓存的雪崩、击穿、穿透Cookie的基本介绍和场景Vue.js中keep-alive缓存(页面+滚动条)HTML5在客户端是如何存储数据的?MySQL中多表操作有哪些?Cookie与Session的认识使用集合组织相关数据深入C#数据类型c#中的委托简单认识.NET框架密码学系列——常见的加密方式有哪些.NET 异步详解线程池的五种实现方式centos7系统中忘记了root管理员账号密码的解决方式公司管理必须的20条军规[参考]云南昆明天猫旗舰店如何开_怎么开_要什么条件云南大王-通俗理解spring源码(三)—— 获取xml的验证模式 云南大王-用户登录 云南大王-【Golang进阶】指针的详细讲解 云南大王-Java 单线程代码ThreadLocal串值问题 云南大王-Java 实例级别的锁和类级别的锁 云南大王-工作流引擎会签,加签,主持人,组长模式专题讲解 云南大王-Android连载5云南大王-NTP对时器(NTP对时服务器)重要性!京准电子科技 云南大王-关于redis单线程的分析 云南大王-CVE云南大王-PHP SESSION反序列化本地样例分析 云南大王-这不就是多线程ThreadPoolExecutor和阻塞队列吗 云南大王-Tomcat AJP 文件包含漏洞(CVE云南大王-讲真,这两款idea插件,能治愈你英语不好的病 云南大王-消息中间件ActiveMQ、RabbitMQ、RocketMQ、ZeroMQ、Kafka如何选型? 云南大王-JVM系列十三(类加载器). 云南大王-Win10安装MySQL8压缩包版
/template/Home/Zkeys/PC/Static