《自己动手写搜索引擎》是猎兔企业搜索开发团队的软件产品研发和项目实践的经验汇总。《自己动手写搜索引擎》全方位展现出一个商用级别的Lucene搜索解决方案,主要包括爬虫、自然语言处理和搜索实现部分。爬虫部分介绍了网页遍历方法和从网页提取主要内容的方法。
自然语言处理部分包括了中文分词从理论到实现以及在搜索引擎中的实用等细节。
其他自然语言处理的经典问题与实现包括:文档排重、文本分类、自动聚类、语法解析树、拼写检查、拼音转换等理论与实现方法。
在实现搜索方面,《自己动手写搜索引擎》用简单的例子介绍了完整的搜索实现过程,覆盖了从索引库的设计和索引库与数据库的同步到搜索用户界面设计与实现。搜索用户界面包括实现布尔逻辑查询、按区间范围查询、搜索结果按日期排序等。《自己动手写搜索引擎》还进一步介绍了搜索排序的优化方法。
最后以基于Lucene的搜索服务器Solr为例,展示了Lucene的最新应用方法。
猎兔搜索开发部从事企业搜索,互联网舆情分析,自然语言处理等软件开发。产品包括多种语言的自然语言处理和搜索系统,中文分词,文本分类,数据挖掘,网站搜索和垂直搜索软件。现招聘全职网络爬虫开发工程师。 岗位要求: 1.会Lucene及Solr。 2.会Linux下编程。 3.了解数据结构...
评分这里的id标志为读过本书即可。 谢谢读者的支持。会想办法来帮大家做到更多。 联系msn:lgjut@sina.com
评分打开eclipse 然后把.project文件所在的路径作为Java项目导入即可。 例如光驱是e盘,则可以把 E:第2章Chapter3JavaPart 整个作为Java项目导入eclipse。 具体执行方式是点击右键选择"import"菜单,出来一个选择窗口,然后选择Existing Projects into Workspace。...
评分这里的id标志为读过本书即可。 谢谢读者的支持。会想办法来帮大家做到更多。 联系msn:lgjut@sina.com
评分包括使用Java开发网络爬虫与Web数据挖掘等内容 http://www.lietu.com/images/WebCrawler.jpg
代码太多了。
评分全是代码太不给力了
评分全是代码太不给力了
评分lucene编程指南
评分都没有布拉布拉,直接上代码, 多快好省, 国内程序设计书籍的通病。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 qciss.net All Rights Reserved. 小哈图书下载中心 版权所有