Spring整合Hive

最近项目中的一个页面要从Hive中取数据,研究了一下如何把Hive整合进Spring中。

其实还是很简单的,Spring提供了spring-data-hadoop这个包,引进来之后新增一个配置文件就可以了。配置文件样例如下:

<?xml version="1.0" encoding="UTF-8"?>
<beans:beans xmlns="http://www.springframework.org/schema/hadoop"
             xmlns:beans="http://www.springframework.org/schema/beans"
             xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
             xsi:schemaLocation="http://www.springframework.org/schema/beans http://www.springframework.org/schema/beans/spring-beans.xsd
     http://www.springframework.org/schema/hadoop http://www.springframework.org/schema/hadoop/spring-hadoop.xsd">

    <beans:bean id="hiveDriver" class="org.apache.hive.jdbc.HiveDriver"/>

    <beans:bean id="hiveDataSource" class="org.springframework.jdbc.datasource.SimpleDriverDataSource">
        <beans:constructor-arg name="driver" ref="hiveDriver"/>
        <beans:constructor-arg name="url" value="jdbc:hive2://填数据库地址"/>
    </beans:bean>

    <hive-client-factory id="hiveClientFactory" hive-data-source-ref="hiveDataSource"/>

    <hive-template id="hiveTemplate"/>
</beans:beans>

用的时候直接autowire hiveTemplate就可以了。

不过在实际使用的时候遇到了另一个问题,HiveTemplate的功能非常弱鸡,连QueryForObject都没有。于是我用Hive的DataSource配置了一个JdbcTemplate,需要查Object的地方就直接用JdbcTemplate了。

<beans:bean id="hiveJdbcTemplate" class="org.springframework.jdbc.core.JdbcTemplate">
    <beans:property name="dataSource" ref="hiveDataSource"/>
</beans:bean>

最后说句题外话,用多了MyBatis之后,再用JdbcTemplate,还真是不习惯。最麻烦的就属QueryForList不能直接返回实体的List了,要么自己写一个映射的方法,要么手动一个个set到实体对象里,无论如何都很麻烦……哎,还是MyBatis好。

解决Java Web项目中Word、Excel等二进制文件编译后无法打开的问题

今天写新项目的时候遇到一个问题,在resources目录下存储的.xlsx文件,编译过后会增大几kb,无法打开。

Google了一番之后,发现问题源自于maven-resources-plugin这个插件。这个插件会把resources目录下的文本文件进行转码,但它无法正确的识别哪些是文本文件,因而会错误的将不需要进行转码的二进制文件也进行转码,导致这些二进制文件无法打开。

解决的方法是在pom.xml中的maven-resources-plugin下,将不需要转码的文件扩展名填入nonFilteredFileExtensions,格式如下:

<plugin>
    <groupId>org.apache.maven.plugins</groupId>
    <artifactId>maven-resources-plugin</artifactId>
    <version>3.0.2</version>
    <configuration>
        <encoding>UTF-8</encoding>
        <nonFilteredFileExtensions>
            <nonFilteredFileExtension>xls</nonFilteredFileExtension>
            <nonFilteredFileExtension>xlsx</nonFilteredFileExtension>
        </nonFilteredFileExtensions>
    </configuration>
</plugin>

jQuery里奇葩的“toLowerCase”错误——保留字nodeName、nodeValue和nodeType

今天写页面遇到了一个奇怪的问题,只要点一个下拉框,js就报toLowerCase方法错误。然而我根本就没有用到这个toLowerCase方法,于是百思不得其解。

折腾了一整天之后才发现真正的原因,原来是因为这个下拉框的name叫nodeName,而nodeName是jQuery的保留字!jQuery也是真的奇葩,居然报了一个完全不相关的错误,让人根本无从查错。

搜索了一番之后,发现原来不仅是nodeName,nodeValue和nodeType也是jQuery的保留字,因而大家在设计数据库的时候,尽量把字段名避开这三个保留字,以避免写前端页面时出现问题。

实现某字段分类自增的SQL插入语句

需求如下:表中有一字段type,值为0、1、2、3;另一字段node_id,需要根据type字段的值分类自增。例如现在插入8条数据,type字段的值分别为0、1、1、1、0、2、3、2,则新增时node_id字段对应的值为000001、100001、100002、100003、000002、200001、300001、200002。

插入的SQL语句如下:

INSERT INTO dm_busi_type (node_id, type)
SELECT CONCAT(#type, LPAD(count(1) + 1, 5, 0)), #type
FROM dm_busi_type WHERE type = #type

#type为MyBatis传入的参数。
CONCAT(a, b)函数的作用为拼接a、b两字符串。
LPAD(a, length, b)函数的作用为在左侧将字符串a使用字符b填充成为length位。例如LPAD(233, 5, 0),结果为00233。

SpringMVC中使用RequestMapping自定义多个404页

一般来说,Java Web项目在自定义404页面时,直接在web.xml中增加一段<error-page>就可以实现,例如:

<error-page>
    <error-code>404</error-code>
    <location>/404.jsp</location>
</error-page>

然而,使用这种方法,项目中所有的404页都只能指向同一个HTML页。若想让项目中PC端的404页和手机端的404页指向不同的页面,则使用该方法无法实现。

若想自定义多个404页,我们可以使用SpringMVC中@RequestMapping最精确匹配原则来实现。该原则的意思是,如果我们在Controller中有两个方法,一个拦截了admin/**,一个拦截了admin/login,则在访问admin/login时,SpringMVC会进入匹配最为精确的那个方法,即拦截了admin/login的那个方法。

利用这个原则,我们可以这样来自定义多个404页:假设项目中所有PC端页面的地址均为admin/开头,所有移动端页面的地址均为mobile/开头,那么我们可以写两个Controller方法,PC端404页拦截admin/**,移动端404页拦截mobile/**,即分别使用@RequestMapping(value = "admin/**")@RequestMapping(value = "mobile/**"),这样在admin/及mobile/下的所有未被其他Controller拦截的地址,都会分别被这两个方法拦截,我们只需要分别在这两个方法中return到对应的错误页面就可以了。

需要注意的是,我们需要写/**,而不是/*,若使用*,则只能拦截到第一级的页面(如admin/a),而对于admin/a/b、admin/a/b/c这种多级的页面,则无法拦截到。

《信息检索》大作业1、2:建立索引、检索、查询扩展、系统评估

源代码下载:https://github.com/houseyoung/IR-Homework1-2

作业一:索引的建立
1、切词及词频统计:利用已提供的海量智能分词软件(代码中使用的是庖丁解牛Paoding Analyzer)对文档进行切词处理,并进行词频统计,形成DocIndex文件,结构为:文档号、频率、词。
2、分配词权重:采用词频标准化tfi=tfi/Max(tf)tf*idf两种方式分配词的权重。由DocIndex文件生成DocIndex(tf)DocIndex(tf*idf)文件。注意阈值的确定,词的取舍。
3、形成倒置文档:将DocIndex(tf)DocIndex(tf*idf)文件转换为DocInvert(tf)DocInvert (tf*idf)文件。

作业二:检索及评估系统
1、Query处理(与文档处理采用相同方法:切词,选择关键词等)。
2、用VSM(向量空间模型)方法,计算一个查询与一个文档集合中各文档的相似度,并排序输出结果(对问题1020输出详细结果,其他问题只记录文档排序即可)
3、应用查询扩展方法对Query处理后,对同一问题再次进行检索,并排序输出结果(对问题1020输出详细结果,其他问题只记录文档排序即可)
4、应用MRR(Mean Reciprocal Rank)方法,计算系统的MRR值。

使用Nginx等反向代理时如何从Request中获取客户端真实IP地址

在Java Web项目中,若想获取客户端的IP地址,最简单的方式便是使用HttpServletRequest中的getRemoteAddr()方法。但若使用该方法进行获取,一旦项目经过了反向代理(如Nginx),则获取到的IP地址是反向代理服务器的IP地址,而非客户端的真实IP地址。

在使用Nginx做反向代理的情况下,若想获取到客户端的真实IP地址,首先要保证Nginx的配置文件中有proxy_set_header X-Real-IP $remote_addr; 这一句。然后使用HttpServletRequest中的getHeader("X-Real-IP")方法,获取HTTP请求头中"X-Real-IP"中的内容,该内容即为客户端的真实IP地址。

代码样例如下:

// 访问者的IP地址(若未经过反向代理,则该地址为真实的访问者IP地址,否则为反向代理服务器的IP地址)
String customerIp = httpServletRequest.getRemoteAddr();
// 访问者的真实IP地址(若经过反向代理,则该地址为真实的访问者IP地址,否则为空)
String xRealIp = httpServletRequest.getHeader("X-Real-IP");
// 若存在X-Real-IP,则用X-Real-IP作为访问者的IP地址
if (xRealIp != null && !"".equals(xRealIp)) {
 customerIp = xRealIp;
}

蚁群算法解决TSP问题的Java实现(带图形用户界面)

截图:
TSP

源代码下载:https://github.com/houseyoung/TSP

算法主要基于杨剑峰《蚁群算法及其应用研究》论文第3.2~3.4节中的“基本蚁群算法”。代码基于http://blog.csdn.net/wangqiuyun/article/details/8878298进行改进。图形用户界面使用Swing编写。

TSP数据提供了ATT48(美国本土48州首府)、CHN31(中国大陆31省省会)、CHN144(中国144个主要城市)三种。读者可自行根据格式更换不同的测试数据。

注:GUI部分使用IntelliJ IDEA自带的GUI Form创建,有网友测试发现在Eclipse中无法正确执行。