第 13 章 批量处理(Batch processing)

使用Hibernate将 100 000 条记录插入到数据库的一个很自然的做法可能是这样的

Session session = sessionFactory.openSession();
Transaction tx = session.beginTransaction();
for ( int i=0; i<100000; i++ ) {
    Customer customer = new Customer(.....);
    session.save(customer);
}
tx.commit();
session.close();

这段程序大概运行到 50 000 条记录左右会失败并抛出 内存溢出异常(OutOfMemoryException) 。 这是因为 Hibernate 把所有新插入的 客户(Customer)实例在 session级别的缓存区进行了缓存的缘故。

我们会在本章告诉你如何避免此类问题。首先,如果你要执行批量处理并且想要达到一个理想的性能, 那么使用JDBC的批量(batching)功能是至关重要。将JDBC的批量抓取数量(batch size)参数设置到一个合适值 (比如,10-50之间):

hibernate.jdbc.batch_size 20

注意,假若你使用了identiy标识符生成器,Hibernate在JDBC级别透明的关闭插入语句的批量执行。

你也可能想在执行批量处理时关闭二级缓存:

hibernate.cache.use_second_level_cache false

但是,这不是绝对必须的,因为我们可以显式设置CacheMode来关闭与二级缓存的交互。

13.1. 批量插入(Batch inserts)

如果要将很多对象持久化,你必须通过经常的调用 flush() 以及稍后调用 clear() 来控制第一级缓存的大小。

Session session = sessionFactory.openSession();
Transaction tx = session.beginTransaction();
   
for ( int i=0; i<100000; i++ ) {
    Customer customer = new Customer(.....);
    session.save(customer);
    if ( i % 20 == 0 ) { //20, same as the JDBC batch size //20,与JDBC批量设置相同
        //flush a batch of inserts and release memory:
        //将本批插入的对象立即写入数据库并释放内存
        session.flush();
        session.clear();
    }
}
   
tx.commit();
session.close();

13.2. 批量更新(Batch updates)

此方法同样适用于检索和更新数据。此外,在进行会返回很多行数据的查询时, 你需要使用 scroll() 方法以便充分利用服务器端游标所带来的好处。

Session session = sessionFactory.openSession();
Transaction tx = session.beginTransaction();
   
ScrollableResults customers = session.getNamedQuery("GetCustomers")
    .setCacheMode(CacheMode.IGNORE)
    .scroll(ScrollMode.FORWARD_ONLY);
int count=0;
while ( customers.next() ) {
    Customer customer = (Customer) customers.get(0);
    customer.updateStuff(...);
    if ( ++count % 20 == 0 ) {
        //flush a batch of updates and release memory:
        session.flush();
        session.clear();
    }
}
   
tx.commit();
session.close();

13.3. StatelessSession (无状态session)接口

作为选择,Hibernate提供了基于命令的API,可以用detached object的形式把数据以流的方法加入到数据库,或从数据库输出。StatelessSession没有持久化上下文,也不提供多少高层的生命周期语义。特别是,无状态session不实现第一级cache,也不和第二级缓存,或者查询缓存交互。它不实现事务化写,也不实现脏数据检查。用stateless session进行的操作甚至不级联到关联实例。stateless session忽略集合类(Collections)。通过stateless session进行的操作不触发Hibernate的事件模型和拦截器。无状态session对数据的混淆现象免疫,因为它没有第一级缓存。无状态session是低层的抽象,和低层JDBC相当接近。

StatelessSession session = sessionFactory.openStatelessSession();
Transaction tx = session.beginTransaction();
   
ScrollableResults customers = session.getNamedQuery("GetCustomers")
    .scroll(ScrollMode.FORWARD_ONLY);
while ( customers.next() ) {
    Customer customer = (Customer) customers.get(0);
    customer.updateStuff(...);
    session.update(customer);
}
   
tx.commit();
session.close();

注意在上面的例子中,查询返回的Customer实例立即被脱管(detach)。它们与任何持久化上下文都没有关系。

StatelessSession 接口定义的insert(), update()delete()操作是直接的数据库行级别操作,其结果是立刻执行一条INSERT, UPDATEDELETE 语句。因此,它们的语义和Session 接口定义的save(), saveOrUpdate()delete() 操作有很大的不同。

13.4. DML(数据操作语言)风格的操作(DML-style operations)

hence manipulating (using the SQL Data Manipulation Language (DML) statements: INSERT, UPDATE, DELETE) data directly in the database will not affect in-memory state. However, Hibernate provides methods for bulk SQL-style DML statement execution which are performed through the Hibernate Query Language (第 14 章 HQL: Hibernate查询语言). 就像已经讨论的那样,自动和透明的 对象/关系 映射(object/relational mapping)关注于管理对象的状态。 这就意味着对象的状态存在于内存,因此直接操作 (使用 SQL Data Manipulation Language(DML,数据操作语言)语句 :INSERT ,UPDATEDELETE) 数据库中的数据将不会影响内存中的对象状态和对象数据。 不过,Hibernate提供通过Hibernate查询语言(第 14 章 HQL: Hibernate查询语言)来执行大批 量SQL风格的DML语句的方法。

UPDATEDELETE语句的语法为: ( UPDATE | DELETE ) FROM? EntityName (WHERE where_conditions)? 有几点说明:

  • 在FROM子句(from-clause)中,FROM关键字是可选的

  • 在FROM子句(from-clause)中只能有一个实体名,它可以是别名。如果实体名是别名,那么任何被引用的属性都必须加上此别名的前缀;如果不是别名,那么任何有前缀的属性引用都是非法的。

  • 不能在大批量HQL语句中使用第 14.4 节 “join 语法的形式”(显式或者隐式的都不行)。不过在WHERE子句中可以使用子查询。可以在where子句中使用子查询,子查询本身可以包含join。

  • 整个WHERE子句是可选的。

举个例子,使用Query.executeUpdate()方法执行一个HQL UPDATE语句(: (方法命名是来源于JDBC's PreparedStatement.executeUpdate()):

Session session = sessionFactory.openSession();
		Transaction tx = session.beginTransaction();

		String hqlUpdate = "update Customer c set c.name = :newName where c.name = :oldName";
		// or String hqlUpdate = "update Customer set name = :newName where name = :oldName";
		int updatedEntities = s.createQuery( hqlUpdate )
		        .setString( "newName", newName )
		        .setString( "oldName", oldName )
		        .executeUpdate();
		tx.commit();
		session.close();

HQL UPDATE语句,默认不会影响更新实体的第 5.1.7 节 “版本(version)(可选)”或者第 5.1.8 节 “timestamp (可选)”属性值。这和EJB3规范是一致的。但是,通过使用versioned update,你可以强制Hibernate正确的重置version或者timestamp属性值。这通过在UPDATE关键字后面增加VERSIONED关键字来实现的。

Session session = sessionFactory.openSession();
Transaction tx = session.beginTransaction();
String hqlVersionedUpdate = "update versioned Customer set name = :newName where name = :oldName";
int updatedEntities = s.createQuery( hqlUpdate )
        .setString( "newName", newName )
        .setString( "oldName", oldName )
        .executeUpdate();
tx.commit();
session.close();

注意,自定义的版本类型(org.hibernate.usertype.UserVersionType)不允许和update versioned语句联用。

执行一个HQL DELETE,同样使用 Query.executeUpdate() 方法:

Session session = sessionFactory.openSession();
		Transaction tx = session.beginTransaction();

		String hqlDelete = "delete Customer c where c.name = :oldName";
		// or String hqlDelete = "delete Customer where name = :oldName";
		int deletedEntities = s.createQuery( hqlDelete )
		        .setString( "oldName", oldName )
		        .executeUpdate();
		tx.commit();
		session.close();

Query.executeUpdate()方法返回的整型值表明了受此操作影响的记录数量。 注意这个数值可能与数据库中被(最后一条SQL语句)影响了的“行”数有关,也可能没有。一个大批量HQL操作可能导致多条实际的SQL语句被执行, 举个例子,对joined-subclass映射方式的类进行的此类操作。这个返回值代表了实际被语句影响了的记录数量。在那个joined-subclass的例子中, 对一个子类的删除实际上可能不仅仅会删除子类映射到的表而且会影响“根”表,还有可能影响与之有继承关系的joined-subclass映射方式的子类的表。

INSERT语句的伪码是: INSERT INTO EntityName properties_list select_statement. 要注意的是:

  • 只支持INSERT INTO ... SELECT ...形式,不支持INSERT INTO ... VALUES ...形式.

    properties_list和SQL INSERT语句中的字段定义(column speficiation)类似。对参与继承树映射的实体而言,只有直接定义在给定的类级别的属性才能直接在properties_list中使用。超类的属性不被支持;子类的属性无意义。换句话说,INSERT天生不支持多态。

  • select_statement可以是任何合法的HQL选择查询,不过要保证返回类型必须和要插入的类型完全匹配。目前,这一检查是在查询编译的时候进行的,而不是把它交给数据库。注意,在HibernateType间如果只是等价(equivalent)而非相等(equal),会导致问题。定义为org.hibernate.type.DateTypeorg.hibernate.type.TimestampType的两个属性可能会产生类型不匹配错误,虽然数据库级可能不加区分或者可以处理这种转换。

  • 对id属性来说,insert语句给你两个选择。你可以明确地在properties_list表中指定id属性(这样它的值是从对应的select表达式中获得),或者在properties_list中省略它(此时使用生成指)。后一种选择只有当使用在数据库中生成值的id产生器时才能使用;如果是“内存”中计算的类型生成器,在解析时会抛出一个异常。注意,为了说明这一问题,数据库产生值的生成器是org.hibernate.id.SequenceGenerator(和它的子类),以及任何org.hibernate.id.PostInsertIdentifierGenerator接口的实现。这儿最值得注意的意外是org.hibernate.id.TableHiLoGenerator,它不能在此使用,因为它没有得到其值的途径。

  • 对映射为versiontimestamp的属性来说,insert语句也给你两个选择,你可以在properties_list表中指定(此时其值从对应的select表达式中获得),或者在properties_list中省略它(此时,使用在org.hibernate.type.VersionType 中定义的seed value(种子值))。

执行HQL INSERT语句的例子如下:

Session session = sessionFactory.openSession();
Transaction tx = session.beginTransaction();

String hqlInsert = "insert into DelinquentAccount (id, name) select c.id, c.name from Customer c where ...";
int createdEntities = s.createQuery( hqlInsert )
        .executeUpdate();
tx.commit();
session.close();