12 years agoBtrfs: fix panic when trying to destroy a newly allocated
Josef Bacik [Wed, 11 Nov 2009 20:53:34 +0000 (15:53 -0500)]
Btrfs: fix panic when trying to destroy a newly allocated

There is a problem where iget5_locked will look for an inode, not find it, and
then subsequently try to allocate it.  Another CPU will have raced in and
allocated the inode instead, so when iget5_locked gets the inode spin lock again
and does a search, it finds the new inode.  So it goes ahead and calls
destroy_inode on the inode it just allocated.  The problem is we don't set
BTRFS_I(inode)->root until the new inode is completely initialized.  This patch
makes us set root to NULL when alloc'ing a new inode, so when we get to
btrfs_destroy_inode and we see that root is NULL we can just free up the memory
and continue on.  This fixes the panic


Signed-off-by: Josef Bacik <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: allow more metadata chunk preallocation
Chris Mason [Wed, 11 Nov 2009 15:16:57 +0000 (10:16 -0500)]
Btrfs: allow more metadata chunk preallocation

On an FS where all of the space has not been allocated into chunks yet,
the enospc can return enospc just because the existing metadata chunks
are full.

We get around this by allowing more metadata chunks to be allocated up
to a certain limit, and finding the right limit is a little fuzzy.  The
problem is the reservations for delalloc would preallocate way too much
of the FS as metadata.  We need to start saying no and just force some
IO to happen.

But we also need to let a reasonable amount of the FS become metadata.
This bumps the hard limit up, later releases will have a better system.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: fallback on uncompressed io if compressed io fails
Josef Bacik [Wed, 11 Nov 2009 02:23:48 +0000 (21:23 -0500)]
Btrfs: fallback on uncompressed io if compressed io fails

Currently compressed IO does not deal with not having its entire extent able to
be allocated.  So if we have enough free space to allocate for the extent, but
its not contiguous, it will fail spectacularly.  This patch fixes this by
falling back on uncompressed IO which lets us spread the delalloc extent across
multiple extents.  I tested this by making us randomly think the reservation had
failed to make it fallback on the uncompressed io way and it seemed to work
fine.  Thanks,

Signed-off-by: Josef Bacik <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: find ideal block group for caching
Josef Bacik [Wed, 11 Nov 2009 02:23:48 +0000 (21:23 -0500)]
Btrfs: find ideal block group for caching

This patch changes a few things.  Hopefully the comments are helpfull, but
I'll try and be as verbose here.


My fedora box was taking 1 minute and 21 seconds to boot with btrfs as root.
Part of this problem was we pick the first block group we can find and start
caching it, even if it may not have enough free space.  The other problem is
we only search for cached block groups the first time around, which we won't
find any cached block groups because this is a newly mounted fs, so we end up
caching several block groups during bootup, which with alot of fragmentation
takes around 30-45 seconds to complete, which bogs down the system.  So


1) Don't cache block groups willy-nilly at first.  Instead try and figure out
which block group has the most free, and therefore will take the least amount
of time to cache.

2) Don't be so picky about cached block groups.  The other problem is once
we've filled up a cluster, if the block group isn't finished caching the next
time we try and do the allocation we'll completely ignore the cluster and
start searching from the beginning of the space, which makes us cache more
block groups, which slows us down even more.  So instead of skipping block
groups that are not finished caching when we have a hint, only skip the block
group if it hasn't started caching yet.

There is one other tweak in here.  Before if we allocated a chunk and still
couldn't find new space, we'd end up switching the space info to force another
chunk allocation.  This could make us end up with way too many chunks, so keep
track of this particular case.

With this patch and my previous cluster fixes my fedora box now boots in 43
seconds, and according to the bootchart is not held up by our block group
caching at all.

Signed-off-by: Josef Bacik <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: avoid null deref in unpin_extent_cache()
Dan Carpenter [Tue, 10 Nov 2009 09:01:43 +0000 (09:01 +0000)]
Btrfs: avoid null deref in unpin_extent_cache()

I re-orderred the checks to avoid dereferencing "em" if it was null.

Found by smatch static checker.

Signed-off-by: Dan Carpenter <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: skip btrfs_release_path in btrfs_update_root and btrfs_del_root
Li Dongyang [Fri, 6 Nov 2009 14:33:01 +0000 (14:33 +0000)]
Btrfs: skip btrfs_release_path in btrfs_update_root and btrfs_del_root

We don't need to call btrfs_release_path because btrfs_free_path will do
that for us.

Signed-off-by: Li Dongyang <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix some metadata enospc issues
Josef Bacik [Wed, 11 Nov 2009 02:23:48 +0000 (21:23 -0500)]
Btrfs: fix some metadata enospc issues

We weren't reserving metadata space for rename, rmdir and unlink, which could
cause problems.

Signed-off-by: Josef Bacik <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix how we set max_size for free space clusters
Josef Bacik [Wed, 11 Nov 2009 02:23:48 +0000 (21:23 -0500)]
Btrfs: fix how we set max_size for free space clusters

This patch fixes a problem where max_size can be set to 0 even though we
filled the cluster properly.  We set max_size to 0 if we restart the cluster
window, but if the new start entry is big enough to be our new cluster then we
could return with a max_size set to 0, which will mean the next time we try to
allocate from this cluster it will fail.  So set max_extent to the entry's
size.  Tested this on my box and now we actually allocate from the cluster
after we fill it.  Thanks,

Signed-off-by: Josef Bacik <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: cleanup transaction starting and fix journal_info usage
Josef Bacik [Wed, 11 Nov 2009 02:23:48 +0000 (21:23 -0500)]
Btrfs: cleanup transaction starting and fix journal_info usage

We use journal_info to tell if we're in a nested transaction to make sure we
don't commit the transaction within a nested transaction.  We use another
method to see if there are any outstanding ioctl trans handles, so if we're
starting one do not set current->journal_info, since it will screw with other
filesystems.  This patch also cleans up the starting stuff so there aren't any
magic numbers.

Signed-off-by: Josef Bacik <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix data allocation hint start
Josef Bacik [Wed, 11 Nov 2009 02:23:47 +0000 (21:23 -0500)]
Btrfs: fix data allocation hint start

Sometimes our start allocation hint when we cow a file can be either
EXTENT_HOLE or some other such place holder, which is not optimal.  So if we
find that our em->block_start is one of these special values, check to see
where the first block of the inode is stored, and use that as a hint.  If that
block is also a special value, just fallback on a hint of 0 and let the
allocator figure out a good place to put the data.

Signed-off-by: Josef Bacik <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: always pin metadata in discard mode
Chris Mason [Wed, 14 Oct 2009 13:38:28 +0000 (09:38 -0400)]
Btrfs: always pin metadata in discard mode

We have an optimization in btrfs to allow blocks to be
immediately freed if they were allocated in this transaction and never
written.  Otherwise they are pinned and freed when the transaction

This isn't optimal for discard mode because immediately freeing
them means immediately discarding them.  It is better to give the
block to the pinning code and letting the (slow) discard happen later.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: enable discard support
Christoph Hellwig [Wed, 14 Oct 2009 13:24:59 +0000 (09:24 -0400)]
Btrfs: enable discard support

The discard support code in btrfs currently is guarded by ifdefs for
BIO_RW_DISCARD, which is never defines as it's the name of an enum
memeber.  Just remove the useless ifdefs to actually enable the code.

Signed-off-by: Christoph Hellwig <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: add -o discard option
Christoph Hellwig [Wed, 14 Oct 2009 13:24:59 +0000 (09:24 -0400)]
Btrfs: add -o discard option

Enable discard by default is not a good idea given the the trim speed
of SSD prototypes we've seen, and the carecteristics for many high-end
arrays.  Turn of discards by default and require the -o discard option
to enable them on.

Signed-off-by: Christoph Hellwig <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: properly wait log writers during log sync
Yan, Zheng [Wed, 14 Oct 2009 13:24:59 +0000 (09:24 -0400)]
Btrfs: properly wait log writers during log sync

A recently fsync optimization make btrfs_sync_log skip calling
wait_for_writer in the single log writer case. This is incorrect
since the writer count can also be increased by btrfs_pin_log.

Signed-off-by: Yan Zheng <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix possible ENOSPC problems with truncate
Josef Bacik [Tue, 13 Oct 2009 20:46:49 +0000 (16:46 -0400)]
Btrfs: fix possible ENOSPC problems with truncate

There's a problem where we don't do any space reservation for truncates, which
can cause you to OOPs because you will be allowed to go off in the weeds a bit
since we don't account for the delalloc bytes that are created as a result of
the truncate.

Signed-off-by: Josef Bacik <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix btrfs acl #ifdef checks
Chris Mason [Tue, 13 Oct 2009 17:50:18 +0000 (13:50 -0400)]
Btrfs: fix btrfs acl #ifdef checks

The btrfs acl code was #ifdefing for a define
that didn't exist.  This correctly matches it
to the values used by the Kconfig file.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: streamline tree-log btree block writeout
Chris Mason [Tue, 13 Oct 2009 17:29:19 +0000 (13:29 -0400)]
Btrfs: streamline tree-log btree block writeout

Syncing the tree log is a 3 phase operation.

1) write and wait for all the tree log blocks for a given root.

2) write and wait for all the tree log blocks for the
tree of tree log roots.

3) write and wait for the super blocks (barriers here)

This isn't as efficient as it could be because there is
no requirement to wait for the blocks from step one to hit the disk
before we start writing the blocks from step two.  This commit
changes the sequence so that we don't start waiting until
all the tree blocks from both steps one and two have been sent
to disk.

We do this by breaking up btrfs_write_wait_marked_extents into
two functions, which is trivial because it was already broken
up into two parts.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: avoid tree log commit when there are no changes
Chris Mason [Tue, 13 Oct 2009 17:21:08 +0000 (13:21 -0400)]
Btrfs: avoid tree log commit when there are no changes

rpm has a habit of running fdatasync when the file hasn't
changed.  We already detect if a file hasn't been changed
in the current transaction but it might have been sent to
the tree-log in this transaction and not changed since
the last call to fsync.

In this case, we want to avoid a tree log sync, which includes
a number of synchronous writes and barriers.  This commit
extends the existing tracking of the last transaction to change
a file to also track the last sub-transaction.

The end result is that rpm -ivh and -Uvh are roughly twice as fast,
and on par with ext3.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: only write one super copy during fsync
Chris Mason [Tue, 13 Oct 2009 16:55:09 +0000 (12:55 -0400)]
Btrfs: only write one super copy during fsync

During a tree-log commit for fsync, we've been writing at least
two copies of the super block and forcing them to disk.

The other filesystems write only one, and this change brings us on
par with them.  A full transaction commit will write all the super
copies, so we still have redundant info written on a regular

Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix file clone ioctl for bookend extents
Chris Mason [Fri, 9 Oct 2009 15:29:53 +0000 (11:29 -0400)]
Btrfs: fix file clone ioctl for bookend extents

The file clone ioctl was incorrectly taking the offset into the
extent on disk into account when calculating the length of the
cloned extent.

The length never changes based on the offset into the physical extent.

Test case:

fallocate -l 1g image
mke2fs image
bcp image image2
e2fsck -f image2

(errors on image2)

The math bug ends up wrapping the length of the extent, and things
go wrong from there.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix uninit compiler warning in cow_file_range_nocow
Chris Mason [Fri, 9 Oct 2009 13:57:45 +0000 (09:57 -0400)]
Btrfs: fix uninit compiler warning in cow_file_range_nocow

The extent_type variable was exposed uninit via a goto.  It should be
impossible to trigger because it is protected by a check on another
variable, but this makes sure.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: constify dentry_operations
Alexey Dobriyan [Fri, 9 Oct 2009 13:54:36 +0000 (09:54 -0400)]
Btrfs: constify dentry_operations

Signed-off-by: Chris Mason <>
12 years agoBtrfs: optimize back reference update during btrfs_drop_snapshot
Yan, Zheng [Fri, 9 Oct 2009 13:25:16 +0000 (09:25 -0400)]
Btrfs: optimize back reference update during btrfs_drop_snapshot

This patch reading level 0 tree blocks that already use full backrefs.

Signed-off-by: Yan Zheng <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: remove negative dentry when deleting subvolumne
Yan, Zheng [Fri, 9 Oct 2009 13:25:16 +0000 (09:25 -0400)]
Btrfs: remove negative dentry when deleting subvolumne

The use of btrfs_dentry_delete is removing dentries from the
dcache when deleting subvolumne. btrfs_dentry_delete ignores
negative dentries. This is incorrect since if we don't remove
the negative dentry, its parent dentry can't be removed.

Signed-off-by: Yan Zheng <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: optimize fsync for the single writer case
Josef Bacik [Thu, 8 Oct 2009 19:30:04 +0000 (15:30 -0400)]
Btrfs: optimize fsync for the single writer case

This patch optimizes the tree logging stuff so it doesn't always wait 1 jiffie
for new people to join the logging transaction if there is only ever 1 writer.
This helps a little bit with latency where we have something like RPM where it
will fdatasync every file it writes, and so waiting the 1 jiffie for every
fdatasync really starts to add up.

Signed-off-by: Josef Bacik <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: async delalloc flushing under space pressure
Josef Bacik [Thu, 8 Oct 2009 00:44:34 +0000 (20:44 -0400)]
Btrfs: async delalloc flushing under space pressure

This patch moves the delalloc flushing that occurs when we are under space
pressure off to a async thread pool.  This helps since we only free up
metadata space when we actually insert the extent item, which means it takes
quite a while for space to be free'ed up if we wait on all ordered extents.
However, if space is freed up due to inline extents being inserted, we can
wake people who are waiting up early, and they can finish their work.

Signed-off-by: Josef Bacik <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: release delalloc reservations on extent item insertion
Josef Bacik [Thu, 8 Oct 2009 17:34:05 +0000 (13:34 -0400)]
Btrfs: release delalloc reservations on extent item insertion

This patch fixes an issue with the delalloc metadata space reservation
code.  The problem is we used to free the reservation as soon as we
allocated the delalloc region.  The problem with this is if we are not
inserting an inline extent, we don't actually insert the extent item until
after the ordered extent is written out.  This patch does 3 things,

1) It moves the reservation clearing stuff into the ordered code, so when
we remove the ordered extent we remove the reservation.
2) It adds a EXTENT_DO_ACCOUNTING flag that gets passed when we clear
delalloc bits in the cases where we want to clear the metadata reservation
when we clear the delalloc extent, in the case that we do an inline extent
or we invalidate the page.
3) It adds another waitqueue to the space info so that when we start a fs
wide delalloc flush, anybody else who also hits that area will simply wait
for the flush to finish and then try to make their allocation.

This has been tested thoroughly to make sure we did not regress on

Signed-off-by: Josef Bacik <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: delay clearing EXTENT_DELALLOC for compressed extents
Chris Mason [Thu, 8 Oct 2009 16:30:20 +0000 (12:30 -0400)]
Btrfs: delay clearing EXTENT_DELALLOC for compressed extents

When compression is on, the cow_file_range code is farmed off to
worker threads.  This allows us to do significant CPU work in parallel
on SMP machines.

But it is a delicate balance around when we clear flags and how.  In
the past we cleared the delalloc flag immediately, which was safe
because the pages stayed locked.

But this is causing problems with the newest ENOSPC code, and with the
recent extent state cleanups we can now clear the delalloc bit at the
same time the uncompressed code does.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: cleanup extent_clear_unlock_delalloc flags
Chris Mason [Thu, 8 Oct 2009 15:27:10 +0000 (11:27 -0400)]
Btrfs: cleanup extent_clear_unlock_delalloc flags

extent_clear_unlock_delalloc has a growing set of ugly parameters
that is very difficult to read and maintain.

This switches to a flag field and well named flag defines.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix possible softlockup in the allocator
Josef Bacik [Tue, 6 Oct 2009 14:04:28 +0000 (10:04 -0400)]
Btrfs: fix possible softlockup in the allocator

Like the cluster allocating stuff, we can lockup the box with the normal
allocation path.  This happens when we

1) Start to cache a block group that is severely fragmented, but has a decent
amount of free space.
2) Start to commit a transaction
3) Have the commit try and empty out some of the delalloc inodes with extents
that are relatively large.

The inodes will not be able to make the allocations because they will ask for
allocations larger than a contiguous area in the free space cache.  So we will
wait for more progress to be made on the block group, but since we're in a
commit the caching kthread won't make any more progress and it already has
enough free space that wait_block_group_cache_progress will just return.  So,
if we wait and fail to make the allocation the next time around, just loop and
go to the next block group.  This keeps us from getting stuck in a softlockup.

Signed-off-by: Josef Bacik <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix deadlock on async thread startup
Chris Mason [Fri, 2 Oct 2009 23:11:56 +0000 (19:11 -0400)]
Btrfs: fix deadlock on async thread startup

The btrfs async worker threads are used for a wide variety of things,
including processing bio end_io functions.  This means that when
the endio threads aren't running, the rest of the FS isn't
able to do the final processing required to clear PageWriteback.

The endio threads also try to exit as they become idle and
start more as the work piles up.  The problem is that starting more
threads means kthreadd may need to allocate ram, and that allocation
may wait until the global number of writeback pages on the system is
below a certain limit.

The result of that throttling is that end IO threads wait on
kthreadd, who is waiting on IO to end, which will never happen.

This commit fixes the deadlock by handing off thread startup to a
dedicated thread.  It also fixes a bug where the on-demand thread
creation was creating far too many threads because it didn't take into
account threads being started by other procs.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix data space leak fix
Josef Bacik [Thu, 1 Oct 2009 21:10:23 +0000 (17:10 -0400)]
Btrfs: fix data space leak fix

There is a problem where page_mkwrite can be called on a dirtied page that
already has a delalloc range associated with it.  The fix is to clear any
delalloc bits for the range we are dirtying so the space accounting gets
handled properly.  This is the same thing we do in the normal write case, so we
are consistent across the board.  With this patch we no longer leak reserved

Signed-off-by: Josef Bacik <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: take i_mutex before generic_write_checks
Chris Mason [Thu, 1 Oct 2009 16:29:10 +0000 (12:29 -0400)]
Btrfs: take i_mutex before generic_write_checks

btrfs_file_write was incorrectly calling generic_write_checks without
taking i_mutex.  This lead to problems with racing around i_size when
doing O_APPEND writes.

The fix here is to move i_mutex higher.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix arguments to btrfs_wait_on_page_writeback_range
Christoph Hellwig [Wed, 30 Sep 2009 20:47:08 +0000 (16:47 -0400)]
Btrfs: fix arguments to btrfs_wait_on_page_writeback_range

wait_on_page_writeback_range/btrfs_wait_on_page_writeback_range takes
a pagecache offset, not a byte offset into the file.  Shift the arguments
around to wait for the correct range

Signed-off-by: Christoph Hellwig <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix deadlock with free space handling and user transactions
Sage Weil [Tue, 29 Sep 2009 22:38:44 +0000 (18:38 -0400)]
Btrfs: fix deadlock with free space handling and user transactions

If an ioctl-initiated transaction is open, we can't force a commit during
the free space checks in order to free up pinned extents or else we
deadlock.  Just ENOSPC instead.

A more satisfying solution that reserves space for the entire user
transaction up front is forthcoming...

Signed-off-by: Sage Weil <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix error cases for ioctl transactions
Sage Weil [Tue, 29 Sep 2009 22:38:44 +0000 (18:38 -0400)]
Btrfs: fix error cases for ioctl transactions

Fix leak of vfsmount write reference and open_ioctl_trans reference on
ENOMEM.  Clean up the error paths while we're at it.

Signed-off-by: Sage Weil <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: Use CONFIG_BTRFS_POSIX_ACL to enable ACL code
Chris Ball [Tue, 29 Sep 2009 17:51:05 +0000 (13:51 -0400)]
Btrfs: Use CONFIG_BTRFS_POSIX_ACL to enable ACL code

We've already defined CONFIG_BTRFS_POSIX_ACL in Kconfig, but we're
currently not using it and are testing CONFIG_FS_POSIX_ACL instead.
CONFIG_FS_POSIX_ACL states "Never use this symbol for ifdefs".

Signed-off-by: Chris Ball <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: introduce missing kfree
Julia Lawall [Tue, 29 Sep 2009 17:51:04 +0000 (13:51 -0400)]
Btrfs: introduce missing kfree

Error handling code following a kzalloc should free the allocated data.

The semantic match that finds the problem is as follows:

// <smpl>
@r exists@
local idexpression x;
statement S;
expression E;
identifier f,f1,l;
position p1,p2;
expression *ptr != NULL;

x@p1 = \(kmalloc\|kzalloc\|kcalloc\)(...);
if (x == NULL) S
<... when != x
     when != if (...) { <+...x...+> }
x->f1 = E
 (x->f1 == NULL || ...)
 return \(0\|<+...x...+>\|ptr\);
 return@p2 ...;

p1 << r.p1;
p2 << r.p2;

print "* file: %s kmalloc %s return %s" % (p1[0].file,p1[0].line,p2[0].line)
// </smpl>

Signed-off-by: Julia Lawall <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: Fix setting umask when POSIX ACLs are not enabled
Chris Ball [Tue, 29 Sep 2009 17:51:04 +0000 (13:51 -0400)]
Btrfs: Fix setting umask when POSIX ACLs are not enabled

We currently set sb->s_flags |= MS_POSIXACL unconditionally, which is
incorrect -- it tells the VFS that it shouldn't set umask because we
will, yet we don't set it ourselves if we aren't using POSIX ACLs, so
the umask ends up ignored.

Signed-off-by: Chris Ball <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: proper -ENOSPC handling
Josef Bacik [Fri, 11 Sep 2009 20:12:44 +0000 (16:12 -0400)]
Btrfs: proper -ENOSPC handling

At the start of a transaction we do a btrfs_reserve_metadata_space() and
specify how many items we plan on modifying.  Then once we've done our
modifications and such, just call btrfs_unreserve_metadata_space() for
the same number of items we reserved.

For keeping track of metadata needed for data I've had to add an extent_io op
for when we merge extents.  This lets us track space properly when we are doing
sequential writes, so we don't end up reserving way more metadata space than
what we need.

The only place where the metadata space accounting is not done is in the
relocation code.  This is because Yan is going to be reworking that code in the
near future, so running btrfs-vol -b could still possibly result in a ENOSPC
related panic.  This patch also turns off the metadata_ratio stuff in order to
allow users to more efficiently use their disk space.

This patch makes it so we track how much metadata we need for an inode's
delayed allocation extents by tracking how many extents are currently
waiting for allocation.  It introduces two new callbacks for the
extent_io tree's, merge_extent_hook and split_extent_hook.  These help
us keep track of when we merge delalloc extents together and split them
up.  Reservations are handled prior to any actually dirty'ing occurs,
and then we unreserve after we dirty.

btrfs_unreserve_metadata_for_delalloc() will make the appropriate
unreservations as needed based on the number of reservations we
currently have and the number of extents we currently have.  Doing the
reservation outside of doing any of the actual dirty'ing lets us do
things like filemap_flush() the inode to try and force delalloc to
happen, or as a last resort actually start allocation on all delalloc
inodes in the fs.  This has survived dbench, fs_mark and an fsx torture

Signed-off-by: Josef Bacik <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: hash the btree inode during fill_super
Yan Zheng [Thu, 24 Sep 2009 13:24:43 +0000 (09:24 -0400)]
Btrfs: hash the btree inode during  fill_super

The snapshot deletion  patches dropped this line, but the inode
needs to be hashed.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: relocate file extents in clusters
Yan, Zheng [Thu, 24 Sep 2009 13:17:31 +0000 (09:17 -0400)]
Btrfs: relocate file extents in clusters

The extent relocation code copy file extents one by one when
relocating data block group. This is inefficient if file
extents are small. This patch makes the relocation code copy
file extents in clusters. So we can can make better use of

Signed-off-by: Yan Zheng <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: don't rename file into dummy directory
Yan, Zheng [Thu, 24 Sep 2009 13:17:31 +0000 (09:17 -0400)]
Btrfs: don't rename file into dummy directory

A recent change enforces only one access point to each subvolume. The first
directory entry (the one added when the subvolume/snapshot was created) is
treated as valid access point, all other subvolume links are linked to dummy
empty directories. The dummy directories are temporary inodes that only in
memory, so we can not rename file into them.

Signed-off-by: Yan Zheng <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: check size of inode backref before adding hardlink
Yan, Zheng [Thu, 24 Sep 2009 13:17:31 +0000 (09:17 -0400)]
Btrfs: check size of inode backref before adding hardlink

For every hardlink in btrfs, there is a corresponding inode back
reference. All inode back references for hardlinks in a given
directory are stored in single b-tree item. The size of b-tree item
is limited by the size of b-tree leaf, so we can only create limited
number of hardlinks to a given file in a directory.

The original code lacks of the check, it oops if the number of
hardlinks goes over the limit. This patch fixes the issue by adding
check to btrfs_link and btrfs_rename.

Signed-off-by: Yan Zheng <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix releasepage to avoid unlocking extents we haven't locked
Chris Mason [Thu, 24 Sep 2009 00:28:46 +0000 (20:28 -0400)]
Btrfs: fix releasepage to avoid unlocking extents we haven't locked

During releasepage, we try to drop any extent_state structs for the
bye offsets of the page we're releaseing.  But the code was incorrectly
telling clear_extent_bit to delete the state struct unconditionallly.

Normally this would be fine because we have the page locked, but other
parts of btrfs will lock down an entire extent, the most common place
being IO completion.

releasepage was deleting the extent state without first locking the extent,
which may result in removing a state struct that another process had
locked down.  The fix here is to leave the NODATASUM and EXTENT_LOCKED
bits alone in releasepage.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: Fix test_range_bit for whole file extents
Chris Mason [Thu, 24 Sep 2009 00:23:16 +0000 (20:23 -0400)]
Btrfs: Fix test_range_bit for whole file extents

If test_range_bit finds an extent that goes all the way to (u64)-1, it
can incorrectly wrap the u64 instead of treaing it like the end of
the address space.

This just adds a check for the highest possible offset so we don't wrap.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix errors handling cached state in set/clear_extent_bit
Chris Mason [Wed, 23 Sep 2009 23:51:09 +0000 (19:51 -0400)]
Btrfs: fix errors handling cached state in set/clear_extent_bit

Both set and clear_extent_bit allow passing a cached
state struct to reduce rbtree search times.  clear_extent_bit
was improperly bypassing some of the checks around making sure
the extent state fields were correct for a given operation.

The fix used here (from Yan Zheng) is to use the hit_next
goto target instead of jumping all the way down to start clearing
bits without making sure the cached state was exactly correct
for the operation we were doing.

This also fixes up the setting of the start variable for both
ops in the case where we find an overlapping extent that
begins before the range we want to change.  In both cases
we were incorrectly going backwards from the original
requested change.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix early enospc during balancing
Chris Mason [Tue, 22 Sep 2009 18:48:44 +0000 (14:48 -0400)]
Btrfs: fix early enospc during balancing

We now do extra checks before a balance to make sure
there is room for the balance to take place.  One of
the checks was testing to see if we were trying to
balance away the last block group of a given type.

If there is no space available for new chunks, we
should not try and balance away the last block group
of a give type.  But, the code wasn't checking for
available chunk space, and so it was exiting too soon.

The fix here is to combine some of the checks and make
sure we try to allocate new chunks when we're balancing
the last block group.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: deal with NULL space info
Chris Mason [Tue, 22 Sep 2009 18:45:50 +0000 (14:45 -0400)]
Btrfs: deal with NULL space info

After a balance it is briefly possible for the space info
field in the inode to be NULL.  This adds some checks
to make sure things properly deal with the NULL value.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: account for space used by the super mirrors
Josef Bacik [Fri, 11 Sep 2009 20:11:20 +0000 (16:11 -0400)]
Btrfs: account for space used by the super mirrors

As we get closer to proper -ENOSPC handling in btrfs, we need more accurate
space accounting for the space info's.  Currently we exclude the free space for
the super mirrors, but the space they take up isn't accounted for in any of the
counters.  This patch introduces bytes_super, which keeps track of the amount
of bytes used for a super mirror in the block group cache and space info.  This
makes sure that our free space caclucations will be completely accurate.

Signed-off-by: Josef Bacik <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix extent entry threshold calculation
Josef Bacik [Fri, 11 Sep 2009 20:11:20 +0000 (16:11 -0400)]
Btrfs: fix extent entry threshold calculation

There is a slight problem with the extent entry threshold calculation for the
free space cache.  We only adjust the threshold down as we add bitmaps, but
never actually adjust the threshold up as we add bitmaps.  This means we could
fragment the free space so badly that we end up using all bitmaps to describe
the free space, use all the free space which would result in the bitmaps being
freed, but then go to add free space again as we delete things and immediately
add bitmaps since the extent threshold would still be 0.  Now as we free
bitmaps the extent threshold will be ratcheted up to allow more extent entries
to be added.

Signed-off-by: Josef Bacik <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: remove dead code
Josef Bacik [Fri, 11 Sep 2009 20:11:20 +0000 (16:11 -0400)]
Btrfs: remove dead code

This patch removes a bunch of dead code from the snapshot removal stuff.  It
was confusing me when doing the metadata ENOSPC stuff so I killed it.

Signed-off-by: Josef Bacik <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix bitmap size tracking
Josef Bacik [Fri, 11 Sep 2009 20:11:20 +0000 (16:11 -0400)]
Btrfs: fix bitmap size tracking

When we first go to add free space, we allocate a new info and set the offset
and bytes to the space we are adding.  This is fine, except we actually set the
size of a bitmap as we set the bits in it, so if we add space to a bitmap, we'd
end up counting the same space twice.  This isn't a huge deal, it just makes
the allocator behave weirdly since it will think that a bitmap entry has more
space than it ends up actually having.  I used a BUG_ON() to catch when this
problem happened, and with this patch I no longer get the BUG_ON().

Signed-off-by: Josef Bacik <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: don't keep retrying a block group if we fail to allocate a cluster
Josef Bacik [Fri, 11 Sep 2009 20:11:20 +0000 (16:11 -0400)]
Btrfs: don't keep retrying a block group if we fail to allocate a cluster

The box can get locked up in the allocator if we happen upon a block group
under these conditions:

1) During a commit, so caching threads cannot make progress
2) Our block group currently is in the middle of being cached
3) Our block group currently has plenty of free space in it
4) Our block group is so fragmented that it ends up having no free space chunks
larger than min_bytes calculated by btrfs_find_space_cluster.

What happens is we try and do btrfs_find_space_cluster, which fails because it
is unable to find enough free space chunks that are large than min_bytes and
are close enough together.  Since the block group is not cached we do a
wait_block_group_cache_progress, which waits for the number of bytes we need,
except the block group already has _plenty_ of free space, its just severely
fragmented, so we loop and try again, ad infinitum.  This patch keeps us from
waiting on the block group to finish caching if we failed to find a free space
cluster before.  It also makes sure that we don't even try to find a free space
cluster if we are on our last loop in the allocator, since we will have tried
everything at this point at it is futile.

Signed-off-by: Josef Bacik <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: make balance code choose more wisely when relocating
Josef Bacik [Fri, 11 Sep 2009 20:11:19 +0000 (16:11 -0400)]
Btrfs: make balance code choose more wisely when relocating

Currently, we can panic the box if the first block group we go to move is of a
type where there is no space left to move those extents.  For example, if we
fill the disk up with data, and then we try to balance and we have no room to
move the data nor room to allocate new chunks, we will panic.  Change this by
checking to see if we have room to move this chunk around, and if not, return
-ENOSPC and move on to the next chunk.  This will make sure we remove block
groups that are moveable, like if we have alot of empty metadata block groups,
and then that way we make room to be able to balance our data chunks as well.
Tested this with an fs that would panic on btrfs-vol -b normally, but no longer
panics with this patch.

-actually search for a free extent on the device to make sure we can allocate a
chunk if need be.

-fix btrfs_shrink_device to make sure we actually try to relocate all the
chunks, and then if we can't return -ENOSPC so if we are doing a btrfs-vol -r
we don't remove the device with data still on it.

-check to make sure the block group we are going to relocate isn't the last one
in that particular space

-fix a bug in btrfs_shrink_device where we would change the device's size and
not fix it if we fail to do our relocate

Signed-off-by: Josef Bacik <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix arithmetic error in clone ioctl
Sage Weil [Mon, 21 Sep 2009 20:00:27 +0000 (16:00 -0400)]
Btrfs: fix arithmetic error in clone ioctl

Fix an arithmetic error that was breaking extents cloned via the clone
ioctl starting in the second half of a file.

Signed-off-by: Sage Weil <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: add snapshot/subvolume destroy ioctl
Yan, Zheng [Mon, 21 Sep 2009 20:00:26 +0000 (16:00 -0400)]
Btrfs: add snapshot/subvolume destroy ioctl

This patch adds snapshot/subvolume destroy ioctl.  A subvolume that isn't being
used and doesn't contains links to other subvolumes can be destroyed.

Signed-off-by: Yan Zheng <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: change how subvolumes are organized
Yan, Zheng [Mon, 21 Sep 2009 19:56:00 +0000 (15:56 -0400)]
Btrfs: change how subvolumes are organized

btrfs allows subvolumes and snapshots anywhere in the directory tree.
If we snapshot a subvolume that contains a link to other subvolume
called subvolA, subvolA can be accessed through both the original
subvolume and the snapshot. This is similar to creating hard link to
directory, and has the very similar problems.

The aim of this patch is enforcing there is only one access point to
each subvolume. Only the first directory entry (the one added when
the subvolume/snapshot was created) is treated as valid access point.
The first directory entry is distinguished by checking root forward
reference. If the corresponding root forward reference is missing,
we know the entry is not the first one.

This patch also adds snapshot/subvolume rename support, the code
allows rename subvolume link across subvolumes.

Signed-off-by: Yan Zheng <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: do not reuse objectid of deleted snapshot/subvol
Yan, Zheng [Mon, 21 Sep 2009 19:56:00 +0000 (15:56 -0400)]
Btrfs: do not reuse objectid of deleted snapshot/subvol

The new back reference format does not allow reusing objectid of
deleted snapshot/subvol. So we use ++highest_objectid to allocate
objectid for new snapshot/subvol.

Now we use ++highest_objectid to allocate objectid for both new inode
and new snapshot/subvolume, so this patch removes 'find hole' code in

Signed-off-by: Yan Zheng <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: speed up snapshot dropping
Yan, Zheng [Mon, 21 Sep 2009 19:55:59 +0000 (15:55 -0400)]
Btrfs: speed up snapshot dropping

This patch contains two changes to avoid unnecessary tree block reads during
snapshot dropping.

First, check tree block's reference count and flags before reading the tree
block. if reference count > 1 and there is no need to update backrefs, we can
avoid reading the tree block.

Second, save when snapshot was created in root_key.offset. we can compare block
pointer's generation with snapshot's creation generation during updating
backrefs. If a given block was created before snapshot was created, the
snapshot can't be the tree block's owner. So we can avoid reading the block.

Signed-off-by: Yan Zheng <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: search for an allocation hint while filling file COW
Chris Mason [Fri, 18 Sep 2009 20:07:03 +0000 (16:07 -0400)]
Btrfs: search for an allocation hint while filling file COW

The allocator has some nice knobs for sending hints about where
to try and allocate new blocks, but when we're doing file allocations
we're not sending any hint at all.

This commit adds a simple extent map search to see if we can
quickly and easily find a hint for the allocator.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: properly honor wbc->nr_to_write changes
Chris Mason [Fri, 18 Sep 2009 20:03:16 +0000 (16:03 -0400)]
Btrfs: properly honor wbc->nr_to_write changes

When btrfs fills a delayed allocation, it tries to increase
the wbc nr_to_write to cover a big part of allocation.  The
theory is that we're doing contiguous IO and writing a few
more blocks will save seeks overall at a very low cost.

The problem is that extent_write_cache_pages could ignore
the new higher nr_to_write if nr_to_write had already gone
down to zero.  We fix that by rechecking the nr_to_write
for every page that is processed in the pagevec.

This updates the math around bumping the nr_to_write value
to make sure we don't leave a tiny amount of IO hanging
around for the very end of a new extent.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: improve async block group caching
Yan Zheng [Fri, 11 Sep 2009 20:11:19 +0000 (16:11 -0400)]
Btrfs: improve async block group caching

This patch gets rid of two limitations of async block group caching.
The old code delays handling pinned extents when block group is in
caching. To allocate logged file extents, the old code need wait
until block group is fully cached. To get rid of the limitations,
This patch introduces a data structure to track the progress of
caching. Base on the caching progress, we know which extents should
be added to the free space cache when handling the pinned extents.
The logged file extents are also handled in a similar way.

This patch also changes how pinned extents are tracked. The old
code uses one tree to track pinned extents, and copy the pinned
extents tree at transaction commit time. This patch makes it use
two trees to track pinned extents. One tree for extents that are
pinned in the running transaction, one tree for extents that can
be unpinned. At transaction commit time, we swap the two trees.

Signed-off-by: Yan Zheng <>
Signed-off-by: Chris Mason <>
12 years agoBtrfs: Fix async thread shutdown race
Chris Mason [Wed, 16 Sep 2009 00:02:33 +0000 (20:02 -0400)]
Btrfs: Fix async thread shutdown race

It was possible for an async worker thread to be selected to
receive a new work item, but exit before the work item was
actually placed into that thread's work list.

This commit fixes the race by incrementing the num_pending
counter earlier, and making sure to check the number of pending
work items before a thread exits.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix worker thread double spin_lock_irq
Chris Mason [Wed, 16 Sep 2009 00:00:36 +0000 (20:00 -0400)]
Btrfs: fix worker thread double spin_lock_irq

The exit-on-idle code for async worker threads was incorrectly
calling spin_lock_irq with interrupts already off.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix async worker startup race
Chris Mason [Tue, 15 Sep 2009 23:57:42 +0000 (19:57 -0400)]
Btrfs: fix async worker startup race

After a new worker thread starts, it is placed into the
list of idle threads.  But, this may race with a
check for idle done by the worker thread itself, resulting
in a double list_add operation.

This fix adds a check to make sure the idle thread addition
is done properly.

Signed-off-by: Chris Mason <>
12 years agoMerge branch 'master' of git://
Chris Mason [Fri, 11 Sep 2009 23:07:25 +0000 (19:07 -0400)]
Merge branch 'master' of git://git./linux/kernel/git/mason/btrfs-unstable

12 years agoBtrfs: zero page past end of inline file items
Chris Mason [Fri, 11 Sep 2009 16:36:29 +0000 (12:36 -0400)]
Btrfs: zero page past end of inline file items

When btrfs_get_extent is reading inline file items for readpage,
it needs to copy the inline extent into the page.  If the
inline extent doesn't cover all of the page, that means there
is a hole in the file, or that our file is smaller than one

readpage does zeroing for the case where the file is smaller than one
page, but nobody is currently zeroing for the case where there is
a hole after the inline item.

This commit changes btrfs_get_extent to zero fill the page past
the end of the inline item.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: fix btrfs page_mkwrite to return locked page
Chris Mason [Fri, 11 Sep 2009 16:33:12 +0000 (12:33 -0400)]
Btrfs: fix btrfs page_mkwrite to return locked page

This closes a whole where the page may be written before
the page_mkwrite caller has a chance to dirty it

(thanks to Nick Piggin)

Signed-off-by: Chris Mason <>
12 years agoBtrfs: Fix extent replacment race
Chris Mason [Fri, 11 Sep 2009 16:27:37 +0000 (12:27 -0400)]
Btrfs: Fix extent replacment race

Data COW means that whenever we write to a file, we replace any old
extent pointers with new ones.  There was a window where a readpage
might find the old extent pointers on disk and cache them in the
extent_map tree in ram in the middle of a given write replacing them.

Even though both the readpage and the write had their respective bytes
in the file locked, the extent readpage inserts may cover more bytes than
it had locked down.

This commit closes the race by keeping the new extent pinned in the extent
map tree until after the on-disk btree is properly setup with the new
extent pointers.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: Use PagePrivate2 to track pages in the data=ordered code.
Chris Mason [Wed, 2 Sep 2009 20:53:46 +0000 (16:53 -0400)]
Btrfs: Use PagePrivate2 to track pages in the data=ordered code.

Btrfs writes go through delalloc to the data=ordered code.  This
makes sure that all of the data is on disk before the metadata
that references it.  The tracking means that we have to make sure
each page in an extent is fully written before we add that extent into
the on-disk btree.

This was done in the past by setting the EXTENT_ORDERED bit for the
range of an extent when it was added to the data=ordered code, and then
clearing the EXTENT_ORDERED bit in the extent state tree as each page
finished IO.

One of the reasons we had to do this was because sometimes pages are
magically dirtied without page_mkwrite being called.  The EXTENT_ORDERED
bit is checked at writepage time, and if it isn't there, our page become
dirty without going through the proper path.

These bit operations make for a number of rbtree searches for each page,
and can cause considerable lock contention.

This commit switches from the EXTENT_ORDERED bit to use PagePrivate2.
As pages go into the ordered code, PagePrivate2 is set on each one.
This is a cheap operation because we already have all the pages locked
and ready to go.

As IO finishes, the PagePrivate2 bit is cleared and the ordered
accoutning is updated for each page.

At writepage time, if the PagePrivate2 bit is missing, we go into the
writepage fixup code to handle improperly dirtied pages.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: use a cached state for extent state operations during delalloc
Chris Mason [Wed, 2 Sep 2009 19:22:30 +0000 (15:22 -0400)]
Btrfs: use a cached state for extent state operations during delalloc

This changes the btrfs code to find delalloc ranges in the extent state
tree to use the new state caching code from set/test bit.  It reduces
one of the biggest causes of rbtree searches in the writeback path.

test_range_bit is also modified to take the cached state as a starting
point while searching.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: don't lock bits in the extent tree during writepage
Chris Mason [Wed, 2 Sep 2009 19:11:07 +0000 (15:11 -0400)]
Btrfs: don't lock bits in the extent tree during writepage

At writepage time, we have the page locked and we have the
extent_map entry for this extent pinned in the extent_map tree.
So, the page can't go away and its mapping can't change.

There is no need for the extra extent_state lock bits during writepage.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: cache values for locking extents
Chris Mason [Wed, 2 Sep 2009 19:04:12 +0000 (15:04 -0400)]
Btrfs: cache values for locking extents

Many of the btrfs extent state tree users follow the same pattern.
They lock an extent range in the tree, do some operation and then

This translates to at least 2 rbtree searches, and maybe more if they
are doing operations on the extent state tree.  A locked extent
in the tree isn't going to be merged or changed, and so we can
safely return the extent state structure as a cached handle.

This changes set_extent_bit to give back a cached handle, and also
changes both set_extent_bit and clear_extent_bit to use the cached
handle if it is available.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: reduce CPU usage in the extent_state tree
Chris Mason [Wed, 2 Sep 2009 17:24:36 +0000 (13:24 -0400)]
Btrfs: reduce CPU usage in the extent_state tree

Btrfs is currently mirroring some of the page state bits into
its extent state tree.  The goal behind this was to use it in supporting
blocksizes other than the page size.

But, we don't currently support that, and we're using quite a lot of CPU
on the rb tree and its spin lock.  This commit starts a series of
cleanups to reduce the amount of work done in the extent state tree as
part of each IO.

This commit:

* Adds the ability to lock an extent in the state tree and also set
other bits.  The idea is to do locking and delalloc in one call

* Removes the EXTENT_WRITEBACK and EXTENT_DIRTY bits.  Btrfs is using
a combination of the page bits and the ordered write code for this

Signed-off-by: Chris Mason <>
12 years agoBtrfs: Fix new state initialization order
Chris Mason [Fri, 11 Sep 2009 15:25:02 +0000 (11:25 -0400)]
Btrfs: Fix new state initialization order

As the extent state tree is manipulated, there are call backs
that are used to take extra actions when different state bits are set
or cleared.  One example of this is a counter for the total number
of delayed allocation bytes in a single inode and in the whole FS.

When new states are inserted, this callback is being done before we
properly setup the new state.  This hasn't caused problems before
because the lock bit was always done first, and the existing call backs
don't care about the lock bit.

This patch makes sure the state is properly setup before using the
callback, which is important for later optimizations that do more work
without using the lock bit.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: switch extent_map to a rw lock
Chris Mason [Wed, 2 Sep 2009 20:24:52 +0000 (16:24 -0400)]
Btrfs: switch extent_map to a rw lock

There are two main users of the extent_map tree.  The
first is regular file inodes, where it is evenly spread
between readers and writers.

The second is the chunk allocation tree, which maps blocks from
logical addresses to phyiscal ones, and it is 99.99% reads.

The mapping tree is a point of lock contention during heavy IO
workloads, so this commit switches things to a rw lock.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: tweak congestion backoff
Chris Mason [Fri, 7 Aug 2009 13:59:15 +0000 (09:59 -0400)]
Btrfs: tweak congestion backoff

The btrfs io submission thread tries to back off congested devices in
favor of rotating off to another disk.

But, it tries to make sure it submits at least some IO before rotating
on (the others may be congested too), and so it has a magic number of
requests it tries to write before it hops.

This makes the magic number smaller.  Testing shows that we're spending
too much time on congested devices and leaving the other devices idle.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: use larger nr_to_write for larger extents
Chris Mason [Fri, 7 Aug 2009 13:28:20 +0000 (09:28 -0400)]
Btrfs: use larger nr_to_write for larger extents

When btrfs fills a large delayed allocation extent, it is a good idea
to try and convince the write_cache_pages caller to go ahead and
write a good chunk of that extent.  The extra IO is basically free
because we know it is contiguous.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: reduce worker thread spin_lock_irq hold times
Chris Mason [Fri, 7 Aug 2009 13:27:38 +0000 (09:27 -0400)]
Btrfs: reduce worker thread spin_lock_irq hold times

This changes the btrfs worker threads to batch work items
into a local list.  It allows us to pull work items in
large chunks and significantly reduces the number of times we
need to take the worker thread spinlock.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: keep irqs on more often in the worker threads
Chris Mason [Wed, 5 Aug 2009 20:36:45 +0000 (16:36 -0400)]
Btrfs: keep irqs on more often in the worker threads

The btrfs worker thread spinlock was being used both for the
queueing of IO and for the processing of ordered events.

The ordered events never happen from end_io handlers, and so they
don't need to use the _irq version of spinlocks.  This adds a
dedicated lock to the ordered lists so they don't have to run
with irqs off.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: optimize set extent bit
Chris Mason [Wed, 5 Aug 2009 16:57:59 +0000 (12:57 -0400)]
Btrfs: optimize set extent bit

The Btrfs set_extent_bit call currently searches the rbtree
every time it needs to find more extent_state objects to fill
the requested operation.

This adds a simple test with rb_next to see if the next object
in the tree was adjacent to the one we just found.  If so,
we skip the search and just use the next object.

Signed-off-by: Chris Mason <>
12 years agoBtrfs: Allow worker threads to exit when idle
Chris Mason [Tue, 4 Aug 2009 20:56:34 +0000 (16:56 -0400)]
Btrfs: Allow worker threads to exit when idle

The Btrfs worker threads don't currently die off after they have
been idle for a while, leading to a lot of threads sitting around
doing nothing for each mount.

Also, they are unable to start atomically (from end_io hanlders).

This commit reworks the worker threads so they can be started
from end_io handlers (just setting a flag that asks for a thread
to be added at a later date) and so they can exit if they
have been idle for a long time.

Signed-off-by: Chris Mason <>
12 years agoLinux 2.6.31
Linus Torvalds [Wed, 9 Sep 2009 22:13:59 +0000 (15:13 -0700)]
Linux 2.6.31

12 years agoaoe: allocate unused request_queue for sysfs
Ed Cashin [Wed, 9 Sep 2009 12:10:18 +0000 (14:10 +0200)]
aoe: allocate unused request_queue for sysfs

Andy Whitcroft reported an oops in aoe triggered by use of an
incorrectly initialised request_queue object:

  [ 2645.959090] kobject '<NULL>' (ffff880059ca22c0): tried to add
an uninitialized object, something is seriously wrong.
  [ 2645.959104] Pid: 6, comm: events/0 Not tainted 2.6.31-5-generic #24-Ubuntu
  [ 2645.959107] Call Trace:
  [ 2645.959139] [<ffffffff8126ca2f>] kobject_add+0x5f/0x70
  [ 2645.959151] [<ffffffff8125b4ab>] blk_register_queue+0x8b/0xf0
  [ 2645.959155] [<ffffffff8126043f>] add_disk+0x8f/0x160
  [ 2645.959161] [<ffffffffa01673c4>] aoeblk_gdalloc+0x164/0x1c0 [aoe]

The request queue of an aoe device is not used but can be allocated in
code that does not sleep.

Bruno bisected this regression down to


  block: Expose stacked device queues in sysfs

"This seems to generate /sys/block/$device/queue and its contents for
 everyone who is using queues, not just for those queues that have a
 non-NULL queue->request_fn."


Note that embedding a queue inside another object has always been
an illegal construct, since the queues are reference counted and
must persist until the last reference is dropped. So aoe was
always buggy in this respect (Jens).

Signed-off-by: Ed Cashin <>
Cc: Andy Whitcroft <>
Cc: "Rafael J. Wysocki" <>
Cc: Bruno Premont <>
Cc: Martin K. Petersen <>
Cc: Andrew Morton <>
Signed-off-by: Jens Axboe <>
12 years agoi915: disable interrupts before tearing down GEM state
Linus Torvalds [Wed, 9 Sep 2009 00:09:24 +0000 (17:09 -0700)]
i915: disable interrupts before tearing down GEM state

Reinette Chatre reports a frozen system (with blinking keyboard LEDs)
when switching from graphics mode to the text console, or when
suspending (which does the same thing). With netconsole, the oops
turned out to be

BUG: unable to handle kernel NULL pointer dereference at 0000000000000084
IP: [<ffffffffa03ecaab>] i915_driver_irq_handler+0x26b/0xd20 [i915]

and it's due to the i915_gem.c code doing drm_irq_uninstall() after
having done i915_gem_idle(). And the i915_gem_idle() path will do

  i915_gem_idle() ->
    i915_gem_cleanup_ringbuffer() ->
      i915_gem_cleanup_hws() ->
        dev_priv->hw_status_page = NULL;

but if an i915 interrupt comes in after this stage, it may want to
access that hw_status_page, and gets the above NULL pointer dereference.

And since the NULL pointer dereference happens from within an interrupt,
and with the screen still in graphics mode, the common end result is
simply a silently hung machine.

Fix it by simply uninstalling the irq handler before idling rather than
after. Fixes

Reported-and-tested-by: Reinette Chatre <>
Acked-by: Jesse Barnes <>
Signed-off-by: Linus Torvalds <>
12 years agodrm/i915: fix mask bits setting
Zhenyu Wang [Tue, 8 Sep 2009 06:52:25 +0000 (14:52 +0800)]
drm/i915: fix mask bits setting

eDP is exclusive connector too, and add missing crtc_mask
setting for TV.

This fixes

Signed-off-by: Zhenyu Wang <>
Reported-and-tested-by: Carlos R. Mafra <>
Signed-off-by: Linus Torvalds <>
12 years agoMerge branch 'drm-fixes' of git://
Linus Torvalds [Mon, 7 Sep 2009 18:42:25 +0000 (11:42 -0700)]
Merge branch 'drm-fixes' of git://git./linux/kernel/git/airlied/drm-2.6

* 'drm-fixes' of git://
  drm/radeon/kms: add LTE/GTE discard + rv515 two sided stencil register.

12 years agoMerge branch 'for-linus' of git://
Linus Torvalds [Mon, 7 Sep 2009 18:41:15 +0000 (11:41 -0700)]
Merge branch 'for-linus' of git://git./linux/kernel/git/jmorris/security-testing-2.6

* 'for-linus' of git://
  IMA: update ima_counts_put

12 years agoMerge git://
Linus Torvalds [Mon, 7 Sep 2009 18:40:24 +0000 (11:40 -0700)]
Merge git://git./linux/kernel/git/davem/net-2.6

* git://
  gianfar: Fix build.

12 years agoMerge git://
Linus Torvalds [Mon, 7 Sep 2009 18:40:15 +0000 (11:40 -0700)]
Merge git://git./linux/kernel/git/davem/ide-2.6

* git://
  pcmcia: add CNF-CDROM-ID for ide

12 years agoMerge branch 'for-linus' of git://
Linus Torvalds [Mon, 7 Sep 2009 18:38:30 +0000 (11:38 -0700)]
Merge branch 'for-linus' of git://git./linux/kernel/git/anholt/drm-intel

* 'for-linus' of git://
  agp/intel: support for new chip variant of IGDNG mobile
  drm/i915: Unref old_obj on get_fence_reg() error path
  drm/i915: increase default latency constant (v2 w/comment)

12 years agodrm/radeon/kms: add LTE/GTE discard + rv515 two sided stencil register.
Dave Airlie [Mon, 7 Sep 2009 05:26:19 +0000 (15:26 +1000)]
drm/radeon/kms: add LTE/GTE discard + rv515 two sided stencil register.

This adds some rv350+ register for LTE/GTE discard,
and enables the rv515 two sided stencil register.
It also disables the DEPTHXY_OFFSET register which
can be used to workaround the CS checker.
Moves rs690 to proper place in rs600 and uses correct
table on rs600.

Signed-off-by: Dave Airlie <>
12 years agoIMA: update ima_counts_put
Mimi Zohar [Fri, 4 Sep 2009 17:08:46 +0000 (13:08 -0400)]
IMA: update ima_counts_put

- As ima_counts_put() may be called after the inode has been freed,
verify that the inode is not NULL, before dereferencing it.

- Maintain the IMA file counters in may_open() properly, decrementing
any counter increments on subsequent errors.

Reported-by: Ciprian Docan <>
Reported-by: J.R. Okajima <>
Signed-off-by: Mimi Zohar <>
Acked-by: Eric Paris <
Signed-off-by: James Morris <>
12 years agogianfar: Fix build.
David S. Miller [Sun, 6 Sep 2009 08:41:02 +0000 (01:41 -0700)]
gianfar: Fix build.

Reported by Michael Guntsche <>

38bddf04bcfe661fbdab94888c3b72c32f6873b3 gianfar: gfar_remove needs to call unregister_netdev()

breaks the build of the gianfar driver because "dev" is undefined in
this function. To quickly test rc9 I changed this to priv->ndev but I do
not know if this is the correct one.

Signed-off-by: David S. Miller <>
12 years agoLinux 2.6.31-rc9
Linus Torvalds [Sat, 5 Sep 2009 23:38:12 +0000 (16:38 -0700)]
Linux 2.6.31-rc9

12 years agoMerge branch 'for-linus' of git://
Linus Torvalds [Sat, 5 Sep 2009 21:59:00 +0000 (14:59 -0700)]
Merge branch 'for-linus' of git://git./linux/kernel/git/ieee1394/linux1394-2.6

* 'for-linus' of git://
  firewire: sbp2: fix freeing of unallocated memory
  firewire: ohci: fix Ricoh R5C832, video reception
  firewire: ohci: fix Agere FW643 and multiple cameras
  firewire: core: fix crash in iso resource management

12 years agopowerpc: Fix i8259 interrupt driver kernel crash on ML510
Roderick Colenbrander [Thu, 3 Sep 2009 15:57:23 +0000 (09:57 -0600)]
powerpc: Fix i8259 interrupt driver kernel crash on ML510

This patch fixes a null pointer exception caused by removal of
'ack()' for level interrupts in the Xilinx interrupt driver.  A recent
change to the xilinx interrupt controller removed the ack hook for
level irqs.

Signed-off-by: Roderick Colenbrander <>
Signed-off-by: Grant Likely <>
Acked-by: Benjamin Herrenschmidt <>
Signed-off-by: Linus Torvalds <>
12 years agoMerge git://
Linus Torvalds [Sat, 5 Sep 2009 21:57:04 +0000 (14:57 -0700)]
Merge git://

* git://
  JFFS2: add missing verify buffer allocation/deallocation
  mtd: nftl: fix offset alignments
  mtd: nftl: write support is broken
  mtd: m25p80: fix null pointer dereference bug

12 years agoMerge branch 'for-linus' of git://
Linus Torvalds [Sat, 5 Sep 2009 21:56:13 +0000 (14:56 -0700)]
Merge branch 'for-linus' of git://

* 'for-linus' of git://
  block: Allow changing max_sectors_kb above the default 512