Django's database layer provides various ways to help developers get the most out of their databases. This document gathers together links to the relevant documentation, and adds various tips, organized under a number of headings that outline the steps to take when attempting to optimize your database usage.
一般的なプログラミング手法と同様に、これは言うまでもないことです。どんなクエリを実行し何がコストなのか を判別してください。QuerySet.explain()
を使用し、データベース上で特定の QuerySet
がどのように実行されるかを理解してください。また、django-debug-toolbar といった外部のプロジェクトや、データベースを直接監視するツールを使うのもいいでしょう。
要件に従って、速度またはメモリ、およびその両方を最適化することができます。片方を最適化することは、もう片方に悪影響を及ぼすことがありますが、互いに助けになることもあります。また、データベースプロセスによって行われる処理と Python のプロセスによる処理は (あなたにとって) 必ずしも同等のコストとはなりません。その優先順位とバランスを決めるのはあなた自身です。そして、その設計はアプリケーションやサーバーに依存するため、要求通りに設計するのもあなたの仕事です。
以下で紹介する項目すべてにおいて、あらゆる変更の後に忘れずに分析を行い、施した変更が有益だったこと、およびその恩恵が可読性の低下を十分上回ることを確認してください。以下の すべて の提案において、一般的な原則があなたの状況に当てはまらない可能性があること、それどころか逆効果になりかねない可能性さえあることに十分注意してください。
以下のようなものが上げられます:
Meta.indexes
or
Field.db_index
to add these from
Django. Consider adding indexes to fields that you frequently query using
filter()
,
exclude()
,
order_by()
, etc. as indexes may help
to speed up lookups. Note that determining the best indexes is a complex
database-dependent topic that will depend on your particular application.
The overhead of maintaining an index may outweigh any gains in query speed.We will assume you have done the things listed above. The rest of this document focuses on how to use Django in such a way that you are not doing unnecessary work. This document also does not address other optimization techniques that apply to all expensive operations, such as general purpose caching.
QuerySet
を理解する¶QuerySet を理解することは、シンプルなコードでパフォーマンスを上げるために極めて重要です。特に:
QuerySet
の評価を理解する¶パフォーマンスの問題を回避するには、以下を理解することが重要です:
As well as caching of the whole QuerySet
, there is caching of the result of
attributes on ORM objects. In general, attributes that are not callable will be
cached. For example, assuming the example blog models:
>>> entry = Entry.objects.get(id=1)
>>> entry.blog # Blog object is retrieved at this point
>>> entry.blog # cached version, no DB access
その一方で、通常呼び出し可能な属性は毎回 DB の検索を引き起こします:
>>> entry = Entry.objects.get(id=1)
>>> entry.authors.all() # query performed
>>> entry.authors.all() # query performed again
テンプレート上のコードを読む際には注意が必要です - テンプレートシステムは括弧を許容していませんが、呼び出し可能なオブジェクトは自動的に呼び出されるので、上記の区別が隠れてしまいます。
独自のプロパティにも注意が必要です - 必要なときにキャッシングを実装するのはあなた次第です。たとえば cached_property
デコレータを使用します。
iterator()
を使用する¶多くのオブジェクトを扱う際には、QuerySet
のキャッシング動作に多くのメモリが使われる可能性があります。この場合、iterator()
が有用です。
explain()
を使用する¶QuerySet.explain()
を使うと、使用されているインデックスや結合など、データベースがクエリをどのように実行しているのか、詳細な情報を得られます。この詳細情報は、より効率的になるようにクエリを書き換えたり、パフォーマンスを向上させるために追加できるインデックスを特定するのに役立ちます。
例えば:
F expressions
を使い、同一モデル内で他のフィールドに基づくフィルタリングを行います。必要な SQL を生成するのに不十分な場合は:
モデルの取り出しおよび書き込みをするための独自の SQL を記述します。django.db.connection.queries
を使い、Django があなたのために何を書いているのかを理解して、それを元に始めてください。
get()
を使って個別オブジェクトを取得する際に、unique
や db_index
が設定された列を使用するのには 2 つの理由があります。1 つは、データベースインデックスにより受け里が高速になるからです。加えて、複数のオブジェクトが検索にマッチするとクエリは遅くなります; 列にユニーク制限をかけることでこれを完全に防ぐことができます。
So using the example blog models:
>>> entry = Entry.objects.get(id=10)
上記は以下よりも高速です:
>>> entry = Entry.objects.get(headline="News Item Title")
これは、id
がデータベースによってインデックス化されていて、ユニークだと保証されているからです。
以下のようにすると非常に遅くなる恐れがあります:
>>> entry = Entry.objects.get(headline__startswith="News")
まず第一に、headline
はインデックス化されておらず、データベースのデータ取り出しを遅くします。
そして第二に、この検索では単一のオブジェクトが返されることは保証されません。クエリが 1 つ以上のオブジェクトと一致する場合、すべてのオブジェクトをデータベースから取り出して転送します。この余分な負荷は、100 とか 1000 といった多量のレコードが返されるときには相当な量になります。データベースが複数のサーバーによって構成される場合、ネットワークのオーバーヘッドと待ち時間が発生するため、この負荷はさらに大きくなります。
すべての部分を必要とする単一のデータセットの異なる部分に対してデータベースを何度もヒットするのは、一般的に、1 つのクエリですべてを取得するよりも非効率です。 これは、1 つのクエリだけが必要なときにループ内でクエリを実行し、その結果何度もデータベースクエリを実行することになってしまう場合に、特に重要となります。そこで:
QuerySet.values()
や values_list()
を使用する¶When you only want a dict
or list
of values, and don't need ORM model
objects, make appropriate usage of
values()
.
These can be useful for replacing model objects in template code - as long as
the dicts you supply have the same attributes as those used in the template,
you are fine.
QuerySet.defer()
や only()
を使用する¶Use defer()
and
only()
if there are database columns
you know that you won't need (or won't need in most cases) to avoid loading
them. Note that if you do use them, the ORM will have to go and get them in
a separate query, making this a pessimization if you use it inappropriately.
Don't be too aggressive in deferring fields without profiling as the database
has to read most of the non-text, non-VARCHAR data from the disk for a single
row in the results, even if it ends up only using a few columns. The
defer()
and only()
methods are most useful when you can avoid loading a
lot of text data or for fields that might take a lot of processing to convert
back to Python. As always, profile first, then optimize.
QuerySet.contains(obj)
¶...if you only want to find out if obj
is in the queryset, rather than
if obj in queryset
.
QuerySet.count()
¶...if you only want the count, rather than doing len(queryset)
.
QuerySet.exists()
¶...if you only want to find out if at least one result exists, rather than if
queryset
.
But:
contains()
, count()
, and exists()
¶If you are going to need other data from the QuerySet, evaluate it immediately.
For example, assuming a Group
model that has a many-to-many relation to
User
, the following code is optimal:
members = group.members.all()
if display_group_members:
if members:
if current_user in members:
print("You and", len(members) - 1, "other users are members of this group.")
else:
print("There are", len(members), "members in this group.")
for member in members:
print(member.username)
else:
print("There are no members in this group.")
It is optimal because:
display_group_members
is False
.group.members.all()
in the members
variable allows its
result cache to be re-used.if members:
causes QuerySet.__bool__()
to be called, which
causes the group.members.all()
query to be run on the database. If there
aren't any results, it will return False
, otherwise True
.if current_user in members:
checks if the user is in the result
cache, so no additional database queries are issued.len(members)
calls QuerySet.__len__()
, reusing the result
cache, so again, no database queries are issued.for member
loop iterates over the result cache.In total, this code does either one or zero database queries. The only
deliberate optimization performed is using the members
variable. Using
QuerySet.exists()
for the if
, QuerySet.contains()
for the in
,
or QuerySet.count()
for the count would each cause additional queries.
QuerySet.update()
and delete()
¶Rather than retrieve a load of objects, set some values, and save them individual, use a bulk SQL UPDATE statement, via QuerySet.update(). Similarly, do bulk deletes where possible.
Note, however, that these bulk update methods cannot call the save()
or
delete()
methods of individual instances, which means that any custom
behavior you have added for these methods will not be executed, including
anything driven from the normal database object signals.
If you only need a foreign key value, use the foreign key value that is already on the object you've got, rather than getting the whole related object and taking its primary key. i.e. do:
entry.blog_id
instead of:
entry.blog.id
Ordering is not free; each field to order by is an operation the database must
perform. If a model has a default ordering (Meta.ordering
) and you don't need it, remove
it on a QuerySet
by calling
order_by()
with no parameters.
Adding an index to your database may help to improve ordering performance.
Use bulk methods to reduce the number of SQL statements.
When creating objects, where possible, use the
bulk_create()
method to reduce the
number of SQL queries. For example:
Entry.objects.bulk_create([
Entry(headline='This is a test'),
Entry(headline='This is only a test'),
])
...is preferable to:
Entry.objects.create(headline='This is a test')
Entry.objects.create(headline='This is only a test')
Note that there are a number of caveats to this method
, so make sure it's appropriate
for your use case.
When updating objects, where possible, use the
bulk_update()
method to reduce the
number of SQL queries. Given a list or queryset of objects:
entries = Entry.objects.bulk_create([
Entry(headline='This is a test'),
Entry(headline='This is only a test'),
])
The following example:
entries[0].headline = 'This is not a test'
entries[1].headline = 'This is no longer a test'
Entry.objects.bulk_update(entries, ['headline'])
...is preferable to:
entries[0].headline = 'This is not a test'
entries[0].save()
entries[1].headline = 'This is no longer a test'
entries[1].save()
Note that there are a number of caveats to this method
, so make sure it's appropriate
for your use case.
When inserting objects into ManyToManyFields
, use
add()
with multiple
objects to reduce the number of SQL queries. For example:
my_band.members.add(me, my_friend)
...is preferable to:
my_band.members.add(me)
my_band.members.add(my_friend)
...where Bands
and Artists
have a many-to-many relationship.
When inserting different pairs of objects into
ManyToManyField
or when the custom
through
table is defined, use
bulk_create()
method to reduce the
number of SQL queries. For example:
PizzaToppingRelationship = Pizza.toppings.through
PizzaToppingRelationship.objects.bulk_create([
PizzaToppingRelationship(pizza=my_pizza, topping=pepperoni),
PizzaToppingRelationship(pizza=your_pizza, topping=pepperoni),
PizzaToppingRelationship(pizza=your_pizza, topping=mushroom),
], ignore_conflicts=True)
...is preferable to:
my_pizza.toppings.add(pepperoni)
your_pizza.toppings.add(pepperoni, mushroom)
...where Pizza
and Topping
have a many-to-many relationship. Note that
there are a number of caveats to this method
, so make sure it's appropriate
for your use case.
When removing objects from ManyToManyFields
, use
remove()
with multiple
objects to reduce the number of SQL queries. For example:
my_band.members.remove(me, my_friend)
...is preferable to:
my_band.members.remove(me)
my_band.members.remove(my_friend)
...where Bands
and Artists
have a many-to-many relationship.
When removing different pairs of objects from ManyToManyFields
, use
delete()
on a
Q
expression with multiple
through
model instances to reduce
the number of SQL queries. For example:
from django.db.models import Q
PizzaToppingRelationship = Pizza.toppings.through
PizzaToppingRelationship.objects.filter(
Q(pizza=my_pizza, topping=pepperoni) |
Q(pizza=your_pizza, topping=pepperoni) |
Q(pizza=your_pizza, topping=mushroom)
).delete()
...is preferable to:
my_pizza.toppings.remove(pepperoni)
your_pizza.toppings.remove(pepperoni, mushroom)
...where Pizza
and Topping
have a many-to-many relationship.
2022年6月01日