通过SQL了解Django中的分组依据-Django QuerySet和SQL并排

在任何类型的ORM中，聚合都是造成混乱的根源，而Django也是如此。该文档提供了各种示例和备忘单，它们演示了如何使用ORM对数据进行分组和聚合，但是我决定从另一个角度进行研究。

在本文中，我将QuerySet和SQL并排放置。如果您最喜欢SQL，那么这是适合您的Django GROUP BY速查表。

如何在Django中分组
为了演示不同的GROUP BY查询，我将使用Django内置的django.contrib.auth应用程序中的模型。

>>> from django.contrib.auth.models import User

1	>>> from django.contrib.auth.models import User

Django ORM生成带有长别名的SQL语句。为简便起见，我将展示Django执行的内容的经过整理的等效版本。

要查看Django实际执行的SQL，可以在Django设置中打开SQL日志记录。

如何计算行数▶
让我们计算一下我们有多少用户：

SELECT
    COUNT(*)
FROM
    auth_user;

-----------------

User.objects.count()

SELECT

COUNT(*)

FROM

auth_user;

-----------------

User.objects.count()

对行进行计数非常普遍，以至于Django在QuerySet上就为其包含了一个函数。与其他查询集不同，计数将返回一个数字。

如何使用汇总功能▶
Django提供了两种其他方法来对表中的行进行计数。

我们将从聚合开始：

SELECT
    COUNT(id) AS id__count
FROM
    auth_user;

---------------------------------

from django.db.models import Count
User.objects.aggregate(Count('id'))

SELECT

COUNT(id) AS id__count

FROM

auth_user;

---------------------------------

from django.db.models import Count

User.objects.aggregate(Count('id'))

为了使用聚合，我们导入了聚合函数Count。该函数接受要计数的表达式。在这种情况下，我们使用主键列ID的名称来计数表中的所有行。

聚合的结果是一个字典：

>>> from django.db.models import Count
>>> User.objects.aggregate(Count('id'))
{"id__count": 891}

>>> from django.db.models import Count

>>> User.objects.aggregate(Count('id'))

{"id__count": 891}

键的名称是从字段名称和聚合名称派生的。在这种情况下，它是id__count。最好不要使用此命名约定，而要提供自己的名称：

SELECT
    COUNT(id) as total
FROM
    auth_user;

---------------------------------

>>> from django.db.models import Count
>>> User.objects.aggregate(total=Count('id'))
{"total": 891}

SELECT

COUNT(id) as total

FROM

auth_user;

---------------------------------

>>> from django.db.models import Count

>>> User.objects.aggregate(total=Count('id'))

{"total": 891}

要聚合的参数的名称也是结果字典中键的名称。

如何分组
使用聚合，我们得到了将聚合函数应用于整个表的结果。这很有用，但通常我们希望将聚合应用于行组。

让我们根据用户的活动状态来对其进行计数：

SELECT
    is_active,
    COUNT(id) AS total
FROM
    auth_user
GROUP BY
    is_active

------------------------------------

(User.objects
.values('is_active')
.annotate(total=Count('id')))

SELECT

is_active,

COUNT(id) AS total

FROM

auth_user

GROUP BY

is_active

------------------------------------

(User.objects

.values('is_active')

.annotate(total=Count('id')))

这次我们使用了函数注释。为了产生GROUP BY，我们使用值和注释的组合：

values（’is_active’）：分组依据
annotate（total = Count（’id’））：要汇总的内容
顺序很重要：在注释前调用值不会产生合计结果。

就像聚合一样，要注释的参数名称是求值的QuerySet的键。在这种情况下，总计。

如何使用分组依据筛选查询集▶
要将聚合应用于过滤的查询，可以在查询中的任何位置使用过滤器。例如，仅按职员用户的活动状态计数：

SELECT
    is_active,
    COUNT(id) AS total
FROM
    auth_user
WHERE
    is_staff = True
GROUP BY
    is_active

---------------------------------------

(User.objects
.values('is_active')
.filter(is_staff=True)
.annotate(total=Count('id')))

SELECT

is_active,

COUNT(id) AS total

FROM

auth_user

WHERE

is_staff = True

GROUP BY

is_active

---------------------------------------

(User.objects

.values('is_active')

.filter(is_staff=True)

.annotate(total=Count('id')))

如何使用分组依据对查询集进行排序▶
像过滤器一样，要对查询集进行排序，请在查询中的任何位置使用order_by：

SELECT
    is_active,
    COUNT(id) AS total
FROM
    auth_user
GROUP BY
    is_active
ORDER BY
    is_active,
    total

---------------------------------------------

(User.objects
.values('is_active')
.annotate(total=Count('id'))
.order_by('is_staff', 'total'))

SELECT

is_active,

COUNT(id) AS total

FROM

auth_user

GROUP BY

is_active

ORDER BY

is_active,

total

---------------------------------------------

(User.objects

.values('is_active')

.annotate(total=Count('id'))

.order_by('is_staff', 'total'))

请注意，您可以同时按GROUP BY键和聚合字段进行排序。

如何合并多个聚合▶
要产生同一组的多个聚合，请添加多个注释：

SELECT
    is_active,
    COUNT(id) AS total,
    MAX(date_joined) AS last_joined
FROM
    auth_user
GROUP BY
    is_active
from django.db.models import Max

----------------------------------------------

(User.objects
.values('is_active')
.annotate(
    total=Count('id'),
    last_joined=Max('date_joined'),
))

SELECT

is_active,

COUNT(id) AS total,

MAX(date_joined) AS last_joined

FROM

auth_user

GROUP BY

is_active

from django.db.models import Max

----------------------------------------------

(User.objects

.values('is_active')

.annotate(

total=Count('id'),

last_joined=Max('date_joined'),

))

该查询将产生活动和不活动用户的数量，以及每个组中用户加入的最后日期。

如何按多个字段分组▶
就像执行多个聚合一样，我们可能还想按多个字段分组。例如，按活动状态和人员状态分组：

SELECT
    is_active,
    is_staff,
    COUNT(id) AS total
FROM
    auth_user
GROUP BY
    is_active,
    is_staff

------------------------------------

(User.objects
.values('is_active', 'is_staff')
.annotate(total=Count('id')))

SELECT

is_active,

is_staff,

COUNT(id) AS total

FROM

auth_user

GROUP BY

is_active,

is_staff

------------------------------------

(User.objects

.values('is_active', 'is_staff')

.annotate(total=Count('id')))

该查询的结果包括is_active，is_staff和每个组中的用户数。

如何按表情分组▶
GROUP BY的另一个常见用例是按表达式分组。例如，计算每年加入的用户数：

SELECT
    EXTRACT('year' FROM date_joined),
    COUNT(id) AS total
FROM
    auth_user
GROUP BY
    EXTRACT('year' FROM date_joined)

------------------------------------------

(User.objects
.values('date_joined__year')
.annotate(total=Count('id')))

SELECT

EXTRACT('year' FROM date_joined),

COUNT(id) AS total

FROM

auth_user

GROUP BY

EXTRACT('year' FROM date_joined)

------------------------------------------

(User.objects

.values('date_joined__year')

.annotate(total=Count('id')))

请注意，为了从日期开始获取年份，我们在第一次调用values（）时使用了特殊表达式<field> __ year。查询的结果是一个dict，键的名称将为date_joined__year。

有时，内置表达式还不够，您需要汇总更复杂的表达式。例如，对自注册后登录的用户进行分组：

SELECT
  last_login > date_joined AS logged_since_joined,
  COUNT(id) AS total
FROM
  auth_user
GROUP BY
  last_login > date_joined

------------------------------------------

from django.db.models import (
    ExpressionWrapper,
    Q, F, BooleanField,
)

(User.objects
.annotate(
    logged_since_joined=ExpressionWrapper(
        Q(last_login__gt=F('date_joined')),
        output_field=BooleanField(),
    )
)
.values('logged_since_joined')
.annotate(total=Count('id'))
.values('logged_since_joined', 'total')

SELECT

last_login > date_joined AS logged_since_joined,

COUNT(id) AS total

FROM

auth_user

GROUP BY

last_login > date_joined

------------------------------------------

from django.db.models import (

ExpressionWrapper,

Q, F, BooleanField,

)

(User.objects

.annotate(

logged_since_joined=ExpressionWrapper(

Q(last_login__gt=F('date_joined')),

output_field=BooleanField(),

)

.values('logged_since_joined')

.annotate(total=Count('id'))

.values('logged_since_joined', 'total')

这里的表达相当复杂。我们首先使用annotate构建表达式，然后在以下对values（）的调用中引用该表达式，将其标记为GROUP BY键。从这里开始，它是完全一样的。

如何使用条件汇总▶
使用条件聚合，您只能聚合组的一部分。当您有多个聚合时，条件会派上用场。例如，按签约年份计算职员和编外用户的数量：

SELECT
    EXTRACT('year' FROM date_joined),

    COUNT(id) FILTER (
        WHERE is_staff = True
    ) AS staff_users,

    COUNT(id) FILTER (
        WHERE is_staff = False
    ) AS non_staff_users

FROM
    auth_user
GROUP BY
    EXTRACT('year' FROM date_joined)

--------------------------------------------

from django.db.models import F, Q

(User.objects
.values('date_joined__year')
.annotate(
    staff_users=(
        Count('id', filter=Q(is_staff=True))
    ),
    non_staff_users=(
        Count('id', filter=Q(is_staff=False))
    ),
))

SELECT

EXTRACT('year' FROM date_joined),

COUNT(id) FILTER (

WHERE is_staff = True

) AS staff_users,

COUNT(id) FILTER (

WHERE is_staff = False

) AS non_staff_users

FROM

auth_user

GROUP BY

EXTRACT('year' FROM date_joined)

--------------------------------------------

from django.db.models import F, Q

(User.objects

.values('date_joined__year')

.annotate(

staff_users=(

Count('id', filter=Q(is_staff=True))

non_staff_users=(

Count('id', filter=Q(is_staff=False))

))

上面的SQL来自PostgreSQL，它与SQLite一起是当前唯一支持FILTER语法快捷方式（正式称为“选择性聚合”）的数据库后端。对于其他数据库后端，ORM将使用CASE … WHEN代替。

如何使用Having▶
HAVING子句用于过滤聚合函数的结果。例如，查找100个以上的用户加入的年份：

SELECT
    is_active,
    COUNT(id) AS total
FROM
    auth_user
GROUP BY
    is_active
HAVING
    COUNT(id) > 100

---------------------------------------------

(User.objects
.annotate(year_joined=F('date_joined__year'))
.values('is_active')
.annotate(total=Count('id'))
.filter(total__gt=100))

SELECT

is_active,

COUNT(id) AS total

FROM

auth_user

GROUP BY

is_active

HAVING

COUNT(id) > 100

---------------------------------------------

(User.objects

.annotate(year_joined=F('date_joined__year'))

.values('is_active')

.annotate(total=Count('id'))

.filter(total__gt=100))

带注释的字段总数上的过滤器在生成的SQL中添加了HAVING子句。

如何按区分分组▶
对于某些总计函数（例如COUNT），有时希望仅对不同的事件进行计数。例如，每个用户活动状态有多少个不同的姓氏：

SELECT
    is_active,
    COUNT(id) AS total,
    COUNT(DISTINCT last_name) AS unique_names
FROM
    auth_user
GROUP BY
    is_active

------------------------------------------

(User.objects
.values('is_active')
.annotate(
    total=Count('id'),
    unique_names=Count('last_name', distinct=True),
))

SELECT

is_active,

COUNT(id) AS total,

COUNT(DISTINCT last_name) AS unique_names

FROM

auth_user

GROUP BY

is_active

------------------------------------------

(User.objects

.values('is_active')

.annotate(

total=Count('id'),

unique_names=Count('last_name', distinct=True),

))

请注意，在对Count的调用中使用了distinct = True。

如何使用汇总字段创建表达式▶
汇总字段通常只是一个更大问题的第一步。例如，按用户活动状态的唯一姓氏百分比是多少：

SELECT
    is_active,
    COUNT(id) AS total,
    COUNT(DISTINCT last_name) AS unique_names,
    (COUNT(DISTINCT last_name)::float
        / COUNT(id)::float) AS pct_unique_names
FROM
    auth_user
GROUP BY
    is_active

------------------------------------------------

from django.db.models import FloatField
from django.db.models.functions import Cast

(User.objects
.values('is_active')
.annotate(
    total=Count('id'),
    unique_names=Count('last_name', distinct=True),
)
.annotate(pct_unique_names=(
    Cast('unique_names', FloatField())
    / Cast('total', FloatField())
))

SELECT

is_active,

COUNT(id) AS total,

COUNT(DISTINCT last_name) AS unique_names,

(COUNT(DISTINCT last_name)::float

/ COUNT(id)::float) AS pct_unique_names

FROM

auth_user

GROUP BY

is_active

------------------------------------------------

from django.db.models import FloatField

from django.db.models.functions import Cast

(User.objects

.values('is_active')

.annotate(

total=Count('id'),

unique_names=Count('last_name', distinct=True),

)

.annotate(pct_unique_names=(

Cast('unique_names', FloatField())

/ Cast('total', FloatField())

))

第一个annotate（）定义聚合字段。第二个annotate（）使用聚合函数构造一个表达式。

如何按相互关系分组▶
到目前为止，我们仅在单个模型中使用了数据，但是聚合通常用于跨关系。更简单的方案是一对一或外键关系。例如，假设我们有一个与用户一一对应的UserProfile，我们想按配置文件的类型对用户进行计数：

SELECT
    p.type,
    COUNT(u.id) AS total
FROM
    auth_user u
    JOIN user_profile p ON u.id = p.user_id
GROUP BY
    p.type

-------------------------------------

(User.objects
.values('user_profile__type')
.annotate(total=Count('id')))

SELECT

p.type,

COUNT(u.id) AS total

FROM

auth_user u

JOIN user_profile p ON u.id = p.user_id

GROUP BY

p.type

-------------------------------------

(User.objects

.values('user_profile__type')

.annotate(total=Count('id')))

就像GROUP BY表达式一样，在值中使用关系将按该字段分组。请注意，结果中用户配置文件类型的名称将为“ user_profile__type”。

如何按多对多关系分组▶
关系的一种更复杂的类型是多对多关系。例如，计算每个用户是多少个组成员：

SELECT
    u.id,
    COUNT(ug.group_id) AS memberships
FROM
    auth_user
    LEFT OUTER JOIN auth_user_groups ug ON (
        u.id = ug.user_id
    )
GROUP BY
    u.id

-----------------------------------------------------------

(User.objects
.annotate(memberships=Count('groups'))
.values('id', 'memberships'))

SELECT

u.id,

COUNT(ug.group_id) AS memberships

FROM

auth_user

LEFT OUTER JOIN auth_user_groups ug ON (

u.id = ug.user_id

)

GROUP BY

u.id

-----------------------------------------------------------

(User.objects

.annotate(memberships=Count('groups'))

.values('id', 'memberships'))

一个用户可以是多个组的成员。为了计算用户所属的组数，我们在用户模型中使用了相关的名称“组”。如果未显式设置（并且未显式禁用）相关名称，则Django会自动以{相关模型模型} _set的格式生成名称。例如，group_set。

原文：https://hakibenita.com/django-group-by-sql#how-to-group-by-an-expression

M	T	W	T	F	S	S
« Jul
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

头脑的思考

头脑的思考

通过SQL了解Django中的分组依据-Django QuerySet和SQL并排