All Articles
    Search by

    [tidyverse関数辞書] dplyr::arrange()の使い方

    はじめに

    こんにちは!このサイトではプログラミング未経験者でも簡単に始められるRプログラミングを解説しています!コピペで動くコードの紹介や、細かな関数の使い方解説も今後どんどん行っていきますので、是非フォローをよろしくお願いいたします?

    この記事はdplyrの関数辞典を作りたい企画の第一弾です。
    R 4.1.2、{dplyr} 1.0.8バージョン時点で動作確認をしています。

    全ての内容を覚える必要はないので、忘れたときの辞書代わりとして活用してください!

    クイックリファレンス

    library(dplyr)
    
    データフレーム %>%
      arrange(ソートしたい列名1, ソートしたい列名2)
    iris %>%
      arrange(Sepal.Width, Sepal.Length) %>%
      tibble()
    
    # # A tibble: 150 × 5
    #    Sepal.Length Sepal.Width Petal.Length Petal.Width Species
    #           <dbl>       <dbl>        <dbl>       <dbl> <fct>
    #  1          5           2            3.5         1   versicolor
    #  2          6           2.2          4           1   versicolor
    #  3          6           2.2          5           1.5 virginica
    #  4          6.2         2.2          4.5         1.5 versicolor
    #  5          4.5         2.3          1.3         0.3 setosa
    #  6          5           2.3          3.3         1   versicolor
    #  7          5.5         2.3          4           1.3 versicolor
    #  8          6.3         2.3          4.4         1.3 versicolor
    #  9          4.9         2.4          3.3         1   versicolor
    # 10          5.5         2.4          3.8         1.1 versicolor

    関数について

    dplyr::arrange()の概要

    {tidyverse}に含まれる、{dplyr}の関数の一つです。

    データフレーム(またはtibble)を特定の列で昇順ソートする関数で、引数オプションによっては降順ソートや、複数列でのソートも可能です。

    数値データ列の昇順ソート

    mtcarsを例にとります。

    mtcarsデータはビルトインデータですので、準備をしなくとも読み込むことができます。 以下のようなデータです。

    mtcars %>% head()
    
    #                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
    # Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
    # Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
    # Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
    # Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
    # Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
    # Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

    rownamesには車種名があり、その他は各車種の性能を示しています。head()関数により 冒頭6行だけを表示しています。

    まずは燃費順でソートしてみます。燃費を表すのはmpg(Miles per gallon)の列です。

    mtcars %>%
      arrange(mpg) %>%
      head()
    
    #                      mpg cyl disp  hp drat    wt  qsec vs am gear carb
    # Cadillac Fleetwood  10.4   8  472 205 2.93 5.250 17.98  0  0    3    4
    # Lincoln Continental 10.4   8  460 215 3.00 5.424 17.82  0  0    3    4
    # Camaro Z28          13.3   8  350 245 3.73 3.840 15.41  0  0    3    4
    # Duster 360          14.3   8  360 245 3.21 3.570 15.84  0  0    3    4
    # Chrysler Imperial   14.7   8  440 230 3.23 5.345 17.42  0  0    3    4
    # Maserati Bora       15.0   8  301 335 3.54 3.570 14.60  0  1    5    8

    このように、オプションを指定しなければ昇順に並び替えられます。

    数値データ列の降順ソート

    降順ソートには二通りの方法があります。最初に私がよく使う、-を付ける方法を 紹介します。

    mtcars %>%
      arrange(-mpg) %>%
      head()
    
    #                 mpg cyl  disp  hp drat    wt  qsec vs am gear carb
    # Toyota Corolla 33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
    # Fiat 128       32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
    # Honda Civic    30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
    # Lotus Europa   30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
    # Fiat X1-9      27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
    # Porsche 914-2  26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2

    このように、数値データであればマイナスを列名に付けるだけで降順になります。 しかし、項目:文字列のソートで後述しますが、文字列に対してマイナス記号は使えないので注意が必要です。

    Snitch

    Snitch

    ソートにより一番燃費がいい車はトヨタカローラ、などといったことが読み取れます。

    もう一つの降順ソート方法はdesc()関数を使う方法です。

    mtcars %>%
      arrange(desc(mpg)) %>%
      head()

    このようにdesc関数を一回挟むことで降順(descending)にソートしています。 私は直感的に「逆=マイナス記号」という覚え方のできる前者を好んで使います。

    文字列のソート

    基本的に文字列も同じようにソートが可能です。

    mtcars %>% 
      rownames_to_column("car_name") %>% 
      arrange(car_name) %>% 
      head()
    #             car_name  mpg cyl disp  hp drat    wt  qsec vs am gear carb
    # 1        AMC Javelin 15.2   8  304 150 3.15 3.435 17.30  0  0    3    2
    # 2 Cadillac Fleetwood 10.4   8  472 205 2.93 5.250 17.98  0  0    3    4
    # 3         Camaro Z28 13.3   8  350 245 3.73 3.840 15.41  0  0    3    4
    # 4  Chrysler Imperial 14.7   8  440 230 3.23 5.345 17.42  0  0    3    4
    # 5         Datsun 710 22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
    # 6   Dodge Challenger 15.5   8  318 150 2.76 3.520 16.87  0  0    3    2

    このように、アルファベット順のソートが可能です。

    ひらがなのソートも可能です。漢字に対しては読み仮名に基づいてソートしてくれるわけではないので注意です。

    tibble(Name = c("たろう", "じろう", "さぶろう", "あきこ")) %>% 
      arrange(Name)
    
    # # A tibble: 4 × 1
    #   Name    
    #   <chr>   
    # 1 あきこ  
    # 2 さぶろう
    # 3 じろう  
    # 4 たろう

    先程述べた通り、文字列のソートではマイナスが使えません。

    mtcars %>% 
      rownames_to_column("car_name") %>% 
      arrange(-car_name) %>% 
      head()
    
    # Error: arrange() failed at implicit mutate() step. 
    # * Problem with mutate() column ..1.
    # ℹ ..1 = -car_name.
    # x invalid argument to unary operator
    # Run rlang::last_error() to see where the error occurred.
    mtcars %>% 
      rownames_to_column("car_name") %>% 
      arrange(desc(car_name)) %>% 
      head()
    
    #           car_name  mpg cyl  disp  hp drat    wt  qsec vs am gear carb
    # 1       Volvo 142E 21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2
    # 2          Valiant 18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1
    # 3    Toyota Corona 21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
    # 4   Toyota Corolla 33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
    # 5    Porsche 914-2 26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
    # 6 Pontiac Firebird 19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2

    数字の入った文字列ソートには注意

    たとえば、先頭に番号を付けたデータフレームがあったとします。

    これを普通に文字列ソートすると、もしかしたら結果にギョっとするかもしれません。

    tibble(
      numbers = c("1_one",
                  "2_two",
                  "3_three",
                  "4_four",
                  "5_five",
                  "6_six",
                  "7_seven",
                  "8_eight",
                  "9_nine",
                  "10_ten",
                  "11_eleven")
    ) %>% 
      arrange(numbers)
    
    # # A tibble: 11 × 1
    #    numbers  
    #    <chr>    
    #  1 1_one    
    #  2 10_ten   
    #  3 11_eleven
    #  4 2_two    
    #  5 3_three  
    #  6 4_four   
    #  7 5_five   
    #  8 6_six    
    #  9 7_seven  
    # 10 8_eight  
    # 11 9_nine  

    文字列ソートなので、“1”を優先的に見た結果「1,10,11,2,3,4,…」という並びになってしまいました。

    これは明らかに意図しない挙動ですよね。いくつか対処方法はありますが、 最もシンプルなのはstringr::str_order(numeric=TRUE)を使うことでしょう。

    {stringr}は文字列操作に長けたパッケージですので、このように文字列に入った数値を 数値として解釈してくれるようなオプションもあります。 私もこの関数を知ったのはごく最近で、それまではtidyr::split()関数を使って数値の 部分を新しい列に切り離してからソートなどをしていました。

    tibble(
      numbers = c("1_one",
                  "2_two",
                  "3_three",
                  "4_four",
                  "5_five",
                  "6_six",
                  "7_seven",
                  "8_eight",
                  "9_nine",
                  "10_ten",
                  "11_eleven")
    ) %>% 
      arrange(str_order(numbers, numeric = TRUE))

    文字列のソートは少し注意が必要

    • 降順はdesc()を使う
    • 先頭の数字を活用したいときはstr_order(列名, numeric=TRUE)
    • ひらがな対応、漢字非対応

    複数列のソート

    arrange()関数では複数列を同時にソートすることができます。

    mtcars %>%
      arrange(gear, -mpg) %>%
      head(20)
    
    #                      mpg cyl  disp  hp drat    wt  qsec vs am gear carb
    # Toyota Corona       21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
    # Hornet 4 Drive      21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1
    # Pontiac Firebird    19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2
    # Hornet Sportabout   18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2
    # Valiant             18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1
    # Merc 450SL          17.3   8 275.8 180 3.07 3.730 17.60  0  0    3    3
    # Merc 450SE          16.4   8 275.8 180 3.07 4.070 17.40  0  0    3    3
    # Dodge Challenger    15.5   8 318.0 150 2.76 3.520 16.87  0  0    3    2
    # Merc 450SLC         15.2   8 275.8 180 3.07 3.780 18.00  0  0    3    3
    # AMC Javelin         15.2   8 304.0 150 3.15 3.435 17.30  0  0    3    2
    # Chrysler Imperial   14.7   8 440.0 230 3.23 5.345 17.42  0  0    3    4
    # Duster 360          14.3   8 360.0 245 3.21 3.570 15.84  0  0    3    4
    # Camaro Z28          13.3   8 350.0 245 3.73 3.840 15.41  0  0    3    4
    # Cadillac Fleetwood  10.4   8 472.0 205 2.93 5.250 17.98  0  0    3    4
    # Lincoln Continental 10.4   8 460.0 215 3.00 5.424 17.82  0  0    3    4
    # Toyota Corolla      33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
    # Fiat 128            32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
    # Honda Civic         30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
    # Fiat X1-9           27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
    # Merc 240D           24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2

    この例ではgear(ギア数)を昇順、mpg(Miles per gallon: 燃費データ)を降順で ソートしています。 引数が先頭に来るものを優先してソートしているので、 上記例は「mpgを降順でソートしてからgearを昇順でソート」したような状態です。

    サンプルコード

    成績表を科目ごとにソートする

    test_scores <- 
      tibble(
      Name = rep(randomNames::randomNames(20, ethnicity = 2), each = 4),
      Subject = rep(c("English", "Calligraphy", "Math", "Physics"), 20),
      Score = round(runif(n = 80, min = 0, max = 100))
    )
    
    test_scores
    # # A tibble: 80 × 3
    #    Name           Subject     Score
    #    <chr>          <chr>       <dbl>
    #  1 Rudman, Truong English        27
    #  2 Rudman, Truong Calligraphy    39
    #  3 Rudman, Truong Math           31
    #  4 Rudman, Truong Physics        76
    #  5 Tan, Marissa   English         5
    #  6 Tan, Marissa   Calligraphy    82
    #  7 Tan, Marissa   Math           91
    #  8 Tan, Marissa   Physics        72
    #  9 Heller, Amanda English        14
    # 10 Heller, Amanda Calligraphy    46
    # # … with 70 more rows

    このようなサンプルデータを作ってみました。

    このデータに対して、各教科ごとに最も得点の高い二人を抽出してみます。 以下のようにarrange()関数を降順で使えば欲しいデータは得られそうです。

    しかし、最も得点の高い二人を得るにはどうしたらよいでしょうか?

    test_scores %>% 
      arrange(Subject, -Score)
    # # A tibble: 80 × 3
    #    Name                Subject     Score
    #    <chr>               <chr>       <dbl>
    #  1 Tan, Marissa        Calligraphy    82
    #  2 Duncanson, Jonathan Calligraphy    82
    #  3 Lu, Carolyn         Calligraphy    77
    #  4 Brett, Katie        Calligraphy    76
    #  5 Pushchak, Stephanie Calligraphy    72
    #  6 Nguyen, Remy        Calligraphy    66
    #  7 Chang, Jenny        Calligraphy    63
    #  8 Kalam, Boan         Calligraphy    60
    #  9 Choudhry, Angelina  Calligraphy    58
    # 10 Hayashida, Eric     Calligraphy    52
    # # … with 70 more rows

    このようなケースでは、行変形を伴う操作としてgroup_by()およびslice()関数を使うと良いでしょう。

    test_scores %>% 
      group_by(Subject) %>% 
      arrange(-Score) %>% 
      slice(1:2)
    
    # # A tibble: 8 × 3
    # # Groups:   Subject [4]
    #   Name                Subject     Score
    #   <chr>               <chr>       <dbl>
    # 1 Tan, Marissa        Calligraphy    82
    # 2 Duncanson, Jonathan Calligraphy    82
    # 3 Brett, Katie        English        98
    # 4 Duncanson, Jonathan English        87
    # 5 Brett, Katie        Math           98
    # 6 Bauer, Elizabeth    Math           96
    # 7 Duncanson, Jonathan Physics        93
    # 8 Bauer, Elizabeth    Physics        93

    ただ、この例の場合だとarrange()を使わない実装も可能です。

    test_scores %>% 
      group_by(Subject) %>% 
      slice_max(Score, n = 2)
    
    # # A tibble: 8 × 3
    # # Groups:   Subject [4]
    #   Name                Subject     Score
    #   <chr>               <chr>       <dbl>
    # 1 Tan, Marissa        Calligraphy    82
    # 2 Duncanson, Jonathan Calligraphy    82
    # 3 Brett, Katie        English        98
    # 4 Duncanson, Jonathan English        87
    # 5 Brett, Katie        Math           98
    # 6 Bauer, Elizabeth    Math           96
    # 7 Duncanson, Jonathan Physics        93
    # 8 Bauer, Elizabeth    Physics        93

    slice_max()slice()の兄弟関数のようなもので、指定した列名のmax値を返してくれます。 group_by()と組み合わせることで、グループごとのトップ値を抽出することができます。

    slice()にはこのほかにもslice_head(), slice_tail(), slice_min(), slice_max(), slice_sample()があります。

    まとめ

    • dplyr::arrange()関数は列でソートする関数
    • 複数列同時のソートも可
    • デフォルトは昇順(小さい値順)
    • その逆は-を付けるか、desc()関数を使う

    Published Mar 6, 2022

    © 2020-2024 Hiroyuki Odake