第4章の内容

4.3.2 自動読み込み例2:細菌群集の炭素代謝データ(エコプレート)

#ファイル名一覧の冒頭部分を確認する
head(read.csv("format_xitou_pattern.csv", header = T))
#paste関数を使って、複数の文字列をつなぐことができる
paste("2022Dec", "Biwako", sep = "-")
[1] "2022Dec-Biwako"
#この仕組みを使えばファイル読み込みのための相対パスを作る
paste("./text_file/", "20141216Eco_N1.TXT", sep = "")
[1] "./text_file/20141216Eco_N1.TXT"

自動化のためにfor loopを利用するコード

#Date, treatment, and file information from Xitou data sets
metadata_ecoplate <- read.csv("format_xitou_pattern.csv", header = T) #メタデータの読み込み

dat_list <- list() #データ格納用に空のリストを作成する
no_sample <- length(metadata_ecoplate$data_file) #サンプルの数だけループを回すため、サンプル数をカウントする
for(j in 1:no_sample){
  print(j) #今何回目のループか分かるようにjの値をコンソールに表示する
  file_path <- paste("./text_file/", metadata_ecoplate$data_file[j], sep = "") #相対パスを作る
  dat_list[[j]] <- read.table(file_path, skip = 5) #相対パスにしたがってファイルを読み込んでリストの各要素に順に代入する
}
[1] 1
[1] 2
[1] 3
[1] 4
[1] 5
[1] 6
[1] 7
[1] 8
[1] 9
[1] 10
[1] 11
[1] 12
[1] 13
[1] 14
[1] 15
[1] 16
[1] 17
[1] 18
[1] 19
[1] 20
[1] 21
[1] 22
[1] 23
[1] 24

読み込んだ内容確認

dat_list[[3]]

4.3.3 自動読み込み過程を関数化する

関数の定義

#最初の部分は関数の説明
####Function to load ecoplate data
#Parameter list(パラメータリスト)
#relative_path(相対パス): relative path of data folder from the folder where the R script is saved
#file_list(ファイルリスト): the vector of file names that we intend to load 
#no_skip(スキップする行数): the number of skip rows in ecoplate text file

load_ecoplate_data <- function(relative_path, file_list, no_skip = 5)    
{ #関数化する前とだいたい同じコード
  data_list <- list()   #すでに使っているオブジェクト名(dat_list)は使いまわさない
  for(i in 1:length(file_list)) {
    file_name <- paste(relative_path, file_list[i], sep = "")
    data_list[[i]] <- read.table(file_name, skip = no_skip)  
  }
  return(data_list)  #output (return value) of this function リスト全体を出力する
}

実際に関数を読み出して読み込みをやってみる

#関数をそのまま読み出す場合、返り値のリストそのものが出力される
load_ecoplate_data(relative_path = "./text_file/", file_list = metadata_ecoplate$data_file, no_skip = 5)
[[1]]

[[2]]

[[3]]

[[4]]

[[5]]

[[6]]

[[7]]

[[8]]

[[9]]

[[10]]

[[11]]

[[12]]

[[13]]

[[14]]

[[15]]

[[16]]

[[17]]

[[18]]

[[19]]

[[20]]

[[21]]

[[22]]

[[23]]

[[24]]
NA

新しいリストに代入するのが実用的である

#関数の返り値をdata_ecoplateというオブジェクトに代入する場合
data_ecoplate <- load_ecoplate_data(relative_path = "./text_file/", file_list = metadata_ecoplate$data_file, no_skip = 5)
#二つ目の要素を確認
data_ecoplate[[2]]

第5章の内容

5.1.3 存在しないファイルからデータを読み込もうとしてしまうミス

試しにエラーがおきるように用意したメタファイルを使ってファイル読み込みを実行してみる

#メタデータ(エラー含む)の読み込み
metadata_ecoplate_e1 <- read.csv("format_xitou_pattern_e1.csv", header = T)
#関数の呼び出し:エラーが途中で生じるので、何も出力されない
load_ecoplate_data(relative_path = "./text_file/", file_list = metadata_ecoplate_e1$data_file, no_skip = 5)
Warning: cannot open file './text_file/NA': No such file or directoryError in file(file, "rt") : cannot open the connection

このエラーを回避するための修正版

#Function with error management
load_ecoplate_data2 <-  function(relative_path, file_list, no_skip = 5)    
{
  data_list <- list() 
  for(i in 1:length(file_list)) {
    file_name <- paste(relative_path, file_list[i], sep = "")
    #try関数は引数に指定した関数がエラーを返すかどうか判定するときに使うと便利
    e <- try(read.table(file_name, skip = no_skip), silent = FALSE)   #error management
    #try関数が何らかのエラーを返した場合には,オブジェクトeのタイプが"try-error"になるので、エラーが生じたかどうかの判定に使える
    if(class(e) == "try-error") next  #エラーが起きたiを飛ばして次のiのループに進む
    else data_list[[i]] <- read.table(file_name, skip = no_skip) #エラーが出なかった場合は、ファイルの中身を読み込む
  }
  return(data_list)  #output (return value) of this function
}

この新しい関数を使えばエラーが出ない(警告のみ)

data_ecoplate2 <- load_ecoplate_data2(relative_path = "./text_file/", file_list = metadata_ecoplate_e1$data_file, no_skip = 5)
Warning: cannot open file './text_file/NA': No such file or directoryError in file(file, "rt") : cannot open the connection
#15番の要素が空(NULL)であることがわかるはず
data_ecoplate2[[15]]
NULL
#それでも16番目以降の要素にもちゃんとファイルは読み込まれている
data_ecoplate2[[16]]

5.2.2 エコプレートデータを整頓する

3繰り返しの平均値を計算する

試しに1列目、5列目、9列目の平均値を計算してみる

(data_ecoplate[[1]]$X1 + data_ecoplate[[1]]$X5 + data_ecoplate[[1]]$X9) / 3  
[1] 0.1413333 1.4510000 2.5583333 2.6163333 1.6183333 1.2356667 2.2463333 1.6516667

全ての平均値を一括で計算するための関数の定義

####Function to calculate the averages and standardization by control values
ave_ecoplate <- function(data_f){
  #1列目・5列目・9列目の平均値
  data_ave1 <- (data_f$X1 + data_f$X5 + data_f$X9) / 3.0  
  #2列目・6列目・10列目の平均値
  data_ave2 <- (data_f$X2 + data_f$X6 + data_f$X10) / 3.0
  #3列目・7列目・11列目の平均値
  data_ave3 <- (data_f$X3 + data_f$X7 + data_f$X11) / 3.0
  #4列目・8列目・12列目の平均値
  data_ave4 <- (data_f$X4 + data_f$X8 + data_f$X12) / 3.0
  #append関数を繰り返し使って4つのベクトルを一つにまとめる:内側のappendから順に実行されることに注意(=まずdata_ave1, data_ave2がappendされ、それとdata_ave3が次にアペンドされ、、、という順)
  data_sum <- append(append(append(data_ave1,data_ave2),data_ave3),data_ave4)  
  #対象区(water well)の平均値をすべての要素から差し引くという標準化を行なう
  data_sum_nor <- data_sum - data_sum[1] #normalizing by water well
  return(data_sum_nor) #output, 標準化後のベクトルを出力する
}

観測ごとのベクトルをすべてまとめて一つのデータフレームにする

関数の定義

stat_summary_ecoplate <- function(data_f, sample_name, variable_name)
{ 
  #一つ目のデータから平均値を計算し、データフレームに代入
  data_summary <- ave_ecoplate(data_f[[1]]) 
  for(i in 2:length(data_f)) {
    # 空のデータがあった場合は、次のループに飛ぶ
    if(is.null(data_f[[i]])) next  #error management, skipping the non-measured dates
     #次のデータから平均値を計算し、それまでのループで作ったデータフレームに追加して上書きする
      data_summary <- rbind.data.frame(data_summary, ave_ecoplate(data_f[[i]]))
    }#end of for i
  data_summary <- data_summary[,-1] #一列目のデータはすべてゼロなので削除してよい
  data_summary[data_summary < 0] <- 0 #標準化後に負の値となるものはゼロに置き換えてよい
  colnames(data_summary) <- variable_name #列名を付ける
  rownames(data_summary) <- sample_name #行名を付ける
  return(data_summary) #データフレームを出力する
}

列名として基質(Substrates)名を当てたいが、具体的な名前を使うとコードが長くなるので、S1, S2,…という感じで名前を付ける

substrate_name <- c("s01", "s02","s03","s04","s05","s06","s07","s08","s09","s10","s11", "s12","s13","s14","s15","s16","s17","s18","s19","s20","s21", "s22","s23","s24","s25","s26","s27","s28","s29","s30", "S31")

実際に上で作った関数を呼び出し、サンプル個データのメタデータファイル(metadata_ecoplate)とデータファイル(data_ecoplate)に対して、データフレームにデータをまとめる

#関数の呼び出し
summary_ecoplate <- stat_summary_ecoplate(data_f = data_ecoplate, sample_name = metadata_ecoplate$sample, variable_name = substrate_name)
#結果の一部の確認
head(summary_ecoplate)
---
title: "ecoplate_test.Rに対応したR Notebook"
output: html_notebook
---

## 第4章の内容

### 4.3.2 自動読み込み例2：細菌群集の炭素代謝データ（エコプレート）

```{r}
#ファイル名一覧の冒頭部分を確認する
head(read.csv("format_xitou_pattern.csv", header = T))
```

```{r}
#paste関数を使って、複数の文字列をつなぐことができる
paste("2022Dec", "Biwako", sep = "-")
#この仕組みを使えばファイル読み込みのための相対パスを作る
paste("./text_file/", "20141216Eco_N1.TXT", sep = "")
```

自動化のためにfor loopを利用するコード

```{r}
#Date, treatment, and file information from Xitou data sets
metadata_ecoplate <- read.csv("format_xitou_pattern.csv", header = T)　#メタデータの読み込み

dat_list <- list()　#データ格納用に空のリストを作成する
no_sample <- length(metadata_ecoplate$data_file)　#サンプルの数だけループを回すため、サンプル数をカウントする
for(j in 1:no_sample){
  print(j) #今何回目のループか分かるようにjの値をコンソールに表示する
  file_path <- paste("./text_file/", metadata_ecoplate$data_file[j], sep = "")　#相対パスを作る
  dat_list[[j]] <- read.table(file_path, skip = 5)　#相対パスにしたがってファイルを読み込んでリストの各要素に順に代入する
}
```

読み込んだ内容確認

```{r}
dat_list[[3]]
```

### 4.3.3 自動読み込み過程を関数化する

関数の定義

```{r}
#最初の部分は関数の説明
####Function to load ecoplate data
#Parameter list(パラメータリスト)
#relative_path(相対パス): relative path of data folder from the folder where the R script is saved
#file_list(ファイルリスト): the vector of file names that we intend to load 
#no_skip(スキップする行数): the number of skip rows in ecoplate text file

load_ecoplate_data <- function(relative_path, file_list, no_skip = 5)    
{ #関数化する前とだいたい同じコード
  data_list <- list()   #すでに使っているオブジェクト名(dat_list)は使いまわさない
  for(i in 1:length(file_list)) {
    file_name <- paste(relative_path, file_list[i], sep = "")
    data_list[[i]] <- read.table(file_name, skip = no_skip)  
  }
  return(data_list)  #output (return value) of this function リスト全体を出力する
}
```

実際に関数を読み出して読み込みをやってみる

```{r}
#関数をそのまま読み出す場合、返り値のリストそのものが出力される
load_ecoplate_data(relative_path = "./text_file/", file_list = metadata_ecoplate$data_file, no_skip = 5)
```

新しいリストに代入するのが実用的である

```{r}
#関数の返り値をdata_ecoplateというオブジェクトに代入する場合
data_ecoplate <- load_ecoplate_data(relative_path = "./text_file/", file_list = metadata_ecoplate$data_file, no_skip = 5)
#二つ目の要素を確認
data_ecoplate[[2]]
```
## 第5章の内容
### 5.1.3 存在しないファイルからデータを読み込もうとしてしまうミス
試しにエラーがおきるように用意したメタファイルを使ってファイル読み込みを実行してみる
```{r, error=TRUE}
#メタデータ(エラー含む)の読み込み
metadata_ecoplate_e1 <- read.csv("format_xitou_pattern_e1.csv", header = T)
#関数の呼び出し：エラーが途中で生じるので、何も出力されない
load_ecoplate_data(relative_path = "./text_file/", file_list = metadata_ecoplate_e1$data_file, no_skip = 5)
```
このエラーを回避するための修正版
```{r}
#Function with error management
load_ecoplate_data2 <-  function(relative_path, file_list, no_skip = 5)    
{
  data_list <- list() 
  for(i in 1:length(file_list)) {
    file_name <- paste(relative_path, file_list[i], sep = "")
    #try関数は引数に指定した関数がエラーを返すかどうか判定するときに使うと便利
    e <- try(read.table(file_name, skip = no_skip), silent = FALSE)   #error management
    #try関数が何らかのエラーを返した場合には，オブジェクトeのタイプが"try-error"になるので、エラーが生じたかどうかの判定に使える
    if(class(e) == "try-error") next  #エラーが起きたiを飛ばして次のiのループに進む
    else data_list[[i]] <- read.table(file_name, skip = no_skip) #エラーが出なかった場合は、ファイルの中身を読み込む
  }
  return(data_list)  #output (return value) of this function
}
```
この新しい関数を使えばエラーが出ない(警告のみ)
```{r}
data_ecoplate2 <- load_ecoplate_data2(relative_path = "./text_file/", file_list = metadata_ecoplate_e1$data_file, no_skip = 5)
#15番の要素が空(NULL)であることがわかるはず
data_ecoplate2[[15]]
#それでも16番目以降の要素にもちゃんとファイルは読み込まれている
data_ecoplate2[[16]]
```
### 5.2.2 エコプレートデータを整頓する
#### 3繰り返しの平均値を計算する
試しに1列目、5列目、9列目の平均値を計算してみる
```{r}
(data_ecoplate[[1]]$X1 + data_ecoplate[[1]]$X5 + data_ecoplate[[1]]$X9) / 3  
```

全ての平均値を一括で計算するための関数の定義
```{r}
####Function to calculate the averages and standardization by control values
ave_ecoplate <- function(data_f){
  #1列目・5列目・9列目の平均値
  data_ave1 <- (data_f$X1 + data_f$X5 + data_f$X9) / 3.0  
  #2列目・6列目・10列目の平均値
  data_ave2 <- (data_f$X2 + data_f$X6 + data_f$X10) / 3.0
  #3列目・7列目・11列目の平均値
  data_ave3 <- (data_f$X3 + data_f$X7 + data_f$X11) / 3.0
  #4列目・8列目・12列目の平均値
  data_ave4 <- (data_f$X4 + data_f$X8 + data_f$X12) / 3.0
  #append関数を繰り返し使って4つのベクトルを一つにまとめる：内側のappendから順に実行されることに注意(=まずdata_ave1, data_ave2がappendされ、それとdata_ave3が次にアペンドされ、、、という順)
  data_sum <- append(append(append(data_ave1,data_ave2),data_ave3),data_ave4)  
  #対象区(water well)の平均値をすべての要素から差し引くという標準化を行なう
  data_sum_nor <- data_sum - data_sum[1] #normalizing by water well
  return(data_sum_nor) #output, 標準化後のベクトルを出力する
}
```
#### 観測ごとのベクトルをすべてまとめて一つのデータフレームにする
関数の定義

```{r}
stat_summary_ecoplate <- function(data_f, sample_name, variable_name)
{ 
  #一つ目のデータから平均値を計算し、データフレームに代入
  data_summary <- ave_ecoplate(data_f[[1]]) 
  for(i in 2:length(data_f)) {
    # 空のデータがあった場合は、次のループに飛ぶ
    if(is.null(data_f[[i]])) next  #error management, skipping the non-measured dates
    　#次のデータから平均値を計算し、それまでのループで作ったデータフレームに追加して上書きする
      data_summary <- rbind.data.frame(data_summary, ave_ecoplate(data_f[[i]]))
    }#end of for i
  data_summary <- data_summary[,-1] #一列目のデータはすべてゼロなので削除してよい
  data_summary[data_summary < 0] <- 0　#標準化後に負の値となるものはゼロに置き換えてよい
  colnames(data_summary) <- variable_name　#列名を付ける
  rownames(data_summary) <- sample_name　#行名を付ける
  return(data_summary)　#データフレームを出力する
}
```
列名として基質(Substrates)名を当てたいが、具体的な名前を使うとコードが長くなるので、S1, S2,...という感じで名前を付ける
```{r}
substrate_name <- c("s01", "s02","s03","s04","s05","s06","s07","s08","s09","s10","s11", "s12","s13","s14","s15","s16","s17","s18","s19","s20","s21", "s22","s23","s24","s25","s26","s27","s28","s29","s30", "S31")
```

実際に上で作った関数を呼び出し、サンプル個データのメタデータファイル(metadata_ecoplate)とデータファイル(data_ecoplate)に対して、データフレームにデータをまとめる
```{r}
#関数の呼び出し
summary_ecoplate <- stat_summary_ecoplate(data_f = data_ecoplate, sample_name = metadata_ecoplate$sample, variable_name = substrate_name)
#結果の一部の確認
head(summary_ecoplate)
```


