Data Generation
關於 RDAGS
這是一個關於R線上分析暨導引系統(RDAGS)及R軟體各種問題的討論園地。
使用RDAGS時遭遇任何疑難雜症、對RDAGS有任何建議,或是隨時想跟上RDAGS更新速度的使用者,都歡迎加入此社團。
在此,除了RDAGS的使用者可互相交流外,也歡迎R軟體使用者在此互相學習、交流。
該是來還債的時候了
先附上R在統計方法上應用用到的packages
各位看倌如果覺得太簡單,沒錯...很簡單
因為分析資料時,需要注意的是整個分析進行前研究對象的定義
以及研究架構,這些確定後,再來只剩下選擇適合的方法了,一
旦方法確定後,R這邊其實就是提供工具,而難的反而是解讀
output
廢話不多說...上菜了
#卡方檢定
chisq.test(x)
#利用費雪精確檢定
fisher.test(x)
's test
mcnemar.test(x)
#計算勝算比
library(vcd)
loddsratio(x,log=FALSE)
-correlation
cor(x, method="pearson")
plot
data(iris);attach(iris)
> qqnorm(Sepal.Length, xlab="Z-scores",ylab="Sepal.length")
> qqline(Sepal.Length)
t.test(y~x,dat)
Res=aov(y~ x,data=data)
#事後檢定
library(asbio)
bonfCI(y,x)
scheffeCI(y,x)
lsdCI(y,x)
tukeyCI(y,x)
dunnettCI(y,x)
# Kruskal-Wallis事後檢定
library(pgirmess)
kruskal.test(y,x,data=data)
kruskalmc(y, x)
#迴歸分析
lm(y~ x, data=data)
shapiro.test(resid) #檢定殘差常態性
library(MASS)
boxcox(reg.model)
bc = boxcox(reg.model,plotit=F)
bc$x[which.max(bc$y)] #求最佳轉換值
待續~~
28/07/2016
http://biostat.tmu.edu.tw/index.php/76-2016rseries
雖然晚了
但還是分享一下
課程結束後,會再來分享部分課程內容
敬請期待喔
R軟體是基於S語言所建構而成的一套自由軟體,最初由Ross Ihaka及Robert Gentleman所開發。
現今這麼多資料分析軟體,為什麼一定要認識R呢?
除了程式功能完整、擴充性強、強大的繪圖功能、支援其他程式語言如:C、Fortran、Python、Java外,最重要的就是它免費!!
當然,學習R語言得循序漸進,最基本的就是寫程式引用適當函數來分析資料,等到有能力這樣做時,恭喜你,已學會R語言的入門了。
以下函數摘要出自中華R軟體研發暨應用協會於1月底舉辦的資料探勘R系列課程:R軟體入門。
基本操作環境---相關函數
help或? # 檢視某函數的說明文件
help.search或?? # 搜尋包含關鍵字的指令
source # 從指定的路徑或網址載入外部程式碼
sink # 紀錄運算的執行結果
demo, example # 指定套件或函數的範例展示
install.packages # 下載並安裝套件
library # 載入已安裝之套件
getwd, setwd # 查詢或設定工作目錄位置
基本運算規則–相關函數
seq # 生成有序數列
rep # 重複指定元素
length # 計算元素個數
sum, cumsum # 元素加總及累積加總
prod, cumprod # 元素乘積及累積乘積
sort, rank, order # 排序、排序後各元素的順位、排序後各元素在原向量中的指標
R的變數與資料–相關函數
is, as 系列函數 # 判斷或轉換特定變數型態
attributes, attr # 查詢物件的屬性
class # 查詢物件的類別
str # 查詢物件的結構
which # 傳回符合條件的位置指標
match # 傳回第二個參數在第一個參數中出現的的位置指標
資料的輸入與輸出–相關函數
read.csv2 # 輸入以分號分隔的csv檔
read.delim # 輸入以tab分隔的文字檔
read.fwf # 輸入固定寬度格式文字檔
write.csv2 # 輸出以分號分隔的csv檔
程式流程控制–相關函數
ifelse # 二分類邏輯判斷
switch # 依照第一個參數決定執行的運算式
自訂函數–相關函數
invisible # 回傳值不顯示計算結果
stop # 停止函數執行並顯示錯誤訊息
warning # 顯示警告訊息
基本繪圖功能–相關函數
# 設定繪圖相關參數、繪圖設備
par, windows, postscript, pdf, jpeg, png, bmp, tiff, dev.off
# 高階繪圖函數
curve, pairs, coplot, qqplot, dotplot, image, contour, persp, ggplot2套件
# 低階繪圖函數
segments, arrows, abline, polygon, title, axis
程式撰寫技巧–相關函數
# table系列相關函數
tabulate, table, margin.table, prop.table, xtabs, ftable
# 遺失值相關函數
na.fail, na.omit, na.exclude, is.na
# 字串處理相關函數
cat, sprint, paste, substr, strtrim, strsplit, sub, gsub, grep
學習完上述函數的使用方式後,你也已經run過一次學習程式語言一定要學的基本功能,接下來,就是練習再練習了。
16/11/2015
中華R軟體研發暨應用協會即將在寒假開設資料探勘R系列課程,課程將從軟體安裝、基本程式撰寫至R軟體如何應用在資料探勘,循序漸進引領大家認識R軟體,窺探大數據分析的奧秘。
開課日期:1/23(六), 1/30(六) (詳情請看附件)
連絡單位: 中華R軟體研發暨應用協會 連絡人: (02) 2736-1661 #8674 簡先生,E-mail:[email protected]
生物統計研究中心 連絡人: (02) 2736-1661 #8678 曾小姐,E-mail:[email protected]
課程內容及報名資訊請詳閱課程報名網頁
網址: http://www.carra.org.tw/rseries_2016_h1/
R軟體趨勢大師論壇:R軟體在中文文字探勘的應用(下)
專題演講重點紀錄,2015年6月29日於台北醫學大學
繼上次介紹文字探勘的概念後,這次文章直接進入重點介紹R軟體在中文文字探勘中的應用。
文字探勘的流程:
Step 1. 文件內容的萃取、轉換與整理(含斷詞)
文件內容的截取建議交給專業的資訊人員做這部分,與其花時間學習這部分,不如專心把心力放在這些文件都抓下來後如何去分析它。舉一個簡單的例子,就算學會所有抓取這些網路資訊與文件的方法,但是資本不夠強,只能用一台電腦抓,沒多久就會被偵測是大量定時的來抓取資訊,IP就會被封掉。這樣就算技術再好,也沒辦法再抓了。
Step 2. 資料已轉成結構化資料之後,接下來做更進階字詞或語意分析,且將基本、粗淺的結構化資料擷取出更有意義的新變數,讓資料變成有意義的結構化資料。新變數如關鍵詞出現比例、TF-IDF詞彙中要性指標等
TF:字彙頻率;DF:文件頻率;TF-IDF=TF/DF
Step 3. 利用上述資料進行資料探勘
R package: tm 流程
截取文件 中文斷詞(option) 建立語料庫(Corpus) tm_map:文件轉換、清理(可進行中文斷詞,清除數字、英文等) 建立tdm或dtm矩陣 擷取新變數 資料探勘
註: tdm中, t為term(橫列), d是document(直行), m表示matrix
R軟體的文字探勘套件
1. tm: 文字探勘
2. tmcn: 文字探勘中文輔助套件
3. Rwordseg, jiebaR: 中文斷詞(CN)
4. rmmseg4j: 中文斷詞(TW)
5. wordcloud: 文字雲
6. RTextTools: 文章分類/文字探勘工具
7. topicmodels: 主題模型
8. lsa: 潛在語意分析
9. rJava
10. XML: 處理XML格式的文件
11. RCurl: 透過網路抓取外部網路資訊的工聚
12. twitter: 抓取twitter資訊
13. Rfacebook: 抓取Facebook資訊
接下來介紹文字探勘中比較難搞定的情感分析。情感分析是嘗試用文字探勘技術判別或偵測文件的情緒特質。就像在讀一篇文章一樣,看了文章回應之後馬上跟你說這篇文章對於某一事件是正面評論還是負面評論。有些情感分析做的更細,從正到負分為五個等級(因為有更細微的感情)。根據我這陣子接觸資料的結果,我發現情感分析之所以難,除了技術的部分以外,跟人類並沒有那麼smart也有關係。我舉一個例子,光是我要建立一批巨量的文件,這些文件必須判定是正評還是負評,前後我請了大概五個人,這五個人判斷出來的結果都不一樣。
大部份情感分析到最後處理時,都可用資料探勘中的分類技術去做,要用這個分類技術之前,我們要先整理出情感分析可以用的變數,基本上有幾個做法:
1. 可從網路上下載中文正負評所用的詞,但此做法預測正確率並不高,因為所用的正負評的詞,遠比下載的來源還多
2. DIY的方式,大家各憑本事發揮創意判定正負評
最後,若大家對於R軟體在中文文字探勘的應用產生了興趣,建議大家可從本文章介紹的套件開始練習使用。
謝謝大家!!
17/07/2015
R軟體趨勢大師論壇:R軟體在中文文字探勘的應用(上)
專題演講重點紀錄,2015年6月29日於台北醫學大學
資料可分為非結構化資料、半結構化資料跟結構化資料。
舉例來說,Excel檔中每一個欄位是一個變數,此變數不是分類變數就是數值變數,且是已經整理好的,這樣的資料就是結構化資料;而非結構化資料、半結構化資料則需要再經過整理、清理。
音樂檔、照片檔等則是常見的非結構化資料。有一年給學生的期末報告是要他們做臉形辨識,就是用筆電照下自己的照片,然後讓程式辨識照片是不是筆電的主人。大部分的學生都是將圖檔以10條水平線與10條垂直線的交叉點,看畫素的特質、顏色深淺來做辨識,但有一個學生很天才,在做這樣的作業它只畫了三條線就搞定了,且正確預測率高達96%以上。這三條線是眉毛一條、眼睛一條、鼻子一條,當然要精準掌握這三條線的位置就要使用邊緣偵測軟體,這樣才能精準定出這三條線位置。
一般人使用了20個變數,但此學生只用了3個變數,可見資料探勘以及文字探勘領域除了傳統的演算法之外,個人的創意與修為也是一個很大的因素。所以平常漫畫、動畫看的越多的,思考越跟別人不一樣的,做出來的東西就有可能比別人還要好。
有一年教資料探勘,我給他們的期末報告是要他們去分析MIDI音樂檔,MIDI音樂檔與一般我們常聽的MP3檔不一樣,MIDI音樂檔有一定的格式,每一首音樂的樂器、音軌、什麼樣的時間播出什麼樣的音符,這個音符持續了多少秒等等資訊,完全都可由MIDI音樂檔格式中挖掘出來。這幾年來我一直想回答一個問題,什麼樣的歌曲才有辦法變成懷念老歌?有些歌曲的特質是跨世代的,如果可經由分析找出一些pattern出來,那唱片公司就可以拿來當作參考。
以ptt來講比較棘手的是主文部份,主文這個部份只能抓出一堆文字,問題是這堆文字有沒有意義,它對某些事件是正評還是負評,有沒有包含次要的主題等等,這就不是結構化的東西,我們將之視為半結構化資料。
文字探勘與資料探勘的關係:
凡是可以使用自動化或半自動化方法對大量資料做分析,找出有意義的關係、模式或規則,都算是資料探勘的技術,所以統計裡面有大概四分之三的技術都包納在資料探勘底下;文字探勘則是先將非結構化資料轉換為結構化資料後,就可藉由資料探勘的技術來從文字、圖檔或音樂萃取出一些資訊。
文字探勘的應用:
文件的分類、叢集、文字規則(通常是只語意)。語意是動態的(如ptt的文章與回應並不符合語意的邏輯),如果用過於靜態的思維想要去探索新一代或者是目前網路上的一些意見跟輿情的話,正確預測率就會很糟糕。
有一部分人拿文字探勘做資訊的整合或者知識的探索,如在臺灣關於醫學方面與文字探勘的結合,有一部分的學者或研究生是著重在如何用文字探勘的技術去自動撈取醫學相關的文件,然後從這些文件中去整理或是從這些文件裡面自動去串接不同文章之間對於相同疾病之間的關聯性,目標主要是要建立一套知識的系統。
如果擔心以後會有老年癡呆症,玩文字探勘與資料探勘這兩個東西就是很好的藥方。因為不同的人,雖然使用的工具是一樣的,但個人的創意永遠是最重要的。使用同樣的分析軟體,同樣修過資料探勘、文字探勘課程的人,記數是故定的,但是在創造變數的過程,每個人就不一樣,很多創意在分析過程就可達到自我昇華的目的。假設你覺得現在的生活是槁木死灰的話,適度地引入資料探勘或文字探勘分析的經驗跟技術,對於人生會有很大的幫助。
30/06/2015
不能再錯過了!!
如何能更快、更精確地從大數據中挖掘出對企業有的資訊是掌握商機的關鍵。
社團法人華R軟體研發暨應用協會將在7/20、7/27、8/3、8/16、8/22-8/23 開設一系列大數據R軟體課程。
課程將從軟體安裝、基本程式撰寫至R軟體如何應用在大數據分析上,循序漸進引領大家認識R軟體,窺探大數據分析的奧秘。
有資料卻苦無分析方法、有分析方法卻苦無工具,不管您是屬於何者,都歡迎您報名大數據R軟體系列課程
報名網址: www.carra.org.tw/rseries
中華R軟體研發暨應用協會 - 中華R軟體研發暨應用協會 中華R軟體研發暨應用協會
歡迎使用R語言的同好
可在此共同討論與分享^____^
23/08/2013
[免費好康]AT&T 網路空間 50G 限時大放送 !!
http://lbear.pixnet.net/blog/post/50262696
【免費好康】AT&T 網路空間 50G 限時大放送 !! @ 耶魯熊&雪翎翎 の 軟硬兼施 :: 痞客邦 PIXNET :: Dropbox 相信是大家耳熟能詳的雲端服務了,不過剛申請的 Dropbox 可用容量真的是有點少,除非不停的拉朋友來,才會慢慢的增加可用容量,不然就是要花錢了,看是買 Dropbox 的會員,還
RDAGS 系統將於0722(星期一)正式上線,敬請期待。
Click here to claim your Sponsored Listing.
Category
Website
Address
Taipei
110