史丹佛大學機器學習(Machine Learning)上課筆記(三)
本篇為史丹佛大學機器學習(Machine Learning)課程 Lecture 3 的前半段筆記,接續 Lecture 2 的內容。
這是 Lecture 3 的線上課程錄影:
這裡老師上課的順序跟 Lecture note 上的不太一樣,我整理的時候都是按照 Lecture note 上的順序,再加上一些老師上課補充的部分,但基本上內容都是相同的。
這是 Lecture 3 的線上課程錄影:
這裡老師上課的順序跟 Lecture note 上的不太一樣,我整理的時候都是按照 Lecture note 上的順序,再加上一些老師上課補充的部分,但基本上內容都是相同的。
UNIX/Linux 檔案壓縮與備份工具 tar 指令使用教學與範例(二)-- tar.gz 檔案
前一篇我們介紹了關於 .tar 檔案的各種 tar 指令使用方式,這裡接著介紹以 .tar 格式為基礎所延伸出來的各種檔案壓縮格式。
因為單純的 .tar 檔案格式是沒有壓縮資料的功能的,它只是把好多目錄與資料夾打包起來,變成一個大檔案而已,如果要有壓縮資料的功能,必須配合另外的壓縮格式,以下介紹一般在 UNIX/Linux 中常用的壓縮格式。
因為單純的 .tar 檔案格式是沒有壓縮資料的功能的,它只是把好多目錄與資料夾打包起來,變成一個大檔案而已,如果要有壓縮資料的功能,必須配合另外的壓縮格式,以下介紹一般在 UNIX/Linux 中常用的壓縮格式。
.tar.gz 壓縮檔案
.tar.gz 壓縮檔案格式(等同於 .tgz)是在 UNIX/Linux 系統上最常見的壓縮檔案格式之一,這個檔案格式其實就是把一般的 .tar 檔案使用 gzip 再壓縮一次,下面這張圖就是描述這個概念。UNIX/Linux 檔案壓縮與備份工具 tar 指令使用教學與範例(一)-- tar 檔案
tar 指令是 UNIX/Linux 系統管理者最常會用到的指令之一,這裡蒐集一些使用範例,讓你透過範例了解如何使用 tar 來壓縮、解壓縮或備份檔案。
Linux 的 tar 指令是系統管理者常常會用到的檔案壓縮、解壓縮或備份指令,它的名字原本是代表「tape archive」,所以這個指令其實也常常用於磁帶的備份工作。
tar 本身在做的工作就是把一連串的檔案或資料夾壓縮成一個檔案,而在 Linux 中常見的壓縮格式有 tar、gzip 與 bzip 這三種,以目前說在 Linux 系統中最通用的壓縮格式這是這幾種,絕大部分的壓縮檔案都是使用這些壓縮格式,使用比較通用的壓縮格式對於不同硬碟或不同機器之間的資料交換會更方便。
在這裡我們會示範各種 tar 指令的使用方式,包含建立壓縮檔(例如 .tar、.tar.gz、與 .tar.bz2 這些檔案格式)、解壓縮檔案、從壓縮檔中解開特定檔案、觀看壓縮檔的內容、驗證檔案、加入檔案或資料夾到既有的壓縮檔之中、估計 tar 壓縮檔的大小等。
透過這些範例的說明,可以讓你更了解 tar 指令可以做哪些事情,也可以幫助你在處理這些壓縮檔案時更得心應手。
Linux 的 tar 指令是系統管理者常常會用到的檔案壓縮、解壓縮或備份指令,它的名字原本是代表「tape archive」,所以這個指令其實也常常用於磁帶的備份工作。
tar 本身在做的工作就是把一連串的檔案或資料夾壓縮成一個檔案,而在 Linux 中常見的壓縮格式有 tar、gzip 與 bzip 這三種,以目前說在 Linux 系統中最通用的壓縮格式這是這幾種,絕大部分的壓縮檔案都是使用這些壓縮格式,使用比較通用的壓縮格式對於不同硬碟或不同機器之間的資料交換會更方便。
在這裡我們會示範各種 tar 指令的使用方式,包含建立壓縮檔(例如 .tar、.tar.gz、與 .tar.bz2 這些檔案格式)、解壓縮檔案、從壓縮檔中解開特定檔案、觀看壓縮檔的內容、驗證檔案、加入檔案或資料夾到既有的壓縮檔之中、估計 tar 壓縮檔的大小等。
透過這些範例的說明,可以讓你更了解 tar 指令可以做哪些事情,也可以幫助你在處理這些壓縮檔案時更得心應手。
一天一秒鐘的寶寶成長過程記錄
英國 Hayling Island 的一位攝影師 Sam Cornwell 的第一個寶寶 Indigo 在 2012 年 7 月 9 日出生,從那時候開始他與他的妻子 Beverley 每天都用攝影機記錄寶寶的成長過程,現在寶寶滿一歲了,這是一年來寶寶「每天」的成長過程。
Indigo 在預產期的前一個月出生,而 Sam 與 Beverley 從那時候開始有了不同的生活。
「說實在話,我們其實不是很清楚我們在做什麼」 -- Sam 與 Beverley。
因為是新手爸媽,任何事情都沒有經驗,使用照片與影片來記錄寶寶的成長過程只是一般爸媽很自然會做的事情。
在一些比較特別的時刻,他們會將拍攝好的相片與影片放在他們建立的 Indigo 網站上,分享給親朋好友。
Indigo 在預產期的前一個月出生,而 Sam 與 Beverley 從那時候開始有了不同的生活。
「說實在話,我們其實不是很清楚我們在做什麼」 -- Sam 與 Beverley。
因為是新手爸媽,任何事情都沒有經驗,使用照片與影片來記錄寶寶的成長過程只是一般爸媽很自然會做的事情。
在一些比較特別的時刻,他們會將拍攝好的相片與影片放在他們建立的 Indigo 網站上,分享給親朋好友。
資料科學家(Data Scientist)的價值所在:美國遊說活動資料實例分析
這裡用一個美國遊說活動的資料為例,說明資料科學家(Data Scientist)到底在做什麼。
上個月的 Data Science DC Meetup 會議中,一些來自 Sunlight Foundation 的研究者報告了一些使用進階資料分析與視覺化的方法,使一般的文字資料更容易讓人理解。
其中有一些資料是關於美國遊說活動(lobbying activities)的開放性原始資料,而任何人也都可以在遵守 FOIA(Freedom of Information Act)條款下取得這些資料,但是這些資料如果沒有經過整理,你可能很難完全消化,因為這個原始資料沒有特定的結構,都是一般的文字報告,就像這樣:
如果只有幾份報告,那是沒什麼問題,但是現在這種報告有 7814 份,包含 987 個法案、678 個機構、170 種行業,這些報告都是近年來(2007 年至 2012 年)跟移民法案(immigration bills)相關的遊說報告,我們有興趣的是有沒有什麼資訊隱藏在這將近八千份的文件中,因為沒有人有辦法一次看完將近八千份文件,所以我們會需要一些資料科學家來幫忙做分析。
上個月的 Data Science DC Meetup 會議中,一些來自 Sunlight Foundation 的研究者報告了一些使用進階資料分析與視覺化的方法,使一般的文字資料更容易讓人理解。
其中有一些資料是關於美國遊說活動(lobbying activities)的開放性原始資料,而任何人也都可以在遵守 FOIA(Freedom of Information Act)條款下取得這些資料,但是這些資料如果沒有經過整理,你可能很難完全消化,因為這個原始資料沒有特定的結構,都是一般的文字報告,就像這樣:
如果只有幾份報告,那是沒什麼問題,但是現在這種報告有 7814 份,包含 987 個法案、678 個機構、170 種行業,這些報告都是近年來(2007 年至 2012 年)跟移民法案(immigration bills)相關的遊說報告,我們有興趣的是有沒有什麼資訊隱藏在這將近八千份的文件中,因為沒有人有辦法一次看完將近八千份文件,所以我們會需要一些資料科學家來幫忙做分析。
史丹佛大學機器學習(Machine Learning)上課筆記(二)
本篇為史丹佛大學機器學習(Machine Learning)課程 Lecture 2 的後半段筆記,其接續上半段的內容。
在這個方法中,我們直接把 \(J\) 對每個 \(\theta_j\) 做微分,然後將其設定為零,為了簡化代數的推導,我們先介紹一些微積分的矩陣表示法。
The Normal Equations
要找 \(J\) 的最小值除了 gradient descent 演算法之外,還有許多方式,這裡介紹另一個方法,使用這個方法直接使用 explict 的方式算出最小值,這樣可以不需要使用遞迴的方式。在這個方法中,我們直接把 \(J\) 對每個 \(\theta_j\) 做微分,然後將其設定為零,為了簡化代數的推導,我們先介紹一些微積分的矩陣表示法。
史丹佛大學機器學習(Machine Learning)上課筆記(一)
這是我觀看史丹佛大學機器學習(Machine Learning)課程時,自己做的筆記,分享給大家。本篇為 Lecture 2 的前半段筆記。
這是史丹佛大學機器學習課程 Lecture 2 的錄影,而英文的 Lecture notes 可以從他的官方網站下載。
這是史丹佛大學機器學習課程 Lecture 2 的錄影,而英文的 Lecture notes 可以從他的官方網站下載。
Google 臺灣防災地圖 -- 整理颱風動態與災情相關資訊
Google 最近推出了「Google 臺灣防災地圖」,這個地圖整合了很多台灣政府各級單位的災害預報、災情警報資訊等等,在常常有颱風的夏天應該是很實用。
在有颱風的時期進入這個網站,就會看到基本的颱風路徑與預報。
在有颱風的時期進入這個網站,就會看到基本的颱風路徑與預報。
Adobe Acrobat Reader 的高反差功能 -- 高對比度色彩讓閱讀 PDF 文件更輕鬆、不傷眼睛
這裡介紹如何設定 Adobe Acrobat Reader 開啟高反差功能,讓一般的 PDF 檔可以變成黑底綠字(或黑底白字),讓閱讀 PDF 文件更輕鬆,眼睛也比較不會疲累。
一般的 PDF 文件都是白底黑字的居多,就像這樣:
有時候看個幾頁還好,若是要看整本書就很痛苦了,長期盯著白底黑字的螢幕看,看到後來眼睛會很累。
幸好 Adobe Acrobat Reader 有考慮到這一點,本身就有內建自定文字與背景顏色的功能,調整之後就可以讓眼睛越讀起來更舒服,唯一的缺點就是顏色跟原本的文件不同(因為調整過當然不一樣啦),有時候可會比較醜一點,但是其實在很多狀況下我們不是要看漂亮的,尤其是研究生看論文,其實只是看一堆文字與公式,票不漂亮根本不是重點,但因為不知道這個功能就只好無奈的直接看。
以下介紹如何設定 Adobe Acrobat Reader 開啟高反差功能,自行調整 PDF 的文字與背景顏色,讓閱讀文件更輕鬆。
一般的 PDF 文件都是白底黑字的居多,就像這樣:
有時候看個幾頁還好,若是要看整本書就很痛苦了,長期盯著白底黑字的螢幕看,看到後來眼睛會很累。
幸好 Adobe Acrobat Reader 有考慮到這一點,本身就有內建自定文字與背景顏色的功能,調整之後就可以讓眼睛越讀起來更舒服,唯一的缺點就是顏色跟原本的文件不同(因為調整過當然不一樣啦),有時候可會比較醜一點,但是其實在很多狀況下我們不是要看漂亮的,尤其是研究生看論文,其實只是看一堆文字與公式,票不漂亮根本不是重點,但因為不知道這個功能就只好無奈的直接看。
以下介紹如何設定 Adobe Acrobat Reader 開啟高反差功能,自行調整 PDF 的文字與背景顏色,讓閱讀文件更輕鬆。
如何加強 WiFi 無線網路的安全性?
這裡整理了一些可以加強一般 WiFi 無線網路安全性的方法,並解釋無線網路安全的重要性對於日常生活中使用網路的影響在哪裡。
全世界現在大約有四分之一的網路使用者在家使用 WiFi 無線網路,但是大多數人都不太了解該如何保護自己的無線網路安全,以及他的重要性在哪裡。簡單地說,自己家中的 WiFi 無線網路就好像你家的大門一樣,你一定會希望這道門既堅固又安全,足以保護自己家中的財產不被外人偷走。
當資料在位加密的 WiFi 無線網路上傳遞時,你所傳送或接收的任何資料都有可能被附近的人攔截下來,甚至在附近的人也可以直接使用你的無線網路,搶走你的網路頻寬,讓你的網路連線速度變慢。而把無線網路加密之後,你就可以避免上面這些問題,讓你的資料比較不容易被竊聽,也可以保護到使用網路的電腦不受到外界的威脅。
這是 Google 錄製的一段無線網路安全(wireless security)的教學影片,簡單介紹為什麼無線網路要加密。
如果你對於加強你的 WiFi 無線網路有興趣,以下是一些可以讓你的無線網路更安全的辦法:
全世界現在大約有四分之一的網路使用者在家使用 WiFi 無線網路,但是大多數人都不太了解該如何保護自己的無線網路安全,以及他的重要性在哪裡。簡單地說,自己家中的 WiFi 無線網路就好像你家的大門一樣,你一定會希望這道門既堅固又安全,足以保護自己家中的財產不被外人偷走。
當資料在位加密的 WiFi 無線網路上傳遞時,你所傳送或接收的任何資料都有可能被附近的人攔截下來,甚至在附近的人也可以直接使用你的無線網路,搶走你的網路頻寬,讓你的網路連線速度變慢。而把無線網路加密之後,你就可以避免上面這些問題,讓你的資料比較不容易被竊聽,也可以保護到使用網路的電腦不受到外界的威脅。
這是 Google 錄製的一段無線網路安全(wireless security)的教學影片,簡單介紹為什麼無線網路要加密。
如果你對於加強你的 WiFi 無線網路有興趣,以下是一些可以讓你的無線網路更安全的辦法:
Linux 的記憶體快取(Cache Memory)功能 - Linux 系統把記憶體用光了?
這裡 Linux 記憶體中的記憶體快取(Cache Memory)是什麼,並討論相關的一些指令用法。
在 Linux 中系統會將暫時沒有用到的記憶體借來當作磁碟的快取(cache),而在用 top 指令看系統的 free 的記憶體時,感覺記憶體好像所剩無幾,有些人就會以為 Linux 系統把記憶體吃光光了,然後就推測這樣系統會用到 swap 記憶體,效能也會跟著下降,但其實不是這樣的,而且真正的情況剛好相反。
實際上 Linux 系統拿沒有用到的記憶體當作硬碟的快取,可以會讓整個系統的效能提昇很多,而且沒有任何副作用(除了讓一些不了解的人很緊張之外),它只是「暫時」把沒有用到的記憶體借來用一下而已,當有程式需要記憶體時,系統就會馬上把記憶體拿回來給需要記憶體的程式使用,完全沒有霸佔記憶體的問題。
有些人也會擔心這樣的機制會不會讓系統使用到 swap 記憶體?事實上這也不用擔心,快取只會用到暫時沒有使用 RAM,並不會使用到 swap 來作為快取(使用 swap 也沒什麼意義,因為 swap 就是在磁碟上,不會比較快)。
在 Linux 中系統會將暫時沒有用到的記憶體借來當作磁碟的快取(cache),而在用 top 指令看系統的 free 的記憶體時,感覺記憶體好像所剩無幾,有些人就會以為 Linux 系統把記憶體吃光光了,然後就推測這樣系統會用到 swap 記憶體,效能也會跟著下降,但其實不是這樣的,而且真正的情況剛好相反。
實際上 Linux 系統拿沒有用到的記憶體當作硬碟的快取,可以會讓整個系統的效能提昇很多,而且沒有任何副作用(除了讓一些不了解的人很緊張之外),它只是「暫時」把沒有用到的記憶體借來用一下而已,當有程式需要記憶體時,系統就會馬上把記憶體拿回來給需要記憶體的程式使用,完全沒有霸佔記憶體的問題。
有些人也會擔心這樣的機制會不會讓系統使用到 swap 記憶體?事實上這也不用擔心,快取只會用到暫時沒有使用 RAM,並不會使用到 swap 來作為快取(使用 swap 也沒什麼意義,因為 swap 就是在磁碟上,不會比較快)。
人的一生,到底在追求什麼?
一個美國商人坐在墨西哥海邊一個小漁村的碼頭上,有個墨西哥漁夫划著一艘小船靠岸。
小船上有好幾尾大黃鰭鮪魚,這個美國商人對墨西哥漁夫能抓這麼高檔的魚恭維了一番,還問要多少時間才能抓這麼多?
墨西哥漁夫說:「才一會兒功夫就抓到了。」
美國人再問:「你為甚麼不待久一點,好多抓一些魚?」
墨西哥漁夫覺得不以為然:「這些魚已經足夠我一家人生活所需啦!」
美國人又問:「那麼你一天剩下那麼多時間都在幹甚麼?」
墨西哥漁夫解釋:「我呀?我每天睡到自然醒,出海抓幾條魚,回來後跟孩子們玩一玩,再跟老婆睡個午覺,黃昏時晃到村子裡喝點小酒,跟哥兒們玩玩吉他,我的日子可過得充實又忙碌呢!」
美國人不以為然,幫他出主意,他說:「我是美國哈佛大學企管碩士,我倒是可以幫你忙!你應該每天多花一些時間去抓魚,到時候你就有錢去買條大一點的船。自然你就可以抓更多魚,再買更多漁船。然後你就可以擁有一個漁船隊。到時候你就不必把魚賣給魚販子,而是直接賣給加工廠。然後你可以自己開一家罐頭工廠。如此你就可以控制整個生產、加工處理和行銷。然後你可以離開這個小漁村,到墨哥城,再搬到洛杉磯,最後到紐約。在那裡經營你不斷擴充的企業。」
小船上有好幾尾大黃鰭鮪魚,這個美國商人對墨西哥漁夫能抓這麼高檔的魚恭維了一番,還問要多少時間才能抓這麼多?
墨西哥漁夫說:「才一會兒功夫就抓到了。」
美國人再問:「你為甚麼不待久一點,好多抓一些魚?」
墨西哥漁夫覺得不以為然:「這些魚已經足夠我一家人生活所需啦!」
美國人又問:「那麼你一天剩下那麼多時間都在幹甚麼?」
墨西哥漁夫解釋:「我呀?我每天睡到自然醒,出海抓幾條魚,回來後跟孩子們玩一玩,再跟老婆睡個午覺,黃昏時晃到村子裡喝點小酒,跟哥兒們玩玩吉他,我的日子可過得充實又忙碌呢!」
美國人不以為然,幫他出主意,他說:「我是美國哈佛大學企管碩士,我倒是可以幫你忙!你應該每天多花一些時間去抓魚,到時候你就有錢去買條大一點的船。自然你就可以抓更多魚,再買更多漁船。然後你就可以擁有一個漁船隊。到時候你就不必把魚賣給魚販子,而是直接賣給加工廠。然後你可以自己開一家罐頭工廠。如此你就可以控制整個生產、加工處理和行銷。然後你可以離開這個小漁村,到墨哥城,再搬到洛杉磯,最後到紐約。在那裡經營你不斷擴充的企業。」
亞馬遜電子書閱讀器 Amazon Kindle Paperwhite 關機時背光還會亮的問題
今天突然發現我的 Amazon Kindle Paperwhite 在關機時,背光竟然還是亮的!讓我下一跳,原本想說這個設計怎麼那麼爛,上網查的才發現根本不是這樣,關機的時候應該是不會亮的。
最近因為比較忙,之前買的 Kindle Paperwhite 就放著沒在用,今天一拿出來看發現電池少了一半,嚇了一跳,明明沒有用它,電量卻減少那麼多,結果檢查一下發現問題在於 Kindle 關機時,他的背光竟然還是亮的!不管我用手動按下電源鈕或是蓋上保護套自動關機的方式都一樣,他就是會一直亮,難怪他的電一下就用掉那麼多。
後來上網研究一下,發現這可能是軟體的 bug,把 Kindle 重新開機有可能就可以解決了。以下是我的處理方式。
首先選擇主選單的「Settings」:
最近因為比較忙,之前買的 Kindle Paperwhite 就放著沒在用,今天一拿出來看發現電池少了一半,嚇了一跳,明明沒有用它,電量卻減少那麼多,結果檢查一下發現問題在於 Kindle 關機時,他的背光竟然還是亮的!不管我用手動按下電源鈕或是蓋上保護套自動關機的方式都一樣,他就是會一直亮,難怪他的電一下就用掉那麼多。
後來上網研究一下,發現這可能是軟體的 bug,把 Kindle 重新開機有可能就可以解決了。以下是我的處理方式。
首先選擇主選單的「Settings」:
訂閱:
文章 (Atom)