2025-03-26

Linux Live的記憶體(RAM)使用

 二十幾年前開始玩KNOPPIX這個很不同的Linux distribution後,就再也沒回去用正常安裝方式,KNOPPIX當時的壓縮法是用cloop,幾年之後各大distribution也開始採用Live system的方式來製作自家的CD/DVD ISO,絕大多數都是採用squashfs壓縮演算法,之後差不多squashfs主導了Live system。

 不過各家Live system用在initrd裡的系統導引法各有不同,Debian用「live」, Ubuntu用「casper」,已經走入歷史的CentOS用的也叫「live」但和Debian不同,Siduction用fll。各種live system有一個相同的開機參數「toram」, 它會把整個Live系統cp到RAM裡面,在開機完成後,我們可以把用來開機的USB隨身碟或光碟整個拿掉,因為系統已經不再依賴它了。

 但是Ubuntu用的casper在遇到「toram」參數後,會cp整支USB隨身碟全部進入RAM裡面, 這樣是有問題的,如果你的USB是64GB,而裡面裝了其他不是Live system的檔案,它會全部cp到RAM裡,萬一你的RAM只有16GB或更少,這樣就無法完成開機,因為RAM被塞滿了,而系統還沒完全cp進入RAM。

 使用Ubuntu而不要讓它cp所有USB裡的檔案進入RAM,必需自行手動拆解initrd好把casper裡面cp「整支USB」的那一段程式改成只cp「某個目錄」之下的檔案,再做成initrd,這樣才不會把RAM灌爆掉。其他Live system有的會有不同的參數(例如image_name)來指定只cp目錄下的特定檔案(squashfs壓縮的主系統檔)到RAM裡,像siduction用的fll會自行計算該檔案的大小,以便切割出為存放那個檔案大小的區域,也避免會浪費RAM。

 Live system有一項重要的參數"overlay", 在絕大多數initrd裡的規化都是採用50%, 極少數可以讓user自行指定,在我實際使用上發現50%其實不太符合需求,特別是在RAM少的電腦,例如RAM只有4G的系統下,overlay 50%的話就是只有2G能拿來當儲存體,存放開機完成後諸如 /etc, /home, /usr, /var等等,會相當不足!

 如果把"overlay"加大到90%的話,既使只有4G RAM的電腦也還算堪用,但這時就不宜使用"toram"的方式,而是保持系統放在儲存設備如USB隨身碟或電腦本身的硬碟。

至於開機有哪些參數可用,好像沒有共通的說明文件,只能自行拆解「initrd」看它裡面有什麼相關的參數可用,沒有的話就只能自行修改。

關於RAM少的電腦還有一個可以補救的方法就是使用zram, 而zram大概用50%就好,因為RAM已經很少,然而這50%可以存放大約三倍容量的資料,也就是說一台只有4G RAM的電腦,使用zram後的記憶體相當等於(4-2)+(2*3)=8G RAM,邏輯上多出來一倍,不過它要依賴CPU運算進行「壓縮/解壓縮」,或許會稍微延遲軟體的執行,但對於無法在物理上增加RAM的環境,還是相當有益處。

2025-02-27

MacBook與Linux kernel

 之前在一台退休的Intel MacBook跑Linux Live系統都只是用USB隨身碟開機進入使用,完全沒動到它的SSD,因為老機器RAM很少,不能用"toram"來載入,因此全程都要掛一支USB碟在機器上,其實有些不方便也不好看。

 後來這台MacBook的macOS已經無法再升級(其實硬要升級還是有辦法,只是已經對使用macOS沒什麼興趣)。個人在各種機器上使用Linux Live system已經二十幾年了,想到這台老MacBook的touchpad觸感不錯,重量相對的輕,電池續航力也有三個多小時,偶而帶它外出也蠻好用,現在把它的SSD割了10GB一小塊,打算用來塞入Live system(只是單純從USB copy到SSD, 不是執行正常的Linux install)。

 之前做的USB開機碟可以支援MacBook本身的Wifi以及Camera,更新到最後是Ubuntu 20.04.4,可以看到MacBook的SSD無誤,但有一陣子沒再用它,加上20.04有點年紀了,某些軟體無法換用新版本,於是這次改用Debian Trixie來開機,並且做好Wifi以及Camera(Mac叫做FacetimeHD)的支援,MacBook的硬體都能用到。

只是用它開機完成後,發現完全看不到MacBook已經割好的SSD!就是說用cat /proc/partitions時除了USB隨身碟之外完全看不到MacBook的SSD partition。變成使用的全程要一直依賴插一支支USB隨身碟。

 這時再降回去用Ubuntu 20.04.4開機,卻是可以在/proc/partitions看得到SSD,先懷疑Trixie包的initrd方式不同,於是拆除initrd裡的early,early2,再試還是一樣!看來不是initrd裡面的問題。

 搜尋網路上的相關Linux以及MacBook的資訊,但看到一堆都是講怎麼用apfs-fuse來mount,而我遇到的問題是完全看不到SSD,跟mount的問題無關。

 接著分別找了Arch,Debian,Ubuntu相關或衍生的distribuion的kernel/initrd (4.x或5.x以及6.x)來開機比對,發現只有5.x能看到SSD,而4.x跟6.x都看不到,真的是很奇怪的問題?

 又在網路上陸續找一些相關MacBook問題,最後找到一篇小小的文裡提到解決方法是在boot option加上intel_iommu=off

 加了這個option的Trixie 6.x kernel開機後果然能看到MacBook的SSD。

 那麼隨機找幾個不同kernel版本來看看它是怎麼定義"intel_iommu"的?

  • 4.9.0
    CONFIG_INTEL_IOMMU_DEFAULT_ON=y
  • 4.15.0-20
    CONFIG_INTEL_IOMMU_DEFAULT_ON is not set
  • 5.10.188
    CONFIG_INTEL_IOMMU_DEFAULT_OFF=y
  • 5.19.0-32
    CONFIG_INTEL_IOMMU_DEFAULT_ON is not set
  • 6.1.0-29
    CONFIG_INTEL_IOMMU_DEFAULT_OFF is not set
  • 6.11.5
    CONFIG_INTEL_IOMMU_DEFAULT_OFF is not set
  • 6.12.6-1
    CONFIG_INTEL_IOMMU_DEFAULT_ON=y
  • 6.13.2
    CONFIG_INTEL_IOMMU_DEFAULT_ON=y

 以上各版本kernel在不加任何boot option的情況下,只有5.10.188可以看得到MacBook SSD, 因為只有它是CONFIG_INTEL_IOMMU_DEFAULT_OFF=y 也就相當於在開機時加上 intel_iommu=off

 其它版本有幾個都是相當於
intel_iommu=on
或可以說,沒定義成off 就看不到SSD了。

 根據kernel文件提到「The Intel IOMMU driver allocates a virtual address per domain. Each PCIE device has its own domain.」
如果想進一步研究,可以參考以下文件:
http://www.intel.com/content/dam/www/public/us/en/documents/product-specifications/vt-directed-io-spec.pdf

低效款電腦執行AI distilled model

 前一篇提到被媒體大力炒作的Deepseek R1,因為手上電腦比較薄弱,所以拿它的distilled 8b model來跑,之後陸續再試的也都挑能力差不多的distilled model,像是tulu3:8b model, 感覺它明顯比deepseek R1:8b model來得聰明,如果說deepseek R1:8b是小學生,那tulu3 8b幾乎是高中生,因為問tulu3有關宗教的問題它也能清楚對答,不像前者常常胡說八道不知所云。

 接著又試了gemma2:9b model, 不曉得是不是多了1b ? 發現它比前兩種更聰明,對這三個能力差不多的distilled AI model 用同樣的「台灣台北市木柵以出產什麼聞名?」來提問,得到的回答是:

  1.  deepseek R1:8b -> 高品质木材(它聲稱自己會用正體中文,但所有回答都是簡體字)
  2.  tulu3:8b -> 優質竹炭
  3.  gemma2:9b -> 文山包種茶

看來多了1b的model確實有比較聰明一些!

2025-01-31

Deepseek R1與π小數點

 農歷新年這幾天,Deepseek成為新聞談話的主題,因為它把NVDA股價嚇了一大跳,原本只是到Youtube找找看有什麼評論資訊,其中看到包括微軟退休工程師David Plummer的看法,他提到如果Deepseek所宣稱的都是真的,那就像你在家裡就可以自製一台法拉利跑車,而且功能完全跟公司貨真品法拉利一模一樣,這當會嚇掉法拉利公司的股價。

 David又提到從它的model來看,它是從大model來training出小model,這個小model不必依賴強大的硬體就能在一般人家裡的電腦執行AI。

就像幾十年前個人電腦發展史一樣,PC出來的時候讓一般人不必購買像大公司大機構裡的大電腦,而可以擁有自己的個人電腦來執行各種軟體。但這樣的問題是,當大model裡有什麼bug,由它train出來的小model便繼承了先前的bug。

 另外也看了Jeff Geerling以及Aleksandar Haber的Youtube video,發現只要用Raspberry Pi也可以安裝小model的Deepseek在家裡玩,於是動手用一台比Pi的性能還高一些的舊Macmini(16GB RAM)裝來玩玩看。從https://www.ollama.com可以找到六個distill的版本,當然也有原本的R1(671b)。我的舊Macmini完全沒有NVidia GPU,所以不可能快,不過我想正確性應該相同。

先裝一個最低階1.5b來玩,發現它幾乎答非所問,於是再裝一個8b的,問它列出π小數點後面100位,結果它開始跟我聊天,說什麼一般人不會用到小數點後面100位,接著東扯西扯。我想這跟我的電腦沒有NVidia GPU應該無關吧?但它還是繼續東扯西扯就是不肯列出小數點後面100位,後來終於列了小數點後40位,不過我一看,從第21位數開始就是錯的!因為我記得小數點後面50位,可以百分之百確認從第21位之後就是錯的。

 我再孤狗一下「怎麼用python程式列出π小數點後面100位」,得出來的結果是只用了三行python code就能做到要列幾位數就列幾位數,但是為什麼8b model 的deepseek一直列不出來?

 另外在一篇網路文章https://www.kelacyber.com/blog/deepseek-r1-security-flaws/ 裡看到說他利用兩年前早就公開的技術,可以jailbreak Deepseek來得到想要的資料,也就是說別的AI裡早已補起來的漏洞,在Deepseek卻仍存在!而且能從Deepseek得到一些違法的知識,像是製造爆裂物等等。

 目前OpenAI也質疑Deepseek偷了他們的東西來用,這也讓人難免不想到中國各行各業過去幾十年來總是盜用、抄襲別人的智慧財,OpenAI指責Deepseek利用OpenAI的model來train Deepseek的model,也就像盜印圖書館的書來自己成立一間圖書館,這樣當然不必花大錢買書。但目前對於版權的法律還沒進步到AI這一塊,因此就算OpenAI能舉出Deepseek抄襲、盜用,這個問題目前仍是無解。