I Silico analyse af gastrisk karcinom Serial Analyse af genekspression biblioteker afslører forskellige profiler, der er forbundet med etnicitet
Abstrakt
Worldwide gastrisk karcinom har markeret geografiske variationer og dårligere resultat hos patienter fra Vesten i forhold til Østen. Selv om disse forskelle er blevet forklaret af bedre diagnostiske kriterier, forbedrede mellemstationer metoder og mere radikale indgreb, ny dokumentation understøtter konceptet, at genekspression forskelle forbundet til etnicitet kan bidrage til denne uensartede resultat. Her har vi samlet datasæt fra 4 normal og 11 gastrisk karcinom Serial Gene Expression Analysis (SAGE) biblioteker fra to forskellige etniske grupper. Alle normale SAGE biblioteker samt 7 tumor biblioteker var fra Vesten og 4 tumor biblioteker var fra øst. Disse datasæt vi sammenligner med Korrespondance Analyse og support Tree analyse og specifikke forskelle i tags udtryk blev identificeret ved Betydning Analyse for Microarray. Tags til gen-opgaver blev udført af CGAP-SAGE Genie eller TAGmapper. Analysen af den globale transkriptom viser en klar adskillelse mellem normale og tumor biblioteker med 90 tags differentielt udtrykte. En klar adskillelse blev også fundet mellem vest og øst tumor biblioteker med 54 tags differentielt udtrykte. Tags til gen-opgaver identificeret 15 gener, 5 af dem med betydelig højere udtryk i Vesten bibliotekerne i forhold til de øst-biblioteker. QRT-PCR i cellelinjer fra vest og øst oprindelse bekræftede disse forskelle. Interessant, to af disse gener er blevet associeret med aggressivitet (COL1A1 og KLK10). Afslutningsvis fandt vi, at i silico analyse af SAGE biblioteker fra to forskellige etniske grupper afslører forskelle i genekspression profil. Disse udtryk forskelle kan bidrage til at forklare den uensartede resultat mellem Vesten og Østen.
Introduktion
Gastrisk karcinom er den næststørste årsag til kræft dødsfald på verdensplan og har markeret geografiske variationer [1-3]. Den observerede fordel i 5-års overlevelse fra patienter fra øst end fra vest kan afspejle forskelle i diagnostiske kriterier, bedre mellemstationer metoder og mere radikal kirurgi [4]. Men nye beviser understøtter konceptet, at etnicitet kan bidrage til de forskellige gastrisk karcinom resultater mellem Øst og Vest [4, 5]. Serial Analyse af genekspression (SAGE) er en omfattende profilering metode, der giver mulighed for global, unbiased og kvantitativ karakterisering af transcriptomes [6]. En stor fordel ved SAGE er, at når normaliseret er muligt direkte at sammenligne niveauerne af tags genereres af et enkelt forsøg med andre [7] til rådighed. For at få et indblik i forskellene mellem gastrisk karcinom transcriptomes der kan forklare de forskellige resultater mellem Øst og Vest her vi sammenligner datasæt femten SAGE biblioteker afledt fra normale og gastrisk tumorvæv fra japanske og amerikanske mavecancerpatienter ved Korrespondance Analysis, Support træ og betydning Analyse for Microarray for significative tags og gen markering. Vi fandt specifikke gener udtrykkes forskelligt mellem normale og tumor SAGE biblioteker samt tumor biblioteker fra Østen og Vesten. Disse differentielt udtrykte gener kan forklare værre overlevelse i Vesten i forhold til Østen.
Metoder
Serial Analyser af genekspression data
Femten gastrisk SAGE biblioteker (4 normale og 11 tumor) fra Cancer Genome Anatomi projekt (CGAP) [7] blev kombineret til analyse. Kun biblioteker med 10 bp tags og de samme skærende enzymer (BsmFI og NlaIII) blev inkluderet i denne undersøgelse. Normale biblioteker består af et væv pool (GSM784 og GSM14780) eller Mikrodissekterede prøver (CGAP_MD_13S og CGAP_MD_14S) og blev produceret af El-Rifai et al [8] i Virginia, USA. Gastrisk tumor biblioteker består af fem biblioteker, tre mikrodissekeret (CGAP_MD_HG7, CGAP_MD_HS29, CGAP_MD_G329), to primære tumorer (GSM757 og GSM2385) og to xenotransplantater (GSM758 og GSM14760) alt fra vestlige patienter og produceret af El-Rifai et al [8] også i Virginia, USA ( "West tumor biblioteker") og 4 biblioteker (GSM7800, GSM8505, GSM8867 og GSM9103) alle fra japanske patienter produceret af Oue et al [9] i Hiroshima, Japan ( "East tumor biblioteker"). En database, der indeholder 121,409 forskellige mærker blev genereret fra biblioteker, som har mellem 9.000 og 34.000 unikke tags. Således blev kun bibliotek GSM9103 fjernet, fordi dens unikke mærkeantal var for lav (omkring 6.000 unikke tags). Frekvensen af hvert tag blev normaliseret ved at dividere det med det samlede tag nummeret på den tilsvarende bibliotek og multiplicere med 200.000 tags (CGAP normalisering format). Et udvalg proces til at reducere støj fra en enorm mængde af tags indsamlede blev udført. Dette udvælgelseskriterium var i) "tags findes i alle normale biblioteker" vs. "tags findes i alle tumor biblioteker" og ii) "tags findes i alle West tumorer biblioteker" vs. "tags fundet i alle East tumorer biblioteker
". Instituttet for Genomic Research software MultiExperiment Viewer [10] blev anvendt til at udføre følgende analyse: i) Korrespondance Analysis (COA) at udforske sammenhænge mellem prøver, der har tendens til at have lignende profiler ii) Støtte Tree til viser statistisk støtte efter gentaget mindst 1000 gange analysen ved resampling med udskiftning (Bootstrap-metoden) for prøver med lignende profiler og iii) betydning Analyse for Microarray (SAM) til at vælge tags, hvis udtryk var signifikant forskellig mellem prøverne. Foreningen af mærker til gener var udføre ved SAGE Genie [11] eller TAGmapper [12], når ingen sammenhæng blev fundet af SAGE Genie. At forudsige funktionelle klasser af kommenterede gener i FatiGO + værktøj af Babelomics [13, 14] blev anvendt. Den justerede p-værdien i Babelomics blev anvendt, fordi det lille antal gener analyserede gjort det mere hensigtsmæssigt end den justeres-False Discovery Rate (FDR) værdi.
Kvantitativ Real-Time Reverse-Transskription PCR
Kvantitativ real tid revers-transkription-PCR (QRT-PCR) blev udført på to vestlige cellelinier (AGS, N87) og én østlige cellelinie (MKN45). Totalt RNA blev ekstraheret under anvendelse af Trizol (Invitrogen Life Technologies, Carlsbad, CA) ifølge producentens anbefalinger. RNA-koncentrationen blev bestemt ved måling af absorbans ved 260 nm, og kvaliteten blev verificeret ved integriteten af 28S og 18S rRNA efter ethidiumbromidfarvning af totale RNA-prøver underkastet 0,8% agarosegelelektroforese. Total cDNA blev syntetiseret med MMLV (Moloney Murine Leukemia Virus) revers transkriptase (RT Thermoscript; Invitrogen Life Technologies, Carlsbad, CA). Revers transkription-PCR blev udført under anvendelse af 1 ug totalt cellulært RNA for at generere cDNA. QRT-PCR blev udført under anvendelse af en LightCycler-FastStart DNA Master SYBR Green I kit (Roche Molecular Biochemicals, Mannheim, Tyskland). Vi har designet genspecifikke primere til human PDFGR (5 'AGCTGATCCGTGCTAAGGAA 3' og 5 'CGACCAAGTCCAGAATGGAT 3') og RPL13 (5 'GAGGAGGCGGAACAAGTCC 3' og 5 'TCAGCAGAACTGTCTCCCTTC 3') og betingelserne for forstærkning er tilgængelige efter anmodning. En top single-melt-kurven blev observeret for hvert produkt, hvilket bekræfter renheden af alle forstærkede cDNA produkter. De QRT-PCR-resultater blev normaliseret til GADPH (5 'CGGGAAGCTTGTCATCAATGG 3' og 5 'CATGGTTCACACCCATGACG 3'), som havde minimal variation i alle testede cellelinier. Analyse optrådte ved LightCycler software 3.0. Overgangssteder (begyndelsen af PCR eksponentielle fase) blev vurderet af den anden derivatiseres maksimale metode og plottet mod koncentrationen af standarderne.
Resultater
Tags med konsekvent udtryk i normale og tumor SAGE biblioteker
Udvælgelsesprocessen at finde SAGE tags, der blev konsekvent udtrykt i "alle normale biblioteker" vs. "alle tumor biblioteker
" resulterede i 2.437 tags. Som vist i fig. 1, COA viser klar adskillelse mellem normale biblioteker og øst og vest tumor biblioteker. Den samme COA i en tre-dimensionel plot (der tegner sig for 56% af den samlede inerti) viser flere detaljer i positionen for hvert bibliotek (se Ekstra File 1). Disse resultater blev bekræftet af en Support Tree hjælp af Pearson Korrelation og Gennemsnitlig Linkage (se ekstra fil 2). Dernæst at identificere SAGE tags differentielt udtrykte mellem normale og tumorprøver, udførte vi SAM, med en delta værdi på 1,38 beregnet til at opretholde FDR nær til 0 (sandsynlighed for at finde væsentlige tags blot tilfældigt), 1001 unikke permutationer og en fold ændring = 10. Denne fremgangsmåde afslørede 90 tags differentielt udtrykte mellem normale og tumor biblioteker med en lignende adfærd for begge tumor grupper (fig. 2). Blandt disse 90 tags var 78 nedreguleres og 12 tags blev opreguleret. Figur 1 Korrespondance Analyse af normale og tumor SAGE biblioteker af maven. En to-dimensional plot er vist hvor de grønne prikker repræsenterer alle de normale biblioteker, de blå prikker er Øst tumor biblioteker, og det røde, orange og gule prikker er West tumor biblioteker, mikrodissekeret, xenotransplantat og bulk henholdsvis.
Figur 2 Seriel Analyse for Microarray af normale og tumor SAGE biblioteker af maven. Til venstre og vist i grøn farve, de betydelige tags med højere udtryk i de normale biblioteker; til højre og vist i rød farve, de betydelige tags med højere udtryk i tumor biblioteker.
Valg af diskriminerende tags mellem Øst og Vest SAGE biblioteker
Siden tumor side af COA viser 2 grupper, den ene indeholder alle Øst biblioteker og de andre, der indeholder alle de West biblioteker, søgte vi efter diskriminerende elementer mellem de to tumorer biblioteker. Således en ny udvælgelsesproces finde tags, der blev konsekvent udtrykt i "alle East tumorer
" vs. "alle West tumorer
" resulterede i 3.952 tags. En anden Support Tree hjælp af Pearson Korrelation og Average Linkage blev udført. Som vist i fig. 3, træet viser en organiseret struktur med en høj tillid grad i deres filialer (90% -100% støtte), givet af det store antal diskriminerende elementer (tags) med markante familier og underfamilier (Yderligere Fil 3 viser den fulde dendrogram ). Der er to hovedgrupper, man indeholder alle West biblioteker, og den anden indeholder alle East biblioteker. The West klynge indeholder to markante subclusters, den første indeholder de 3 Mikrodissekterede biblioteker (CGAP_MD_HG7, CGAP_MD_HS29 og CGAP_MD_G329) og den anden omfatter primære tumorer (GSM757 og GSM2385) og xenotransplantater (GSM758 og GSM14760). The East klynge indeholder et centralt par (GSM8505 og GSM8867-biblioteker), der kommer fra histologiske godt differentierede tumorer og en tredje bibliotek (GSM7800), der kommer fra en histologisk dårligt differentieret tumor. Dernæst at identificere SAGE tags differentielt udtrykte mellem Vesten og Østen tumor biblioteker, vi udførte en SAM ved hjælp af de samme kriterier, der er nævnt ovenfor. Denne fremgangsmåde viste 54 tags differentielt udtrykte (fig. 4). Blandt disse, 8 tags var opreguleret i Vesten tumorer og 46 tags var opreguleret i East tumorer. Figur 3 Support Tree af normale og tumor SAGE biblioteker af maven. Lanes 1-4 normale biblioteker (CGAP_MD_13S, GSM784, CGAP_MD_14S, GSM14780), baner 5-11 West tumor biblioteker (CGAP_MD_HG7, CGAP_MD_HS29, CGAP_MD_G329, GSM757, GSM758, GSM14760, GSM2385) og baner 12-14 East tumor biblioteker (GSM7800, GSM8505 og GSM8867). Kun toppen af dendrogram er vist her. Den fulde dendrogram vises i supplerende fil 3.
Figur 4 Seriel Analyse for Microarray af øst og vest gastrisk karcinom SAGE biblioteker. Til venstre og vist i orange farve, de betydelige tags med højere udtryk i Vesten tumor biblioteker; til højre og vist i blå farve, de betydelige tags med højere udtryk i East tumor biblioteker.
Kortlægning SAGE tags til gener
For kortlægning differentielt udtrykte SAGE tags til gener vi brugt CGAP-SAGE Genie og /eller TAGmapper ressourcer. Blandt de 90 tags differentielt udtrykte mellem normale og tumor biblioteker, kun 53 tags lykkedes opgave til specifikke gener (Tabel S1 og tabel S2 [Ekstra filer 4 & 5]). Gener som GIF, CPA2, DRD5, CLIC6, ATP4A, LiPF, GKN1 og PGA5 vises blandt de mest undertrykte gener mens TRAPPC5, KRT7, MTHFD1, TMBIM1, PDIA3 og PPGB generne vises blandt de overudtrykte gener. På den anden side, blandt de 54 tags differentielt udtrykt mellem vest og øst tumor bibliotekerne kun 15 tags hvor succesfuldt forbundet til specifikke gener (tabel 1). FatiGO + analyse viste, at tumor biblioteker havde betydeligt mere udtrykte gener relateret til "celle organisation og biogenese" (GO: 0.016.043), KRT7, PDIA3, PPGB og TRAPPC5 (p = 0,005); og "ligaseaktivitet" (GO: 0.016.874), UBE2S og MTHFD1 (p = 0,028) end normale biblioteker ,. Den samme sammenligning afslørede betydeligt mindre udtrykte gener relateret til "integreret membran" (GO: 0.016.021), ADORA1, UGT2B15, DRD5, SYNE2, ATP5J2, KCNE2, ATP4A, KDR, PTGER3 og PPAP2B (p = 0,016). På den anden side, sammenligning af gener udtrykkes forskelligt mellem vest og øst tumor bibliotekerne viste, at West tumorerne havde betydeligt mere udtrykte gener relateret til "ektoderm udvikling" (GO: 0.007.398). (COL1A1 vist i figur 5, også KLK10, KRT17, EMP1, og CCDC12) (p = 0,018). Men East tumorerne havde nær signifikante mere udtrykte gener relateret til "cellulær metabolisme" (GO: 0.044.237) PDGFRA, MAPK13, MECR, AKR1C2, RPL13, HLX1 og ADH4 (p = 0,066). Da mindst to af disse "ektoderm udvikling" gener (COL1A1 og KLK10) er blevet fundet opreguleret i avanceret gastrisk karcinom [9, 15] vores resultater kan tyde mere aggressivitet Vesten tumorer. Figur 5 Ekspressionsniveauer af COL1A1 associeret tag (TGGAAATGAC) i tumor biblioteker. Bars 1-7 svarer til alle West tumor biblioteker (CGAP_MD_HG7, CGAP_MD_HS29, CGAP_MD_G329, GSM757, GSM758, GSM14760, GSM2385 og barer 8-10 svarer til alle East tumor biblioteker (GSM7800, GSM8505, GSM8867). Mærket normaliseret udtryk niveau vises i den CGAP format værdi (tags pr 200.000) plottet i en logaritmisk skala.
tabel 1 de betydelige tags med højere udtryk af betydelige Analyse for Microarray mellem Vesten og Østen tumor SAGE biblioteker. Kun tags, der lykkedes forbundet med en specifikt gen vises. de tags sorteres i en betydning, faldende rækkefølge, først tags højt udtrykte i øst og derefter de stærkt udtrykt i Vesten.
Tags
Gene Symbol
Protein Navn
N ° af West biblioteker, hvor nuværende
West tumor gennemsnit (tags pr 200.000)
N ° af East biblioteker, hvor nuværende
East tumor gennemsnit (tags pr 200.000)
TGATTGGTGG
PDGFRA
blodpladeafledt vækstfaktor receptor, alpha-polypeptid
3
1,88
3
115,05
GGCTGGGTTT
HLX1
H2.0-lignende homeo kasse 1 (Drosophila)
2
1.04
3
59,13
TCCGTCCGGA
RPL13
ribosomprotein L13
3
1,36
3
39,56
ATCTGGAGCA
ADH1C
Alkohol dehydrogenase 1C (klasse i), gamma-polypeptid
3
5.99
3
294,91
TGCTCCTACC
FCGBP
Fc fragment af IgG-bindende protein
4
4,91
3
111,10
TACCCTGGAA
ADH4
Alkohol dehydrogenase 4 (klasse II), pi polypeptid
3
3,35
3
56,30
AGGTCTGCCA
AKR1C2
Aldo-keto-reduktase familie 1, medlem C2 (dihydrodiol dehydrogenase 2; galdesyre-bindende protein; 3-alfa hydroxysteroiddehydrogenase, type III)
3
1.53
3
38,50
GCACCACCGG
MAPK13
mitogen-aktiveret protein kinase 13
0
0
3
10.62
GGAGGGGAGG
MECR
Mitokondriel trans-2-enoyl-CoA reduktase
1
0.55
3
15,72
CTTCCTTGCC
KRT17
Keratin 17
7
220,64
0
0
TAATTTGCAT
EMP1
Epithelial membranprotein 1
7
43,26
0
0
TAAGGCTTAA
KLK10
Kallikrein 10
7
20.35
0
0
TGGAAATGAC
COL1A1
Collagen, type I, alfa 1
7
294,99
2
14,36
TGGATGTACA
CCDC12
dobbeltsnoet domæne, der indeholder 12
7
21,69
0
0
Validering af gener udtrykkes forskelligt mellem Øst og vest tumor SAGE biblioteker
at valideret vores SAGE dataanalyse to gener betydeligt mere til udtryk i East tumorer (PDGFRA og RPL13) blev yderligere undersøgt i tre cellelinier, to fra Vesten (AGS og N87) og en fra Øst (MKN45). QRT-PCR viser et forhold på 825 til PDFGR (MKN45 /N87) og 4,68 for RPL13 (MKN45 /AGS) (fig. 6). Således er disse data bekræfter den observerede forskel i genekspression i SAGE tumor biblioteker. Interessant, størrelserne af genekspression forskelle i cellelinjer var ligner i SAGE tumor biblioteker. Figur 6 Amplifikation af PDGFRA (A) og RPL13 (B) mRNA ved QRT-PCR. I (A) blå linje er den østlige cellelinje (MKN45) og rød linje er Vesten cellelinje (N87). I (B) blå linje er den østlige cellelinien (MKN45) og rød linje er Vesten cellelinje (AGS). Begge gener overudtrykt i Østen (MKN45) cellelinje.
Diskussion
Vores resultater, baseret på to ikke-overvågede analyser, COA og support Tree, er meget tyder på et andet udtryk profil tumor SAGE biblioteker sammen med forskelle mellem normale og tumor prøver. Disse forskelle i ekspressionsniveauer kan have en indflydelse på den anerkendte bedre overlevelse East patienterne i forhold til Vesten. Både, COA og support Tree viser to klynger (mikrodissekeres og ikke-Mikrodissekterede prøver) blandet utydeligt, hvilket tyder på, at heterogenitet af en normal prøve ikke reduceres af mikrodissektion. Dette kan forklares ved multiple celle aktiviteter af de normale celler sammenlignet med tumorceller [16]. Men blandt tumor biblioteker blev en stram gruppering af Mikrodissekterede tumorer fundet. Disse resultater tyder på, at stigningen i renheden af prøven forbedrer homogeniteten af resultaterne. Kvarteret af xenotransplantaterne peger også på en stigning i homogenitet, men adskiller sig fra de Mikrodissekterede tumorprøver da de gruppe i forskellige subclusters. Denne forskel skyldes formentlig, at små ændringer i de transcriptomes givet af en anden genetisk miljø, såsom mikromiljøet givet ved omgivende dyrevæv [17]. På den anden side blev de ikke-Mikrodissekterede biblioteker fundet mere spredt i COA analyse, sandsynligvis på grund af kontaminering prøve og heterogenitet.
Den FatiGO + Resultaterne viser, at tumorcellerne er kendetegnet ved opregulering af gener relateret til celle organisation , biogenese og celleproliferation, og en nedregulering af gener relateret til celle-til-celle kommunikation. Efter søgning efter specifikke forskelle mellem Vesten og Østen tumor biblioteker, fandt vi, at de mest signifikant forskellige tags har en højere udtryk i øst sammenlignet med Vesten tumorer. Det synes således, at det gennemsnitlige udtryk niveau Vesten prøver falder mere end East prøver, sandsynligvis på grund af en bredere gen undertrykkelse.
Af de 5 gener identificeret med betydelig højere udtryk i Vesten bibliotekerne mindst to (COL1A1 og KLK10) er blevet forbundet med invasivitet og sygdomsprogression [9, 15]. COL1A1 er blevet rapporteret i forbindelse med mere avancerede tumor stadium i 46 gastriske carcinoma tilfælde [9]. KLK10 er rapporteret opreguleret i gastrisk samt colorektale carcinomer og forbundet med invasion og mere avanceret klinisk fase for begge typer af tumorer [15]. Desuden har vist sig, KRT17 opreguleret i human esophageal pladecellecarcinom (ESCC) og tilknyttet invasivitet [18]. Et andet gen, EMP1 er blevet forbundet til højt proliferative celletyper i mus hjernetumorer [19]. Kun CCDC12 gen ikke har tilgængelige kliniske data, og også mangler GO anmærkninger. Det QRT-PCR-analyse på cellelinjer bekræftede SAGE resultater og valideret overekspression af PDFGR og RPL13 i East tumor biblioteker.
Sammenfattende her rapporterer vi, at den fremherskende opregulering af invasive og metastatiske gener i Vesten tumor biblioteker kan resultere i en mere malign sygdom med en dårligere overlevelse. Tilsammen disse resultater kunne tyde på, at denne differentielt udtrykte gener kan bidrage til at forklare de observerede forskelle observeret i resultatet af gastrisk karcinom mellem Øst og Vest. Endelig vores analyse er et eksempel på, hvordan computational biologi effektivt kan hjælpe biomedicinske forskere med at identificere de molekylære mekanismer i sygdom [6].
Erklæringer
Taksigelser
vi takker David S. Holmes og Gonzalo riadi fra Center for Bioinformatik og genom Biologi, Life Science Foundation - Andres Bello University, Santiago, Chile og Wael El-Rifai fra Kirurgisk Oncology Branch Vanderbilt Ingram Cancer center, Vanderbilt University, Nashville, TN, USA, for nyttige diskussion af manuskriptet. Dette arbejde blev støttet af chilenske offentlige forskningsbevillinger FONDECYT 1030130 og FONIS SA06I20019 til AHC